[log-07] 지식 — 진행 (36/60, audio 에러 2건)
누적 36/60. 오늘 6문제 (2배치). Law-549, Korean-History-071 audio 에러.
오늘 결과 (6문제)
| ID | text | image | audio | 정답 |
|---|---|---|---|---|
| Law-714 | 2 ✅ | 3 ❌ | 3 ❌ | 2 |
| Law-159 | 4 ✅ | 3 ❌ | 1 ❌ | 4 |
| Law-618 | 4 ❌ | 4 ❌ | 4 ❌ | 3 |
| Law-549 | 4 ❌ | 3 ✅ | ERR | 3 |
| Korean-History-054 | 2 ❌ | 3 ❌ | 3 ❌ | 4 |
| Korean-History-071 | 1 ❌ | 3 ✅ | ERR | 3 |
| 모달리티 | 정답률 |
|---|---|
| 텍스트 | 2/6 = 33.3% |
| 이미지 | 2/6 = 33.3% |
| 음성 | 0/4 = 0% (2건 에러) |
1배치(Law-714~618)에서는 text가 우세했고, 2배치(Law-549~KH-071)에서는 image가 우세로 뒤집혔다. Law-618은 3모달 모두 ④로 일치했는데 정답은 ③으로, log-03의 Law-825와 같은 패턴이다. 모달리티와 무관하게 모델이 강하게 확신하는 방향이 있는데 그게 오답인 경우. 이게 어떤 패턴을 띌 수도 있을까? 현재로써는 온전히 파악하긴 어렵지만, 나중을 위해 기록해본다.
에러 2건
- Law-549 audio:
Max audio length is 60 seconds— 렌더링된 음성 파일이 60초를 초과하여 API에서 거부됨. 법률 조문이 긴 문제에서 발생. - Korean-History-071 audio:
quota exceeded— 일일 API 쿼터 소진. 2배치 구성 시 마지막 문제에서 한도에 걸렸다.
누적
| 모달리티 | 정답률 |
|---|---|
| 텍스트 | 14/36 = 38.9% |
| 이미지 | 9/36 = 25.0% |
| 음성 | 10/36 = 27.8% |
| 음성* | 10/34 = 29.4% |
*에러 2건을 제외한 수치.
text > audio > image 순서는 계속 유지되고 있다.
누적 추이
