[log-11] 지식 — 진행 (48/60, audio 에러 누적 3건)
전반적으로 낮은 성능. audio 에러 3건째.
오늘 결과 (6문제)
| ID | text | image | audio | 정답 |
|---|---|---|---|---|
| Korean-History-028 | 4 ❌ | 2 ❌ | 3 ❌ | 1 |
| Law-367 | 3 ❌ | 3 ❌ | 2 ✅ | 2 |
| Law-387 | 3 ✅ | 3 ✅ | ERR | 3 |
| Law-996 | 4 ❌ | 4 ❌ | 4 ❌ | 1 |
| Korean-History-004 | 4 ❌ | 3 ❌ | 4 ❌ | 2 |
| Law-104 | 3 ❌ | 3 ❌ | 3 ❌ | 2 |
| 모달리티 | 정답률 |
|---|---|
| 텍스트 | 1/6 = 16.7% |
| 이미지 | 1/6 = 16.7% |
| 음성 | 1/5 = 20.0% (1건 에러) |
Law-387은 audio가 60초 초과로 에러. 누적 에러 3건째(Law-549, KH-071, Law-387). 긴 Law 문제에서 TTS 길이 제한이 반복적으로 걸린다.
Law-996과 Law-104는 3모달 모두 같은 답을 냈지만 둘 다 오답. log-03의 Law-825 패턴(일관된 합의 + 전부 틀림)이 2회 발생했다.
KH-028은 반대로 3모달 답이 전부 다르다(④/②/③). 정답은 ①이라 셋 다 빗나감.
Law-367은 audio만 정답을 맞힌 유일한 케이스. text/image가 같은 오답(③)을 공유하고 audio만 정답(②)을 골랐다.
누적
| 모달리티 | 정답률 |
|---|---|
| 텍스트 | 17/48 = 35.4% |
| 이미지 | 12/48 = 25.0% |
| 음성 | 13/48 = 27.1% |
| 음성* | 13/45 = 28.9% |
*에러 3건을 제외한 수치.
text > audio > image 순서 유지. text가 전일(38.1%) 대비 하락. 12개 남음.
누적 추이

4모델 비교 (샘플링셋 48개 공통)
| 모델 | text | image | audio | 불일치 |
|---|---|---|---|---|
| HCX-SEED-Omni | 52.1% | 37.5% | 37.5% | 68.8% |
| Kanana-1.5-o | 35.4% | 25.0% | 27.1% | 75.0% |
| MiniCPM-o 2.6 | 31.2% | 22.9% | 20.8% | 87.5% |
| Qwen2.5-Omni | 22.9% | 27.1% | 20.8% | 77.1% |
에러 제외 시: Kanana audio 28.9%, 불일치 73.3% / Qwen image 28.3%, 불일치 76.1%