[log-12] 지식 — 진행 (54/60, audio 에러 없음)
6개 남음. 오늘 audio 에러 없음.
오늘 결과 (6문제)
| ID | text | image | audio | 정답 |
|---|---|---|---|---|
| Korean-History-003 | 3 ✅ | 3 ✅ | 3 ✅ | 3 |
| Korean-History-035 | 4 ✅ | 2 ❌ | 3 ❌ | 4 |
| Law-099 | 4 ❌ | 2 ❌ | 2 ❌ | 1 |
| Korean-History-075 | 4 ❌ | 3 ❌ | 2 ❌ | 1 |
| Law-284 | 1 ✅ | 3 ❌ | 3 ❌ | 1 |
| Korean-History-025 | 4 ❌ | 3 ❌ | 4 ❌ | 2 |
| 모달리티 | 정답률 |
|---|---|
| 텍스트 | 3/6 = 50.0% |
| 이미지 | 1/6 = 16.7% |
| 음성 | 1/6 = 16.7% |
KH-003은 3모달 모두 ③으로 정답. 전민변정도감 문제로, 문맥이 명확하고 선지 구분이 뚜렷한 유형이다. 54문제 중 5번째 3모달 일치 정답 케이스.
KH-035와 Law-284는 text만 정답을 맞힌 패턴. Law-284(모피트 문제)에서는 image/audio가 같은 오답(③ 메스너)을 공유하고 text만 정답(① 모피트)을 골랐다. 비텍스트 모달리티가 같이 틀리는 경우가 이날도 관찰된다.
KH-075는 3모달 답이 전부 다르다(④/③/②). 정답은 ①이라 셋 다 빗나감. 어제 KH-028과 같은 패턴으로, 3모달 완전 분산이 이틀 연속 나왔다.
audio 에러 없음. 누적 에러 3건 유지.
누적
| 모달리티 | 정답률 |
|---|---|
| 텍스트 | 20/54 = 37.0% |
| 이미지 | 13/54 = 24.1% |
| 음성 | 14/54 = 25.9% |
| 음성* | 14/51 = 27.5% |
*에러 3건을 제외한 수치.
text 35.4% → 37.0% (+1.6p), image 25.0% → 24.1% (−0.9p). 순위 text > audio > image 유지. 6개 남음.
누적 추이

4모델 비교 (샘플링셋 54개 공통)
| 모델 | text | image | audio | 불일치 |
|---|---|---|---|---|
| HCX-SEED-Omni | 51.9% | 35.2% | 35.2% | 70.4% |
| Kanana-1.5-o | 37.0% | 24.1% | 25.9% | 75.9% |
| MiniCPM-o 2.6 | 29.6% | 24.1% | 24.1% | 87.0% |
| Qwen2.5-Omni | 22.2% | 27.8% | 24.1% | 77.8% |
에러 제외 시: Kanana audio 27.5%, 불일치 74.5% / Qwen image 29.4%, 불일치 76.5%