1 minute read

6개 남음. 오늘 audio 에러 없음.


오늘 결과 (6문제)

ID text image audio 정답
Korean-History-003 3 ✅ 3 ✅ 3 ✅ 3
Korean-History-035 4 ✅ 2 ❌ 3 ❌ 4
Law-099 4 ❌ 2 ❌ 2 ❌ 1
Korean-History-075 4 ❌ 3 ❌ 2 ❌ 1
Law-284 1 ✅ 3 ❌ 3 ❌ 1
Korean-History-025 4 ❌ 3 ❌ 4 ❌ 2
모달리티 정답률
텍스트 3/6 = 50.0%
이미지 1/6 = 16.7%
음성 1/6 = 16.7%

KH-003은 3모달 모두 ③으로 정답. 전민변정도감 문제로, 문맥이 명확하고 선지 구분이 뚜렷한 유형이다. 54문제 중 5번째 3모달 일치 정답 케이스.

KH-035와 Law-284는 text만 정답을 맞힌 패턴. Law-284(모피트 문제)에서는 image/audio가 같은 오답(③ 메스너)을 공유하고 text만 정답(① 모피트)을 골랐다. 비텍스트 모달리티가 같이 틀리는 경우가 이날도 관찰된다.

KH-075는 3모달 답이 전부 다르다(④/③/②). 정답은 ①이라 셋 다 빗나감. 어제 KH-028과 같은 패턴으로, 3모달 완전 분산이 이틀 연속 나왔다.

audio 에러 없음. 누적 에러 3건 유지.


누적

모달리티 정답률
텍스트 20/54 = 37.0%
이미지 13/54 = 24.1%
음성 14/54 = 25.9%
음성* 14/51 = 27.5%

*에러 3건을 제외한 수치.

text 35.4% → 37.0% (+1.6p), image 25.0% → 24.1% (−0.9p). 순위 text > audio > image 유지. 6개 남음.

누적 추이

Cumulative Correct


4모델 비교 (샘플링셋 54개 공통)

모델 text image audio 불일치
HCX-SEED-Omni 51.9% 35.2% 35.2% 70.4%
Kanana-1.5-o 37.0% 24.1% 25.9% 75.9%
MiniCPM-o 2.6 29.6% 24.1% 24.1% 87.0%
Qwen2.5-Omni 22.2% 27.8% 24.1% 77.8%

에러 제외 시: Kanana audio 27.5%, 불일치 74.5% / Qwen image 29.4%, 불일치 76.5%