1 minute read

전반적으로 낮은 성능. audio 에러 3건째.


오늘 결과 (6문제)

ID text image audio 정답
Korean-History-028 4 ❌ 2 ❌ 3 ❌ 1
Law-367 3 ❌ 3 ❌ 2 ✅ 2
Law-387 3 ✅ 3 ✅ ERR 3
Law-996 4 ❌ 4 ❌ 4 ❌ 1
Korean-History-004 4 ❌ 3 ❌ 4 ❌ 2
Law-104 3 ❌ 3 ❌ 3 ❌ 2
모달리티 정답률
텍스트 1/6 = 16.7%
이미지 1/6 = 16.7%
음성 1/5 = 20.0% (1건 에러)

Law-387은 audio가 60초 초과로 에러. 누적 에러 3건째(Law-549, KH-071, Law-387). 긴 Law 문제에서 TTS 길이 제한이 반복적으로 걸린다.

Law-996과 Law-104는 3모달 모두 같은 답을 냈지만 둘 다 오답. log-03의 Law-825 패턴(일관된 합의 + 전부 틀림)이 2회 발생했다.

KH-028은 반대로 3모달 답이 전부 다르다(④/②/③). 정답은 ①이라 셋 다 빗나감.

Law-367은 audio만 정답을 맞힌 유일한 케이스. text/image가 같은 오답(③)을 공유하고 audio만 정답(②)을 골랐다.


누적

모달리티 정답률
텍스트 17/48 = 35.4%
이미지 12/48 = 25.0%
음성 13/48 = 27.1%
음성* 13/45 = 28.9%

*에러 3건을 제외한 수치.

text > audio > image 순서 유지. text가 전일(38.1%) 대비 하락. 12개 남음.

누적 추이

Cumulative Correct


4모델 비교 (샘플링셋 48개 공통)

모델 text image audio 불일치
HCX-SEED-Omni 52.1% 37.5% 37.5% 68.8%
Kanana-1.5-o 35.4% 25.0% 27.1% 75.0%
MiniCPM-o 2.6 31.2% 22.9% 20.8% 87.5%
Qwen2.5-Omni 22.9% 27.1% 20.8% 77.1%

에러 제외 시: Kanana audio 28.9%, 불일치 73.3% / Qwen image 28.3%, 불일치 76.1%