1 minute read

누적 42/60. 오늘 6문제 (History 4, Law 2). 에러 없음.


오늘 결과 (6문제)

ID text image audio 정답
Law-220 1 ✅ 2 ❌ 4 ❌ 1
Korean-History-069 3 ❌ 3 ❌ 3 ❌ 1
Law-127 1 ❌ 4 ✅ 1 ❌ 4
Korean-History-000 2 ❌ 2 ❌ 3 ✅ 3
Korean-History-027 3 ❌ 1 ❌ 4 ❌ 2
Korean-History-089 4 ✅ 4 ✅ 4 ✅ 4
모달리티 정답률
텍스트 2/6 = 33.3%
이미지 2/6 = 33.3%
음성 2/6 = 33.3%

오늘은 3모달 정답률이 완전히 동일했다. 다만 맞힌 문제가 모달리티마다 다르다. Law-220은 text만 정답, Law-127은 image만 정답, KH-000은 audio만 정답으로, 모달리티 간 상보적(complementary) 패턴이 뚜렷하게 나타났다.

KH-069는 3모달 모두 ③으로 일치했으나 정답은 ①로, 모달리티와 무관하게 틀린 방향으로 확신한 경우다. KH-089는 반대로 3모달 모두 ④로 정답 일치. 모든 실험이 돌아간 후 이 일치율에 대한 분석을 조금 나눠서 진행해봐야겠다. 현재까지에서 개인적으로 흥미로운 부분은 일관되게 맞히거나 일관되게 틀리는 양극화가 보인다.


누적

모달리티 정답률
텍스트 16/42 = 38.1%
이미지 11/42 = 26.2%
음성 12/42 = 28.6%
음성* 12/40 = 30.0%

*에러 2건을 제외한 수치.

text > audio > image 순서는 유지되고 있다. 전일 대비 text가 소폭 하락(38.9→38.1%)하고 image(25.0→26.2%)와 audio(27.8→28.6%)가 소폭 상승했지만, 전체적으로 추세는 안정적이다.


4모델 비교 — 샘플링셋 (Kanana done 42개 공통)

모델 text image audio 불일치
HCX-SEED-Omni 54.8% 38.1% 38.1% 66.7%
Kanana-1.5-o 38.1% 26.2% 28.6% 76.2%
MiniCPM-o 2.6 28.6% 23.8% 19.0% 85.7%
Qwen2.5-Omni 21.4% 26.2% 21.4% 76.2%

에러 제외 시: Kanana audio 30.0%, 불일치 75.0% / Qwen image 27.5%, 불일치 75.0%

HCX 우위는 변함없고, Kanana가 2위를 유지하고 있다.


금일 배치에서 모달리티별로 다른 문제를 맞히는 상보적 패턴이 보인다. 원래 있었는데 눈치 못챈걸지도 모르지만 아무튼.. 정보가 동일한데도 인코딩 경로에 따라 다른 지식이 활성화되는 것처럼 보인다.


누적 추이

Cumulative Correct