[log-04] 지식 — 3모달 양극화 (24/60)

April 8, 2026 1 minute read

누적 24/60. image·audio 성능이 매우 낮음.

오늘 결과 (6문제)

ID	text	image	audio	정답
Korean-History-014	3 ❌	4 ❌	4 ❌	2
Law-825	3 ❌	3 ❌	3 ❌	4
Korean-History-095	3 ✅	2 ❌	2 ❌	3
Law-777	3 ✅	3 ✅	3 ✅	3
Law-944	3 ❌	2 ❌	4 ❌	1
Korean-History-077	1 ✅	3 ❌	3 ❌	1

모달리티	정답률
텍스트	3/6 = 50.0%
음성	1/6 = 16.7%
이미지	1/6 = 16.7%

text가 다시 향상된 반면 image와 audio는 유독 낮은 정답률을 보였다.

특이사항

Law-777: text ✅, image ✅, audio ✅ — 셋 모두 ③, 정답도 ③. (완전 일치)

Law-825: text ❌, image ❌, audio ❌ — 셋 모두 ③, 정답은 ④. (완전 합의인데 전부 오답)

Law-825는 모델이 뭔가 강한 확신을 갖고 ③을 고른 것 같은데 오답이라면, 꽤 흥미로운 분석이 가능하다. 보통 불일치가 모달리티 차이 때문인지, 그냥 모델의 불확실성 때문인지 구분이 어려운데, 이 경우처럼 3가지 모달리티 모두 다 같은 답을 내면 그나마 “모달리티와 무관하게 모델이 이렇게 판단했다”고 볼 수 있다고 가늠할 수 있기 때문이다.

Law-944에서 다른 모달리티는 정답 숫자만 내뱉는 "③" 짧은 응답을 하곤 하는데, 이 문제의 text 응답이 "정답은 ③번입니다."로 문장형식을 취했다.
파싱은 됐는데, 후처리 관점에서의 주의가 필요할 것으로 보인다. (문제 난이도나 형식에 따라 응답 스타일이 달라질 수도 있으므로..)

누적

모달리티	정답률
텍스트	11/24 = 45.8%
음성	8/24 = 33.3%
이미지	6/24 = 25.0%

격차가 조금씩 벌어지고 있다.

누적 추이

Cumulative Correct