kanana-o modality gap — log-04: 3모달 양극화 (24/60)
누적 24/60. image·audio 성능이 매우 낮음.
오늘 결과 (6문제)
| ID | text | image | audio | 정답 |
|---|---|---|---|---|
| Korean-History-014 | 3 ❌ | 4 ❌ | 4 ❌ | 2 |
| Law-825 | 3 ❌ | 3 ❌ | 3 ❌ | 4 |
| Korean-History-095 | 3 ✅ | 2 ❌ | 2 ❌ | 3 |
| Law-777 | 3 ✅ | 3 ✅ | 3 ✅ | 3 |
| Law-944 | 3 ❌ | 2 ❌ | 4 ❌ | 1 |
| Korean-History-077 | 1 ✅ | 3 ❌ | 3 ❌ | 1 |
| 모달리티 | 정답률 |
|---|---|
| 텍스트 | 3/6 = 50.0% |
| 음성 | 1/6 = 16.7% |
| 이미지 | 1/6 = 16.7% |
text가 다시 향상된 반면 image와 audio는 유독 낮은 정답률을 보였다.
특이사항
Law-777: text ✅, image ✅, audio ✅ — 셋 모두 ③, 정답도 ③. (완전 일치)
Law-825: text ❌, image ❌, audio ❌ — 셋 모두 ③, 정답은 ④. (완전 합의인데 전부 오답)
Law-825는 모델이 뭔가 강한 확신을 갖고 ③을 고른 것 같은데 오답이라면, 꽤 흥미로운 분석이 가능하다. 보통 불일치가 모달리티 차이 때문인지, 그냥 모델의 불확실성 때문인지 구분이 어려운데, 이 경우처럼 3가지 모달리티 모두 다 같은 답을 내면 그나마 “모달리티와 무관하게 모델이 이렇게 판단했다”고 볼 수 있다고 가늠할 수 있기 때문이다.
Law-944에서 다른 모달리티는 정답 숫자만 내뱉는 "③" 짧은 응답을 하곤 하는데,
이 문제의 text 응답이 "정답은 ③번입니다."로 문장형식을 취했다.
파싱은 됐는데, 후처리 관점에서의 주의가 필요할 것으로 보인다.
(문제 난이도나 형식에 따라 응답 스타일이 달라질 수도 있으므로..)
누적
| 모달리티 | 정답률 |
|---|---|
| 텍스트 | 11/24 = 45.8% |
| 음성 | 8/24 = 33.3% |
| 이미지 | 6/24 = 25.0% |
격차가 조금씩 벌어지고 있다.
누적 추이
