1 minute read

누적 24/60. image·audio 성능이 매우 낮음.


오늘 결과 (6문제)

ID text image audio 정답
Korean-History-014 3 ❌ 4 ❌ 4 ❌ 2
Law-825 3 ❌ 3 ❌ 3 ❌ 4
Korean-History-095 3 ✅ 2 ❌ 2 ❌ 3
Law-777 3 ✅ 3 ✅ 3 ✅ 3
Law-944 3 ❌ 2 ❌ 4 ❌ 1
Korean-History-077 1 ✅ 3 ❌ 3 ❌ 1
모달리티 정답률
텍스트 3/6 = 50.0%
음성 1/6 = 16.7%
이미지 1/6 = 16.7%

text가 다시 향상된 반면 image와 audio는 유독 낮은 정답률을 보였다.


특이사항

Law-777: text ✅, image ✅, audio ✅ — 셋 모두 ③, 정답도 ③. (완전 일치)

Law-825: text ❌, image ❌, audio ❌ — 셋 모두 ③, 정답은 ④. (완전 합의인데 전부 오답)

Law-825는 모델이 뭔가 강한 확신을 갖고 ③을 고른 것 같은데 오답이라면, 꽤 흥미로운 분석이 가능하다. 보통 불일치가 모달리티 차이 때문인지, 그냥 모델의 불확실성 때문인지 구분이 어려운데, 이 경우처럼 3가지 모달리티 모두 다 같은 답을 내면 그나마 “모달리티와 무관하게 모델이 이렇게 판단했다”고 볼 수 있다고 가늠할 수 있기 때문이다.

Law-944에서 다른 모달리티는 정답 숫자만 내뱉는 "③" 짧은 응답을 하곤 하는데, 이 문제의 text 응답이 "정답은 ③번입니다."로 문장형식을 취했다.
파싱은 됐는데, 후처리 관점에서의 주의가 필요할 것으로 보인다. (문제 난이도나 형식에 따라 응답 스타일이 달라질 수도 있으므로..)


누적

모달리티 정답률
텍스트 11/24 = 45.8%
음성 8/24 = 33.3%
이미지 6/24 = 25.0%

격차가 조금씩 벌어지고 있다.


누적 추이

Cumulative Correct