kanana-o modality gap — log-03: text의 ④ 편향 (18/60)
text가 오늘 ④만 골랐다.
log-01에서 text > audio > image 순서가 보였는데, 오늘은 정답률은 모든 모달리티가 동일했다.
오늘 결과 (6문제)
| ID | text | image | audio | 정답 |
|---|---|---|---|---|
| Korean-History-088 | 4 ❌ | 3 ✅ | 4 ❌ | 3 |
| Law-163 | 4 ✅ | 2 ❌ | 2 ❌ | 4 |
| Law-867 | 4 ❌ | 2 ❌ | 3 ✅ | 3 |
| Korean-History-064 | 4 ❌ | 4 ❌ | 3 ✅ | 3 |
| Law-270 | 4 ❌ | 2 ✅ | 3 ❌ | 2 |
| Law-470 | 4 ✅ | 2 ❌ | 3 ❌ | 4 |
| 모달리티 | 정답률 |
|---|---|
| 텍스트 | 2/6 = 33.3% |
| 음성 | 2/6 = 33.3% |
| 이미지 | 2/6 = 33.3% |
정답률이 같다고 해서 답이 같은 건 아니므로, 실제 불일치율은 100%였다. 각 모달리티가 전부 다른 답을 낸 경우가 3회(Law-867, Law-270, Law-470) 있었다.
(불일치율은 3개 모달리티의 답이 하나라도 다른 샘플의 비율이다. 정답 여부와는 무관하고, 셋 다 틀려도 답이 같으면 일치로 본다.)
text의 ④ 편향
text 모달리티의 응답을 보면 6개 문제 모두에 대해 전부 ④를 선택했다. 그 중 Law-470 하나만 정답으로, image와 audio는 ②, ③ 골고루 나왔으니 text만 다소 특이한 양상을 띈 것으로 보인다. Law 도메인 쏠림인지, 오늘 샘플 우연인지, 아니면 text 모달리티에 position bias가 있는 건지는 아직 알 수 없으므로, 다음 배치에서 이 패턴이 반복되는지 지켜보려 한다.
누적
| 모달리티 | 정답률 |
|---|---|
| 텍스트 | 8/18 = 44.4% |
| 음성 | 7/18 = 38.9% |
| 이미지 | 5/18 = 27.8% |
text > audio > image 순서는 유지. 불일치율 88.9%.
누적 추이
