[log-08] 지식 — 비교 모델 분석 방법 정리
지식 실험 비교 모델 분석 방법론 정리. RQ 재배치 반영.
RQ 재배치 (2026-04-16)
log-00에서 RQ2를 “과제 유형별 갭 차이”, RQ3를 “한국어 특화 vs 공통 현상”으로 설계했었다. 그러나 log-05에서 비교 모델 3개의 데이터 수집이 이미 완료되면서, “한국어 특화 vs 공통 현상” 비교가 먼저 되는게 자연스럽다. 반면 “과제 유형별 갭 차이”는 감정 실험 설계가 아직 진행 중이라 순서상도 나중이라, 데이터가 준비된 순서에 맞춰 RQ 번호를 재배치했다.
| 변경 전 | 변경 후 | |
|---|---|---|
| RQ2 | 과제 유형별 갭 차이 | 한국어 특화 vs 공통 현상 (→ Exp B) |
| RQ3 | 한국어 특화 vs 공통 현상 | 과제 유형별 갭 차이 (→ Exp A vs C) |
| Exp B | 감정 이해 | 모델 간 비교 (비교 모델 결과 이미 완료) |
| Exp C | (없음) | 감정 이해 (설계 예정) |
[추후 정리, 2026-04-28] 본 표의 ‘Exp A/B/C’ 레이블링은 task의 모델 scope 차이 중심이었으나, 이후 task 본질 레이블(지식 실험 / 감정 실험 / 감정분류 / 감정응답)로 재정비됨. 옛 ‘Exp B(비교 모델)’는 새 ‘지식 실험’에 흡수되고, 옛 ‘Exp C(감정 이해)’는 ‘감정분류’와 ‘감정응답’ 두 task로 분리.
현재 상태
| 실험 | 상태 | 비고 |
|---|---|---|
| Exp A (Kanana) | 36/60 | 24개 남음 |
| Exp B (비교 모델) | 데이터 완료 | HCX/Qwen/MiniCPM 각 60/60 + 전체 n=1100 |
| Exp C (감정) | 설계 예정 | — |
지식 실험 비교 모델은 Kanana 60개 완료 즉시 최종 비교가 가능한 상태다.
비교 모델 분석 — 비교 축 3개
① 한국어 특화 vs 비특화
- 한국어 특화 (Kanana, HCX) vs 비특화 (Qwen, MiniCPM)
- 중간 결과: 한국어 특화 모델이 전 모달리티에서 우위 (HCX/Kanana > MiniCPM/Qwen)
- 핵심 질문: text 우위 패턴의 강도가 한국어 특화 여부에 따라 다른가?
② 모달리티별 순위
전체 n=1100에서 4개 모델 모두 text > image/audio (omni 공통 패턴). 갭 크기는 HCX 21.6p ~ Qwen 3.9p로 모델별 편차가 크다. 모델별 수치와 60샘플→1100 변화는 log-06 참조.
③ 불일치율 패턴
전 모델 75~88%로 omni 공통 현상. HCX 75.2%로 가장 일관적이고 MiniCPM 88.2%로 가장 불안정하다. 메트릭 정의와 랜덤 baseline(≈94%) 계산은 log-06 참조.
추가 메트릭 — ④ Kendall’s tau-b (전체셋 1100)
모달리티 쌍별 정오답 패턴의 순위 상관을 측정하기 위해 Kendall’s tau-b (Kendall, 1938)를 사용한다. 각 문항에 대해 모달리티별 정오답을 이진 벡터(1=정답, 0=오답)로 만든 뒤, 모든 문항 쌍 (i, j)에서 두 모달리티가 같은 방향이면 concordant, 반대 방향이면 discordant로 분류한다. tau-b = (concordant - discordant) / sqrt((n0 - n1)(n0 - n2))로, 이진 데이터에서 빈번한 tie를 분모에서 보정한다. 1.0이면 정오답 패턴이 완전 일치, 0이면 독립적, 음수면 한쪽이 맞을 때 다른 쪽이 틀리는 경향이다.
| 모델 | txt-img | txt-aud | img-aud |
|---|---|---|---|
| HCX | 0.020 | 0.020 | 1.000 |
| Kanana | 0.200 | 0.242 | 0.206 |
| MiniCPM | 0.026 | 0.035 | 0.205 |
| Qwen | 0.206 | 0.157 | 0.202 |
비교 모델은 1100셋, Kanana는 60/60 기준. 에러는 오답 처리.
- HCX img-aud = 1.000 — image와 audio의 정오답 패턴이 완전 일치한다. 두 모달리티가 사실상 같은 내부 경로를 타는 것으로 추정되며, txt와는 거의 독립적이다(0.020)
- Qwen이 모달리티 간 상관이 가장 균등하다 (0.16~0.21). 모달리티 간 정보 공유가 가장 고른 셈이다
- MiniCPM은 전체적으로 상관이 낮다. 모달리티 간 가장 불안정한 모델이다
- Kanana txt-aud 0.242 — 텍스트와 오디오가 상대적으로 일관된다. 한국어 음성 처리 강점이 반영된 것일 수 있다
추가 메트릭 — ⑤ Subset 분석 (전체셋 1100)
[Korean-History]
| 모델 | text | image | audio | 불일치 |
|---|---|---|---|---|
| HCX | 43.0% | 31.0% | 31.0% | 79.0% |
| Kanana | 38.9% | 22.2% | 41.2% | 82.4% |
| MiniCPM | 32.0% | 31.0% | 26.5% | 93.9% |
| Qwen | 26.0% | 31.0% | 29.0% | 79.0% |
[Law]
| 모델 | text | image | audio | 불일치 |
|---|---|---|---|---|
| HCX | 50.0% | 27.5% | 27.5% | 74.8% |
| Kanana | 38.9% | 27.8% | 17.6% | 70.6% |
| MiniCPM | 36.9% | 23.0% | 25.2% | 87.2% |
| Qwen | 33.7% | 28.9% | 27.3% | 82.3% |
Kanana는 36/60 기준 (History 17, Law 17).
- 전 모델에서 Law의 text 정확도가 더 높다. History는 맥락 의존 문제가 많아서 text 우위가 약화되는 것으로 보인다
- Kanana History: audio(41.2%) > text(38.9%) 역전. Law에서는 audio 17.6%로 최저다. 도메인별로 모달리티 갭의 방향이 다르다
- Qwen History: image(31.0%) > text(26.0%). 비한국어 모델의 한국어 text 처리 한계가 History에서 더 부각된다
- 불일치율은 History가 전반적으로 높다. 도메인 난이도 차이가 반영된 것으로 보인다
- 감정 실험 이전에도 이미 도메인별 모달리티 갭 차이가 확인되므로, RQ3 보강에 활용할 수 있다
Kanana 포함 4모델 스냅샷
log-06 표에 Kanana 36/60 진행분을 합친 버전이다.
| 모델 | 파라미터 | 한국어 특화 | text | image | audio | 불일치 |
|---|---|---|---|---|---|---|
| HCX-SEED-Omni | 8B | ✅ | 49.4% | 27.8% | 27.8% | 75.2% |
| Kanana-1.5-o | 11.6B | ✅ | 38.9% | 25.0% | 27.8% | 77.8% |
| MiniCPM-o 2.6 | 8B | ❌ | 36.5% | 23.7% | 24.5% | 88.2% |
| Qwen2.5-Omni | 7B | ❌ | 33.0% | 29.1% | 27.5% | 82.0% |
Kanana는 36/60 기준. 나머지는 전체 n=1100.
참고: Kanana-o와 KMMLU
log-00에서 언급했듯 Kanana-o 모델 카드는 KoNet(89.44)만 보고하고 KMMLU는 다루지 않는다. 다만 텍스트 전용 Kanana-1.5-8B base 모델 카드에는 KMMLU 48.94(5-shot)가 있어 본 실험 text 조건 38.9%와 대조해볼 여지는 있다. subset(전체 vs History+Law), shot(5-shot vs 0-shot), omni vs text-only 차이가 겹쳐 직접 비교는 어렵지만 참고 수치로 남겨둔다.
References
- Kendall, M. G. (1938). A New Measure of Rank Correlation. Biometrika, 30(1-2), 81-93. 순위 상관 계수 tau 제안. 본 실험에서는 tie 보정이 포함된 tau-b 변형을 사용.