3 minute read

지식 실험 비교 모델 분석 방법론 정리. RQ 재배치 반영.


RQ 재배치 (2026-04-16)

log-00에서 RQ2를 “과제 유형별 갭 차이”, RQ3를 “한국어 특화 vs 공통 현상”으로 설계했었다. 그러나 log-05에서 비교 모델 3개의 데이터 수집이 이미 완료되면서, “한국어 특화 vs 공통 현상” 비교가 먼저 되는게 자연스럽다. 반면 “과제 유형별 갭 차이”는 감정 실험 설계가 아직 진행 중이라 순서상도 나중이라, 데이터가 준비된 순서에 맞춰 RQ 번호를 재배치했다.

  변경 전 변경 후
RQ2 과제 유형별 갭 차이 한국어 특화 vs 공통 현상 (→ Exp B)
RQ3 한국어 특화 vs 공통 현상 과제 유형별 갭 차이 (→ Exp A vs C)
Exp B 감정 이해 모델 간 비교 (비교 모델 결과 이미 완료)
Exp C (없음) 감정 이해 (설계 예정)

[추후 정리, 2026-04-28] 본 표의 ‘Exp A/B/C’ 레이블링은 task의 모델 scope 차이 중심이었으나, 이후 task 본질 레이블(지식 실험 / 감정 실험 / 감정분류 / 감정응답)로 재정비됨. 옛 ‘Exp B(비교 모델)’는 새 ‘지식 실험’에 흡수되고, 옛 ‘Exp C(감정 이해)’는 ‘감정분류’와 ‘감정응답’ 두 task로 분리.


현재 상태

실험 상태 비고
Exp A (Kanana) 36/60 24개 남음
Exp B (비교 모델) 데이터 완료 HCX/Qwen/MiniCPM 각 60/60 + 전체 n=1100
Exp C (감정) 설계 예정

지식 실험 비교 모델은 Kanana 60개 완료 즉시 최종 비교가 가능한 상태다.


비교 모델 분석 — 비교 축 3개

① 한국어 특화 vs 비특화

  • 한국어 특화 (Kanana, HCX) vs 비특화 (Qwen, MiniCPM)
  • 중간 결과: 한국어 특화 모델이 전 모달리티에서 우위 (HCX/Kanana > MiniCPM/Qwen)
  • 핵심 질문: text 우위 패턴의 강도가 한국어 특화 여부에 따라 다른가?

② 모달리티별 순위

전체 n=1100에서 4개 모델 모두 text > image/audio (omni 공통 패턴). 갭 크기는 HCX 21.6p ~ Qwen 3.9p로 모델별 편차가 크다. 모델별 수치와 60샘플→1100 변화는 log-06 참조.

③ 불일치율 패턴

전 모델 75~88%로 omni 공통 현상. HCX 75.2%로 가장 일관적이고 MiniCPM 88.2%로 가장 불안정하다. 메트릭 정의와 랜덤 baseline(≈94%) 계산은 log-06 참조.


추가 메트릭 — ④ Kendall’s tau-b (전체셋 1100)

모달리티 쌍별 정오답 패턴의 순위 상관을 측정하기 위해 Kendall’s tau-b (Kendall, 1938)를 사용한다. 각 문항에 대해 모달리티별 정오답을 이진 벡터(1=정답, 0=오답)로 만든 뒤, 모든 문항 쌍 (i, j)에서 두 모달리티가 같은 방향이면 concordant, 반대 방향이면 discordant로 분류한다. tau-b = (concordant - discordant) / sqrt((n0 - n1)(n0 - n2))로, 이진 데이터에서 빈번한 tie를 분모에서 보정한다. 1.0이면 정오답 패턴이 완전 일치, 0이면 독립적, 음수면 한쪽이 맞을 때 다른 쪽이 틀리는 경향이다.

모델 txt-img txt-aud img-aud
HCX 0.020 0.020 1.000
Kanana 0.200 0.242 0.206
MiniCPM 0.026 0.035 0.205
Qwen 0.206 0.157 0.202

비교 모델은 1100셋, Kanana는 60/60 기준. 에러는 오답 처리.

  • HCX img-aud = 1.000 — image와 audio의 정오답 패턴이 완전 일치한다. 두 모달리티가 사실상 같은 내부 경로를 타는 것으로 추정되며, txt와는 거의 독립적이다(0.020)
  • Qwen이 모달리티 간 상관이 가장 균등하다 (0.16~0.21). 모달리티 간 정보 공유가 가장 고른 셈이다
  • MiniCPM은 전체적으로 상관이 낮다. 모달리티 간 가장 불안정한 모델이다
  • Kanana txt-aud 0.242 — 텍스트와 오디오가 상대적으로 일관된다. 한국어 음성 처리 강점이 반영된 것일 수 있다

추가 메트릭 — ⑤ Subset 분석 (전체셋 1100)

[Korean-History]

모델 text image audio 불일치
HCX 43.0% 31.0% 31.0% 79.0%
Kanana 38.9% 22.2% 41.2% 82.4%
MiniCPM 32.0% 31.0% 26.5% 93.9%
Qwen 26.0% 31.0% 29.0% 79.0%

[Law]

모델 text image audio 불일치
HCX 50.0% 27.5% 27.5% 74.8%
Kanana 38.9% 27.8% 17.6% 70.6%
MiniCPM 36.9% 23.0% 25.2% 87.2%
Qwen 33.7% 28.9% 27.3% 82.3%

Kanana는 36/60 기준 (History 17, Law 17).

  • 전 모델에서 Law의 text 정확도가 더 높다. History는 맥락 의존 문제가 많아서 text 우위가 약화되는 것으로 보인다
  • Kanana History: audio(41.2%) > text(38.9%) 역전. Law에서는 audio 17.6%로 최저다. 도메인별로 모달리티 갭의 방향이 다르다
  • Qwen History: image(31.0%) > text(26.0%). 비한국어 모델의 한국어 text 처리 한계가 History에서 더 부각된다
  • 불일치율은 History가 전반적으로 높다. 도메인 난이도 차이가 반영된 것으로 보인다
  • 감정 실험 이전에도 이미 도메인별 모달리티 갭 차이가 확인되므로, RQ3 보강에 활용할 수 있다

Kanana 포함 4모델 스냅샷

log-06 표에 Kanana 36/60 진행분을 합친 버전이다.

모델 파라미터 한국어 특화 text image audio 불일치
HCX-SEED-Omni 8B 49.4% 27.8% 27.8% 75.2%
Kanana-1.5-o 11.6B 38.9% 25.0% 27.8% 77.8%
MiniCPM-o 2.6 8B 36.5% 23.7% 24.5% 88.2%
Qwen2.5-Omni 7B 33.0% 29.1% 27.5% 82.0%

Kanana는 36/60 기준. 나머지는 전체 n=1100.


참고: Kanana-o와 KMMLU

log-00에서 언급했듯 Kanana-o 모델 카드는 KoNet(89.44)만 보고하고 KMMLU는 다루지 않는다. 다만 텍스트 전용 Kanana-1.5-8B base 모델 카드에는 KMMLU 48.94(5-shot)가 있어 본 실험 text 조건 38.9%와 대조해볼 여지는 있다. subset(전체 vs History+Law), shot(5-shot vs 0-shot), omni vs text-only 차이가 겹쳐 직접 비교는 어렵지만 참고 수치로 남겨둔다.


References

  1. Kendall, M. G. (1938). A New Measure of Rank Correlation. Biometrika, 30(1-2), 81-93. 순위 상관 계수 tau 제안. 본 실험에서는 tie 보정이 포함된 tau-b 변형을 사용.