[log-08] 지식 — 비교 모델 분석 방법 정리

April 16, 2026 3 minute read

지식 실험 비교 모델 분석 방법론 정리. RQ 재배치 반영.

RQ 재배치 (2026-04-16)

log-00에서 RQ2를 “과제 유형별 갭 차이”, RQ3를 “한국어 특화 vs 공통 현상”으로 설계했었다. 그러나 log-05에서 비교 모델 3개의 데이터 수집이 이미 완료되면서, “한국어 특화 vs 공통 현상” 비교가 먼저 되는게 자연스럽다. 반면 “과제 유형별 갭 차이”는 감정 실험 설계가 아직 진행 중이라 순서상도 나중이라, 데이터가 준비된 순서에 맞춰 RQ 번호를 재배치했다.

	변경 전	변경 후
RQ2	과제 유형별 갭 차이	한국어 특화 vs 공통 현상 (→ Exp B)
RQ3	한국어 특화 vs 공통 현상	과제 유형별 갭 차이 (→ Exp A vs C)
Exp B	감정 이해	모델 간 비교 (비교 모델 결과 이미 완료)
Exp C	(없음)	감정 이해 (설계 예정)

[추후 정리, 2026-04-28] 본 표의 ‘Exp A/B/C’ 레이블링은 task의 모델 scope 차이 중심이었으나, 이후 task 본질 레이블(지식 실험 / 감정 실험 / 감정분류 / 감정응답)로 재정비됨. 옛 ‘Exp B(비교 모델)’는 새 ‘지식 실험’에 흡수되고, 옛 ‘Exp C(감정 이해)’는 ‘감정분류’와 ‘감정응답’ 두 task로 분리.

현재 상태

실험	상태	비고
Exp A (Kanana)	36/60	24개 남음
Exp B (비교 모델)	데이터 완료	HCX/Qwen/MiniCPM 각 60/60 + 전체 n=1100
Exp C (감정)	설계 예정	—

지식 실험 비교 모델은 Kanana 60개 완료 즉시 최종 비교가 가능한 상태다.

비교 모델 분석 — 비교 축 3개

① 한국어 특화 vs 비특화

한국어 특화 (Kanana, HCX) vs 비특화 (Qwen, MiniCPM)
중간 결과: 한국어 특화 모델이 전 모달리티에서 우위 (HCX/Kanana > MiniCPM/Qwen)
핵심 질문: text 우위 패턴의 강도가 한국어 특화 여부에 따라 다른가?

② 모달리티별 순위

전체 n=1100에서 4개 모델 모두 text > image/audio (omni 공통 패턴). 갭 크기는 HCX 21.6p ~ Qwen 3.9p로 모델별 편차가 크다. 모델별 수치와 60샘플→1100 변화는 log-06 참조.

③ 불일치율 패턴

전 모델 75~88%로 omni 공통 현상. HCX 75.2%로 가장 일관적이고 MiniCPM 88.2%로 가장 불안정하다. 메트릭 정의와 랜덤 baseline(≈94%) 계산은 log-06 참조.

추가 메트릭 — ④ Kendall’s tau-b (전체셋 1100)

모달리티 쌍별 정오답 패턴의 순위 상관을 측정하기 위해 Kendall’s tau-b (Kendall, 1938)를 사용한다. 각 문항에 대해 모달리티별 정오답을 이진 벡터(1=정답, 0=오답)로 만든 뒤, 모든 문항 쌍 (i, j)에서 두 모달리티가 같은 방향이면 concordant, 반대 방향이면 discordant로 분류한다. tau-b = (concordant - discordant) / sqrt((n0 - n1)(n0 - n2))로, 이진 데이터에서 빈번한 tie를 분모에서 보정한다. 1.0이면 정오답 패턴이 완전 일치, 0이면 독립적, 음수면 한쪽이 맞을 때 다른 쪽이 틀리는 경향이다.

모델	txt-img	txt-aud	img-aud
HCX	0.020	0.020	1.000
Kanana	0.200	0.242	0.206
MiniCPM	0.026	0.035	0.205
Qwen	0.206	0.157	0.202

비교 모델은 1100셋, Kanana는 60/60 기준. 에러는 오답 처리.

HCX img-aud = 1.000 — image와 audio의 정오답 패턴이 완전 일치한다. 두 모달리티가 사실상 같은 내부 경로를 타는 것으로 추정되며, txt와는 거의 독립적이다(0.020)
Qwen이 모달리티 간 상관이 가장 균등하다 (0.16~0.21). 모달리티 간 정보 공유가 가장 고른 셈이다
MiniCPM은 전체적으로 상관이 낮다. 모달리티 간 가장 불안정한 모델이다
Kanana txt-aud 0.242 — 텍스트와 오디오가 상대적으로 일관된다. 한국어 음성 처리 강점이 반영된 것일 수 있다

추가 메트릭 — ⑤ Subset 분석 (전체셋 1100)

[Korean-History]

모델	text	image	audio	불일치
HCX	43.0%	31.0%	31.0%	79.0%
Kanana	38.9%	22.2%	41.2%	82.4%
MiniCPM	32.0%	31.0%	26.5%	93.9%
Qwen	26.0%	31.0%	29.0%	79.0%

[Law]

모델	text	image	audio	불일치
HCX	50.0%	27.5%	27.5%	74.8%
Kanana	38.9%	27.8%	17.6%	70.6%
MiniCPM	36.9%	23.0%	25.2%	87.2%
Qwen	33.7%	28.9%	27.3%	82.3%

Kanana는 36/60 기준 (History 17, Law 17).

전 모델에서 Law의 text 정확도가 더 높다. History는 맥락 의존 문제가 많아서 text 우위가 약화되는 것으로 보인다
Kanana History: audio(41.2%) > text(38.9%) 역전. Law에서는 audio 17.6%로 최저다. 도메인별로 모달리티 갭의 방향이 다르다
Qwen History: image(31.0%) > text(26.0%). 비한국어 모델의 한국어 text 처리 한계가 History에서 더 부각된다
불일치율은 History가 전반적으로 높다. 도메인 난이도 차이가 반영된 것으로 보인다
감정 실험 이전에도 이미 도메인별 모달리티 갭 차이가 확인되므로, RQ3 보강에 활용할 수 있다

Kanana 포함 4모델 스냅샷

log-06 표에 Kanana 36/60 진행분을 합친 버전이다.

모델	파라미터	한국어 특화	text	image	audio	불일치
HCX-SEED-Omni	8B	✅	49.4%	27.8%	27.8%	75.2%
Kanana-1.5-o	11.6B	✅	38.9%	25.0%	27.8%	77.8%
MiniCPM-o 2.6	8B	❌	36.5%	23.7%	24.5%	88.2%
Qwen2.5-Omni	7B	❌	33.0%	29.1%	27.5%	82.0%

Kanana는 36/60 기준. 나머지는 전체 n=1100.

참고: Kanana-o와 KMMLU

log-00에서 언급했듯 Kanana-o 모델 카드는 KoNet(89.44)만 보고하고 KMMLU는 다루지 않는다. 다만 텍스트 전용 Kanana-1.5-8B base 모델 카드에는 KMMLU 48.94(5-shot)가 있어 본 실험 text 조건 38.9%와 대조해볼 여지는 있다. subset(전체 vs History+Law), shot(5-shot vs 0-shot), omni vs text-only 차이가 겹쳐 직접 비교는 어렵지만 참고 수치로 남겨둔다.

References

Kendall, M. G. (1938). A New Measure of Rank Correlation. Biometrika, 30(1-2), 81-93. 순위 상관 계수 tau 제안. 본 실험에서는 tie 보정이 포함된 tau-b 변형을 사용.