[log-21] 감정응답 LaaJ — Kanana만 인간 수준과 동급 (text)

May 11, 2026 7 minute read

Kanana 텍스트 응답이 인간 reference 와 사실상 동률(0.50)을 기록. baseline 3가지 모델(HCX/Qwen/MiniCPM)은 인간 응답에 비교해 확실히 그 수준이 못함(0.88~0.99).

평가 대상은 KoED 한국어 감정 대화 56 sample (6개 감정: 기쁨/슬픔/분노/중립/정/한, 감정 당 8~10개 샘플). omni-modal 모델 4 종(Kanana / HCX / Qwen / MiniCPM)에 대해 텍스트 응답만 평가 수행. Judge 는 gpt-5.1, sample 별 인간 reference 응답(P) 을 anchor 로 두는 pairwise 방식으로 진행.

오디오 응답에 대한 같은 평가는 log-22, classify 결과는 log-20 참조.

1. 평가 구성

구성	값
Judge	gpt-5.1
Anchor	P (인간 reference, KoED `turn[-1]` 실제 사람 응답)
Candidates	H (HCX), Q (Qwen), M (MiniCPM), K (Kanana)
비교 pair	(P,H), (P,Q), (P,M), (P,K) — 4-pair
평가 sample	KoED 56 sample (기쁨/슬픔/분노/중립 각 10개 + 정/한 각 8개)
Input variant	text-bare / image-bare / audio-neutral-cut / audio-emotion-cut (4종)
평가축	empathy (공감), naturalness (한국어 자연스러움), context (맥락 일관성) 3가지 평가 축 + overall
Direction	AB·BA 양방향 (positional bias 보정)
총 verdict	2,968 (P-H 896 + P-Q 728 + P-M 896 + P-K 448)

verdict 분해: 모델당 56 sample × 4 variant × 2 direction(AB·BA 양방향) = 448 샘플에 대해 같은 쌍끼리 평균. P-H/P-M 은 추가 보정 회차 포함으로 896, P-Q 는 Qwen 응답 일부(42 sample) missing되어 728 (log-18 §2 의 Qwen redo 42 셀 에러 등 참고).

2. P winrate — direction-corrected

각 verdict 를 P(Anchor) 기준 점수로 변환: pair[0]=P(Human) 우세 = 1.0, pair[1](비교 모델) 우세 = 0.0, tie = 0.5. 같은 (sample, variant) 의 AB·BA 두 점수를 평균낸 값이 그 단위의 P winrate.

2.1 종합 (variant 4종 평균)

비교	n	overall	empathy	naturalness	context
P vs H (HCX)	896	0.988	0.744	0.717	0.742
P vs Q (Qwen)	728	0.880	0.700	0.635	0.681
P vs M (MiniCPM)	896	0.985	0.743	0.717	0.742
P vs K (Kanana)	448	0.497	0.488	0.535	0.497

4-pair P win-rate. P vs K 만 사실상 동률, 나머지 경우에 대해서는 P가 압도적 우세.

Human reference 가 H/Q/M 모두에 압도적 우세 (0.880~0.988). 한국어 감정 응답 task 에서 비교 omni 3종 baseline이 인간 응답에 명확히 못 미친다는 신호.
Kanana 만 Human과 동률 (0.497). omni 4개의 baseline 중 유일. P-K 양방향 일관성 67% + naturalness 축 tie 80% (다른 페어 일관성 95%+ / naturalness tie 13~43%) 가 보조 증거. judge 가 두 응답을 구분 못 하는 비율이 압도적으로 높음, 정말 질적으로 유사하다는 강한 signal. 분포 §5.2 부록.
Kanana를 제외하면 Qwen 이 비교군(H/Q/M) 중 인간에 가장 가까움 (0.880). HCX·MiniCPM 은 거의 한 sample 도 이기지 못하는 수준 (0.99 가까이).
3축 P winrate 가 overall (0.88~0.99) 보다 우위 폭이 좁음 (H/Q/M 비교에서 0.6~0.75). 그 중 naturalness 가 가장 좁음 (0.635~0.717). 한국어 자연스러움 축에서 Human 우위 폭이 가장 작다는 뜻. 비교군 응답의 한국어 자연성 자체는 empathy·context 대비 인간 reference 에 가장 근접한다는 해석.

2.2 variant 별 P winrate

pair	variant	n	overall	empathy	naturalness	context
P vs H	text-bare	224	0.953	0.728	0.656	0.719
P vs H	image-bare	224	1.000	0.750	0.743	0.750
P vs H	audio-N	224	1.000	0.750	0.737	0.750
P vs H	audio-E	224	1.000	0.750	0.732	0.750
P vs Q	text-bare	164	0.887	0.680	0.616	0.668
P vs Q	image-bare	184	0.883	0.715	0.625	0.696
P vs Q	audio-N	180	0.886	0.697	0.653	0.694
P vs Q	audio-E	200	0.868	0.705	0.642	0.667
P vs M	text-bare	224	0.971	0.732	0.685	0.732
P vs M	image-bare	224	1.000	0.748	0.748	0.748
P vs M	audio-N	224	0.987	0.750	0.725	0.741
P vs M	audio-E	224	0.984	0.741	0.708	0.746
P vs K	text-bare	112	0.424	0.330	0.545	0.424
P vs K	image-bare	112	0.554	0.576	0.585	0.562
P vs K	audio-N	112	0.496	0.527	0.504	0.496
P vs K	audio-E	112	0.513	0.518	0.504	0.504

4 축 × input variant line grid, 4 페어 (P vs H/Q/M/K)

P winrate heatmap, input variant × axis, 4 페어 panel

text-bare 가 H/Q/M 비교에서 모두 Human 우위 폭 가장 작음 (overall 0.887~0.971). 텍스트 input 만 주어졌을 때 비교 모델이 인간 reference 에 가장 근접.
baseline 의 modality gap: input modality 가 텍스트에서 image/audio 로 바뀌면 overall 이 1.000 가까이 확대되는 등, 같은 대화 내용을 다른 modality 로 받으면 baseline 응답이 더 약해진다.
K 는 text-bare 에서만 P 보다 우세 (P winrate 0.424 = K winrate 0.576), 특히 empathy 축에서 K winrate 0.670 (P 0.330) 으로 가장 큰 격차. 텍스트만 줬을 때 길이 및 구체성에서 K 가 인간 reference 보다 풍부하다는 해석.
K 의 약한 image/audio modality gap: K image-bare 에서 K 약간 열세 (P winrate 0.554). 같은 대화의 이미지 input 에서 K 응답도 약해진다. text-bare 0.424 → image-bare 0.554 후퇴. K audio 두 variant 는 거의 정확히 0.5. text-bare 0.424 에서 audio 에서는 동률 가까이 후퇴 (image 와 비슷한 폭).
naturalness 축에서 P 우위 폭이 H/Q/M 비교 전체에서 가장 좁음 (0.616~0.748). text-bare 에서 특히 두드러짐: vs H 0.656 / vs Q 0.616 / vs M 0.685 로 overall 대비 큰 폭으로 하락. baseline 의 한국어 응답 자연성 자체는 empathy/context 보다 인간에 근접하다는 해석.
vs H 에서 image/audio 가 모두 overall 1.000. HCX 의 image/audio input 응답이 짧고 단조로워 baseline modality gap 큼.
vs Q 는 variant 무관 0.87~0.89, baseline 중 modality gap 가장 작은 비교군.
vs M 은 image/audio 에서 1.000 가까움. MiniCPM 도 image/audio input 에서 응답이 더 형식적·단조로워져 modality gap 큼.

3. 감정분류 결과(log-20)와 대비

모델	감정분류 평균 정답률	감정분류 특장점	본 평가 P winrate
MiniCPM	35%	“분노”·”중립” 약 50% 균형	0.985 (거의 못 이김)
Qwen	34%	“분노” 72.5% (universal emotion)	0.880 (비교군 중 최강)
HCX	22%	“중립” 75% bias	0.988 (거의 못 이김)
Kanana	20%	“정” 56.2% (한국적 register)	0.497 (Human 동률)

감정분류와 응답 순위 역전: 분류 정답률 (MiniCPM > Qwen > HCX > Kanana) 과 응답 winrate (Kanana ≫ Qwen > MiniCPM ≈ HCX) 가 거의 반대. 레이블 분류 정답률이 자유 발화 응답 품질의 proxy 가 되지 못함.
Kanana 는 분류 정답률 꼴찌(20%) 임에도 응답은 Human 동률 (0.497) + image/audio modality gap 도 약함 (§2.2). 한국어 register·자연성 강점이 분류 점수에는 안 드러나도, 응답 품질과 modality robustness 양쪽으로 일관되게 나타나는 패턴.
Qwen 은 두 task 모두 비교군(H/Q/M) 중 인간에 가장 근접 (분류 정답률 34% / 응답 P winrate 0.880) + modality gap 도 가장 작음 (variant 무관 0.87~0.89, §2.2). 한국어 task 에서 다국어 omni 가 안정적 baseline 으로 기능하는 경우.

4. 한계 / 검증 필요

P-Q n=728 은 다른 pair 896 대비 19% 부족 (Qwen respond 일부 실패, log-18 §2). missing 42 sample 만 제외하고 full coverage 27 sample 만 봐도 P-Q winrate 0.904 로 결론 동일 (§5.1 부록) — winrate 자체에 미치는 영향은 작다.

5. 부록

5.1 P-Q missing 의 P winrate 영향

산정	n verdict	n sample	P-Q winrate
전체	728	56	0.880
full coverage 만 (16 verdict 모두 받은 sample)	432	27	0.904

→ Δ +0.024. “Qwen 이 비교군 중 인간에 가장 가깝다”는 결론 유지.

5.2 P-K 동률의 robustness 검증

pair	tie (overall)	tie (naturalness)	AB·BA 일관성
P-H	0.2%	13.2%	99.1%
P-Q	1.1%	42.9%	95.1%
P-M	0.2%	13.4%	97.3%
P-K	5.6%	79.7%	67.0%

→ P-K 만 압도적 tie / 낮은 일관성. judge 가 K 와 P 를 구분 못 한다는 직접 증거로 해석 가능 (특히 naturalness 축에서 judge 가 80% 를 명시적 tie 로 답함, 다른 페어 0.2~1%). “진짜 동률” 쪽 강한 보조 증거.

5.3 추가 분석 가능성

K 직접 비교 회차: anchor=K candidates=[K,H,Q,M] 직접 측정 (1,344 verdict, ~$15). 현재 P 통한 간접 추정 (Kanana ≈ P ≫ H/Q/M) 을 직접 측정으로 대체. 한국어 특화 2종 (K vs H) 만 필요하면 압축 (~$3.5).
K modality gap mechanism: 응답 길이 및 구체성 차이 측정으로 image/audio modality 에서 K 우세 사라지는 원인 분리 (modality 정보 활용 실패 or 응답 형식 단조화 or 기타 다른 요인).
LaaJ surface feature 가중: overall winrate 가 3축 산술평균 (0.74) 보다 훨씬 큰 격차 (0.99) → judge 가 종합 판단 시 응답 구조/길이/구체성에 가중 두는 패턴 의심되긴 하는데 주요 문제는 아니라고 판단.

5.4 응답 텍스트 길이 분포

각 모델 / variant 별 응답 텍스트의 median 글자 수 (Kanana 56 sample, Qwen 일부 missing 으로 48~55):

모델	text-bare	image-bare	audio-N	audio-E	Human ref
Kanana	76	62	49	53	46
Qwen	46	39	47	44	46
MiniCPM	44	40	29	24	46
HCX	22	25	19	19	46

본문 §2.2 의 추정·해석들이 응답 길이 데이터로 보강됨:

K text-bare 응답이 Human ref 의 +65% (76 vs 46) — §2.2 K 가 text-bare input 에서 길이·구체성 풍부한 응답 생성한다는 추정 직접 확인.
K 응답 길이가 modality 따라 감소 (text 76 → image 62 → audio 49~53) — §2.2 K image/audio modality gap 의 원인 후보: modality input 받을 때 응답 풍부도 자체가 줄어듦.
Qwen 응답 길이 variant 무관 39~47 유지 — §2.2 “vs Q modality gap 가장 작음” 의 이유로 해석 가능: modality 변화에도 응답 형식이 일정하게 유지됨.
MiniCPM audio-E median 24 (text-bare 44 대비 절반) — §2.2 “MiniCPM 이 image/audio input 에서 응답이 더 형식적·단조로워짐” 의 직접 확인.
HCX 모든 variant 19~25 (Human ref 의 절반 이하) — §2.2 “HCX 응답이 짧고 단조로움” 의 직접 확인. modality 무관 일관되게 짧음.

caveat: K text-bare 응답이 Human 의 +65% 길이 → judge 가 길이·구체성에 surface 가중했을 가능성과 본 데이터로는 분리 안 됨. “K 가 진짜 풍부” vs “LaaJ 가 긴 응답을 호평” 의 분리는 응답 길이 vs winrate 회귀 (§5.3) 로 별도 분석 가능.