kanana-o modality gap — log-19: Exp C 비교 모델 classify 결과의 해석
log-17의 raw 결과·검증 기록 위에서, 비교 모델 3종 classify 결과가 RQ3/H3 검증에서 갖는 의미를 해석. 단일 verdict가 아니라 세 갈래의 sub-hypothesis와 baseline.
한 줄
비교 모델 3종(HCX/Qwen/MiniCPM)의 4 variants × 56샘플 classify 결과는 모델마다 패턴이 갈리는데, 그 차이 자체가 발견. MiniCPM에서 prosody 운율이 분류에 +9%p 기여(H3 첫 정직한 신호), HCX(한국어 특화)는 image/audio에서 한국어 강점이 사라짐(modality 종속성), Qwen은 baseline 평탄. Kanana 결과가 한국 고유 정서 가설의 결정타로 남음.
raw 데이터·검증 작업·카테고리 분해는 log-17. 진행 상태/투두는 docs/misc/exp_c_status.md. 본 글은 그 위에서 의미만 정리.
본 단계가 검증하는 것
가설 H3 (prosody-dependent 과제에서 audio in > text in)을 한국어 공감 분류 task로 검증하기 위한 첫 외부 데이터. 핵심 검증 모델 Kanana(한국어 특화 omni)는 미진행이지만, 비교 모델 3종에서 각기 다른 패턴이 나와 가설을 단순 지지/반대로 결론짓기 어려운 상태. 즉 본 단계의 산출물은 단일 verdict가 아니라 세 갈래의 sub-hypothesis와 baseline이다.
세 모델, 세 가지 패턴
가설 H3에 대한 결론은 모델마다 갈린다 — 이것 자체가 발견.
| 모델 | text | a_emotion | a_emotion vs text | a_emotion vs a_neutral (운율 고유) |
|---|---|---|---|---|
| HCX (한국어 특화) | 33.9% | 17.9% | -16%p | +0%p (둘 다 17.9%) |
| Qwen (비특화) | 37.5% | 33.9% | -4%p | +1.8%p |
| MiniCPM (비특화) | 37.5% | 46.4% | +9%p | +8.9%p |
MiniCPM — H3 첫 정직한 신호
H3의 강한 형태(audio_emotion > text)와 약한 형태(운율 고유 신호 audio_emotion > audio_neutral) 모두 만족. 슬픔에서 text 2/10 → audio_emotion 6/10으로 3배 — 운율로만 잡히는 정서 신호가 분류에 실질 기여. 본 가설 검증의 핵심 양성 케이스.
HCX — 한국어 특화 효과의 modality 종속성 (새 sub-hypothesis)
한국어 특화 모델인데 image·audio에서 모두 56/56이 “중립”으로 디폴트-답 → 분류 의도 자체가 0 (raw inspection 결과 log-17 부록 참조). 한국어 특화 효과가 text 입력에선 한·정 카테고리에 강하게 발현(한 8/8, 정 6/8)되지만 비텍스트 입력에선 사라짐.
이건 H3 반박이 아니라 새로운 관찰: “한국어 특화 효과는 modality 의존적, 텍스트에 갇혀 있다“는 sub-hypothesis 생성. Kanana가 같은 패턴을 보일지가 결정적.
Qwen — 비특화 omni baseline
text 37.5% / audio_emotion 33.9%로 갭 4%p. modality 갭이 좁고, 운율 입력에서 중립 truth가 0/10으로 폭락하는 trade-off도 관찰됨 — 운율 강조가 모든 카테고리에 일률 도움 아님. 본 가설을 가장 약한 선에서 지지 (운율 기여는 미세하게 양수).
한 카테고리: 한국 고유 정서 가설의 분리 검증축
| 모델 | 한 정답률 (4 variants 평균) |
|---|---|
| MiniCPM | 0/32 |
| Qwen | 0/32 |
| HCX | 8/32 (text 8/8, image/audio 0) |
비특화 모델 둘은 모든 modality에서 한 카테고리를 0/8. HCX만 text에서 한 8/8(+ 정 6/8) 정답 — raw inspection에서 모델이 진짜 “한”으로 답한 것 (parse 함정 아님). 즉 한국어 특화의 이점이 한·정 카테고리에 집중되어 있다는 신호.
다만 그 이점이 (a) 전체 분류 능력의 일부인지 (b) “한국 고유 정서에 한해서만 강함, 일반 분류는 약함”인지 분간 안 됨 — HCX text 33.9%는 한·정에서 14/16 ≈ 87.5% + 다른 카테고리에서 5/40 ≈ 12.5%로 양극 분리.
→ Kanana 결과가 한국 고유 정서 가설의 결정타. Kanana도 한·정에 강하고 다른 카테고리에서 약하다면 “한국어 특화 omni는 한국 고유 정서에 편향됐다”는 본 연구의 독자적 발견. 균형 잡힌 분류기라면 HCX는 단순한 outlier로 처리.
본 결과의 한계
- Kanana 부재 — 한국어 특화 omni 핵심 모델 미진행. RQ3 한국 가설의 직접 검증 불가
- classify task만 — 단답 분류는 응답 품질 중 표면 신호만 잡음. respond + LaaJ가 “공감 응답에서 모달리티 효과”를 본격 측정하는 단계
- N=56 — 카테고리당 8-10샘플로 통계적 유의성은 약함. 패턴은 보이지만 효과 크기 신뢰구간은 못 따짐
- 운율 효과의 카테고리 비대칭 — 슬픔에선 +, 분노/중립에선 - 가능 (Qwen 중립 0/10). 단순 H3가 아닌 “모달리티-카테고리 상호작용“이 진짜 그림일 수 있음
다음 단계가 결정할 것
본 결과는 “다음 단계 결과를 비교할 수 있는 신뢰 baseline”으로 기능한다. 그 위에서:
- Kanana classify → HCX와 동일한 한국어 편향 패턴인지 / 균형 잡힌 분류기인지. RQ3 한국 갈래 결정타.
- respond + LaaJ (log-18 설계, 4 variants × 4 모델 + 사람 anchor) → 단답 분류로는 안 보이는 “공감 응답 품질”에서 modality 효과. H3의 응용 형태 검증.
- -cut variant 재실행 (#3 진행 중) → audio 입력 길이 견고성 확인. 옛 audio (full-length) vs cut의 정답률 차이가 작으면 입력 길이 효과는 무시 가능, 본 패턴은 강건.
본 단계의 의미는 이 셋이 모두 상호 비교 가능하도록 데이터 기반을 마련한 것. 수치 자체보다 그 신뢰성 확보가 산출물.