2 minute read

비교 모델 3종(HCX/Qwen/MiniCPM) 추론이 56/56 끝나서 4 모델 × 4 input variant 매트릭스가 완성됐다. Kanana 만 quota 일중단으로 17/56 부분 진행. 종합 정답률은 MiniCPM 35% > Qwen 34% > HCX 22% > Kanana 17 sample 12~18%.

평가 대상은 log-16 에서 확정한 KoED 56 sample (6 카테고리: 기쁨·슬픔·분노·중립·정·한, 카테고리당 8~10개) 4 input variant. 비교 3 모델은 추론 완료, Kanana 는 텍스트 / image / audio-neutral / audio-emotion 4 variant 모두 17/56 까지 진행됨.

Kanana 잔여 39 sample 진행 후 4 모델 56/56 종합 결과는 다음 차수에 정리.


1. 4 모델 × variant 정답률

모델 text-bare image-bare audio-neutral audio-emotion total
Kanana (진행 중) 2/17 (12%) 0/17 (0%) 2/17 (12%) 3/17 (18%) 17/56
HCX 19/56 (34%) 10/56 (18%) 10/56 (18%) 10/56 (18%) 56/56
Qwen 21/56 (38%) 17/56 (30%) 17/56 (30%) 21/56 (38%) 56/56
MiniCPM 21/56 (38%) 12/56 (21%) 21/56 (38%) 25/56 (45%) 56/56

분모는 비교 3종 56, Kanana 17 (진행분). audio variant 는 -cut 적용 결과를 따른다 (log-17 §-cut 재실행 정의).

→ 종합 순위: MiniCPM > Qwen ≳ HCX > Kanana. MiniCPM 이 모든 variant 에서 가장 강함 (21~25), 특히 audio-emotion 45% 단독 선두. Qwen 은 4 variant 균질 (17~21) 로 모달리티 의존도 낮음. HCX 는 text 34% 단일 변별, image/audio 는 모두 18% 로 변동 없음.


2. variant 별 패턴

  • text-bare 가 우세한 경향. 비교 3종 모두에서 text 가 상위권 (34~38%) — HCX 단독 1위, Qwen 은 audio-emotion 과 공동 1위, MiniCPM 만 audio-emotion (45%) 이 text (38%) 보다 위. 대화 발화에 감정이 명시적으로 담겨 있어서 텍스트가 가장 직접적인 단서로 작동.
  • audio-emotion > audio-neutral. MiniCPM 45 vs 38, Qwen 38 vs 30. 감정-cut wav 가 분리 직후 raw 음향에 가까운데도 정답률은 더 높다. 이 패턴은 “audio modality 자체가 약하다기보다, neutral 변형이 audio 변별 정보를 깎아낸다” 는 가설을 지지한다.
  • image 가 가장 약한 두 모델은 한국어 특화. HCX 18%, Kanana 0/17 로 image variant 에서 가장 떨어지는 반면, 다국어 omni 인 Qwen (30%) / MiniCPM (21%) 은 image 가 비교적 더 강하다. 한국어 특화 모델이 image 학습 데이터 양·다양성에서 다국어 omni 보다 부족하다는 해석이 가능하지만, 검증은 image 변별만 따로 두고 한국어 vs 다국어 모델 비교 분석이 필요.

HCX 의 image/audio 가 세 variant 모두 정확히 18% 로 같은 건, 56 sample 모두에 “중립” 레이블만 출력하기 때문 (log-17 §HCX). 실제 중립 truth 10 개가 우연 매칭되어 10/56 = 17.9% 정답률처럼 보일 뿐, 분류 의도는 사실상 작동하지 않은 셈. image/audio 입력이 들어오면 HCX 가 디폴트 레이블로 collapse 한다는 신호.


3. Kanana 17 sample 잠정 패턴

아직 진행 표본 수가 적어서 일반화는 어렵다. quota 일중단으로 멈췄고 잔여 39 sample 은 다음 회차에서.

  • 정답률 12~18% 로 4 모델 중 가장 낮은 성능 기록. 비교 3종 최저였던 HCX image-bare 18% 에 근접.
  • variant 편차: emotion (18%) > text (12%) ≈ neutral (12%) > image (0/17). image 가 0/17 로 가장 낮은 성능 기록.

4. 한계

  1. variant 패턴 (text 우위 / emotion > neutral / image 약함) 은 비교 모델 3종에 대해 전체 샘플 기준이라 신뢰 가능한 결과이지만, 4 모델 전체 추론 결과가 취합됐을 때 패턴이 유지되는지는 추후 확인 필요.
  2. image-bare 약한 모델 (HCX, Kanana) 둘이 한국어 특화 모델인 점은 우연일 수 있다. 학습 데이터 분포 차이 가설은 분리 분석 (image-only 정답률 한국어 vs 영어 LLM 비교) 으로 검증 필요.