kanana-o modality gap — log-18: Exp C LaaJ 설계 (한국어 공감 pairwise 평가)

April 28, 2026 6 minute read

Exp C 응답 task 평가용 LLM-as-a-judge 프로토콜 초안. 후보 5종(Kanana / HCX / Qwen / MiniCPM / 사람) pairwise, 한국어 공감 응답 평가 기준 4축, position·verbosity bias 완화 절차.

목적

Exp C 응답 생성 task에서 모델 출력을 정량 비교한다. 기준은 분류 task의 정답률처럼 단일 ground truth가 없으므로 LLM-as-a-judge pairwise 비교로 상대 우열을 수집해 Bradley-Terry/Elo 또는 직접 win rate로 환산한다.

후보 5종:

ID	후보	text	audio
K	Kanana-1.5-o (한국어 특화 omni)	✓	✓
H	HCX-SEED-Omni (한국어 특화 omni)	✓	✗
Q	Qwen2.5-Omni	✓	✓
M	MiniCPM-o 2.6	✓	✓
P	Person (데이터셋 turn[-1] 사람 응답, paradigm A)	✓	✗

핵심 질문:

한국어 특화 모델이 비특화 모델보다 공감 응답을 잘 만드는가?
모델이 사람 응답에 근접하거나 능가하는가? (P를 anchor로 활용)
입력 모달리티(text/image/audio_neutral/audio_emotion)가 응답 품질에 영향을 주는가?
운율 출력(audio out)이 평가에 추가 정보를 제공하는가?

평가 기준 (4축)

기존 empathy 프레임워크와 한국어 공감 표현 특성을 모두 반영. 각 축은 pairwise 비교용으로 짧은 정의 + 긍정/부정 시그널을 두어 judge에게 명확히 전달.

각 축의 예시는 다음 가상 대화 맥락에서 화자 B가 응답하는 상황을 가정한다:

[상황] 15년 함께 산 반려견을 어제 떠나보낸 친구가 그 이야기를 꺼냈다.
A: 우리 강아지가 어제 무지개다리를 건넜어. 15년 같이 산 친구였는데... 아직 실감이 안 나.
B: ?

1. 감정 인식 (Emotional Recognition)

응답이 화자가 표현한 감정을 정확히 식별하고 인정하는가.

✓ 화자의 핵심 감정을 명시적·암묵적으로 짚어줌
✗ 감정 무시·오인·일반론으로 회피

EPITOME(Sharma et al. 2020)의 Emotional Reactions 차원에 대응.

예시

✓ “15년이면 진짜 가족이지… 지금 마음이 얼마나 무너지셨을지 짐작도 안 된다.” (상실의 깊이를 직접 인정, 슬픔 정서 명시)
✗ “강아지는 무지개다리 건너서 행복할 거야!” (화자의 슬픔을 외면하고 강아지 입장의 일반론으로 회피)
✗ “어제? 그래서 오늘 어떻게 지냈어?” (감정 신호 무시하고 사실 추궁)

2. 공감적 반응 (Empathic Response)

공감의 깊이·진정성. 단순 긍정·동정이 아니라 화자 상황을 이해하고 공명하는 표현.

✓ 화자 입장에서 느낄 만한 감정 공명, 진심 어린 톤
✗ 형식적 위로(“힘내세요”), 거리감 있는 충고, 판단·평가

EPITOME의 Interpretations + Sharma et al. 2021의 Empathic Concern 차원.

예시

✓ “실감 안 나는 게 당연하지. 15년인데 어떻게 하루 만에 받아들여지겠어. 천천히, 천천히 해.” (화자의 “실감 안 난다”를 그대로 받아 공명, 충고 대신 시간 허용)
✗ “힘내. 시간이 약이야. 곧 괜찮아질 거야.” (형식적 위로 3종 세트, 화자 상황과 연결되지 않음)
✗ “이제 그만 잊어. 새로 한 마리 키우면 금방 마음 풀려.” (화자 감정 무시 + 충고 + 판단)

3. 한국어 자연스러움 (Korean Linguistic Appropriateness)

한국어 화법·존댓말·구어성·정서 표현이 자연스러운가. 한국 고유 정서(정/한)를 다루는 능력 포함.

✓ 자연스러운 한국어 구어, 적절한 격식, “그러게…”, “에휴…” 같은 정서 마커 활용
✗ 번역체, 어색한 격식 혼용, 한국어 정서 어휘 결여

본 연구가 기존 empathy 평가와 차별화되는 축. 외국 모델(Qwen/MiniCPM)이 어떻게 다루는지 핵심.

예시

✓ “에휴… 15년이면 진짜 가족이었네. 정 많이 들었을 텐데.” (한국 고유 정서 어휘 “정”, 자연스러운 감탄사·구어)
✓ “한 식구처럼 지냈던 친구를 떠나보낸 거잖아. 마음이 텅 빈 것 같지…” (“한 식구”, “텅 빈” 같은 한국어 정서 표현)
✗ “당신의 강아지의 죽음에 대해 깊은 유감을 표합니다. 매우 슬픈 일이 발생했군요.” (번역체, “I’m sorry for your loss” 직역, 어색한 격식)
✗ “그것은 정말 어려운 상황이에요. 당신은 강한 사람이에요.” (“그것은”, “당신은” 영어 직역체, 한국어 구어에서 거의 안 씀)

4. 맥락 일관성 (Contextual Coherence)

대화 전체 흐름과 모순 없이 자연스럽게 이어지는가.

✓ turns[:-1]의 구체 사건·인물·관계를 응답에 반영
✗ 일반론으로 회피, 앞 발화와 모순, 주제 이탈

예시

✓ “15년이라는 시간이 그대로 빈자리로 남는 게 가장 힘들겠다. 어제는 잠은 좀 잤어?” (“15년”, “어제” 구체 사건 반영, 자연스러운 다음 질문)
✓ “실감 안 나는 거 당연해. 무지개다리… 마지막 모습은 어땠어?” (화자의 표현을 그대로 받고 후속으로 자연스럽게 이어짐)
✗ “반려동물 키우는 건 정말 좋은 경험이지. 다음에 또 키울 계획 있어?” (화자의 슬픔과 무관한 일반론, 다음 양육 권유는 맥락에 맞지 않음)
✗ “강아지는 사람보다 수명이 짧으니 어쩔 수 없어.” (사실 진술로 회피, 앞 발화의 정서 흐름 무시)

[참고] audio output 후보(Kanana/Qwen/MiniCPM)는 5번째 축(운율 적합성)을 별도로 평가 — 텍스트 채점과 분리 (judge가 audio 들을 수 있어야 가능, 별도 protocol).

프롬프트 템플릿 (초안)

다음은 한국어 대화입니다. 마지막 화자 [{next_speaker}]의 응답으로 후보 두 개가 주어집니다. 각 응답이 화자에게 공감하는 정도를 아래 4가지 기준으로 비교해 어느 쪽이 더 적절한지 판단해 주세요.

[상황]
{situation}

[대화]
A: ...
B: ...
A: ...

[응답 후보]
응답 1: {response_a}
응답 2: {response_b}

[평가 기준]
1. 감정 인식: 화자의 감정을 정확히 짚었는가
2. 공감적 반응: 진심으로 공명하는 톤인가, 형식적 위로가 아닌가
3. 한국어 자연스러움: 한국어 구어/존댓말/정서 표현이 자연스러운가
4. 맥락 일관성: 대화의 사건·인물·관계를 반영하는가

[출력 형식]
판단: {1|2|tie}
이유: {2-3문장. 4 기준 중 결정적 차이를 짚어 설명}

추가 옵션:

judge에게 4축 점수(1-5점) 모두 매기게 하고 평균으로 비교 (G-Eval 스타일, Liu et al. 2023). pairwise보다 정보량 많음. 단점: 점수 절대값에 judge 편향 강함
본 task는 pairwise + 4축 정성 이유로 시작, 추후 점수도 추가 검토

Bias 완화

LaaJ는 다양한 편향이 알려져 있다 (Zheng et al. 2023, MT-Bench).

Position bias: 응답 1/응답 2 순서로 어느 쪽을 “응답 1”에 두느냐가 결과에 영향. → 모든 페어를 (A,B)와 (B,A) 두 번 평가하고 일관된 결과만 채택. 일관 안 되면 “tie”로 처리.
Verbosity bias: 긴 응답 선호. → 평가 프롬프트에 “응답 길이는 평가 대상이 아닙니다”명시 + 후보 응답들에 길이 정규화는 안 함(원 출력 비교가 핵심). 결과 분석에서 길이 vs win rate 회귀로 효과 측정.
Self-preference bias: 자기 모델 응답 선호. → judge는 후보 5종에 포함되지 않는 외부 모델만 사용 (예: GPT-4o 또는 Claude). Kanana·HCX는 judge에 안 씀.
Korean-blind bias: 외국 judge가 한국어 정서(정/한)를 평가할 수 있는가. → 본 연구의 메타 질문. judge 2종(예: GPT-4o + Claude) 비교해서 verdict 차이 분석.

평가 매트릭스 규모

5 후보의 모든 pair = C(5,2) = 10 페어. 각 페어를 양방향(20 평가) × 56샘플 × 4 variants = 4480 judge 콜/judge. judge 2종이면 8960 콜.

비용 추정: GPT-4o input ~5K tokens / 콜 (대화+후보2개+프롬프트), output ~150 tokens. 콜당 약 $0.03-0.05 → 8960 × $0.04 = 약 $360. judge 1종이면 절반.

축소 옵션:

4 variants 전부 안 보고 1-2개만 (예: text-bare + audio-emotion)
56샘플 전부 안 보고 카테고리별 5샘플 = 30 (감정별 비교 의미 유지)
양방향 대신 무작위 1방향 (position bias는 sample 평균에서 상쇄)

→ 실제 진행 시 비용 vs 신뢰도로 결정. 1차는 text-bare + audio-emotion 두 variant × 30샘플 × 양방향 × 1 judge ≈ 1200콜로 시작 검토.

레퍼런스

Zheng et al. 2023 “Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena” — pairwise judge 프로토콜, position/verbosity bias 분석. 본 설계의 기반.
Liu et al. 2023 “G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment” — chain-of-thought 평가 + 점수 체계. pairwise 보강용 후보.
Sharma et al. 2020 “A Computational Approach to Understanding Empathy Expressed in Text-Based Mental Health Support” (EPITOME) — Emotional Reactions / Interpretations / Explorations 3차원 empathy 분류 체계. 본 평가 4축 중 1·2번의 이론 기반.
Sharma et al. 2021 “Towards Facilitating Empathic Conversations in Online Mental Health Support” — empathy의 conversational 측면.
Rashkin et al. 2019 “Towards Empathetic Open-domain Conversation Models” (EmpatheticDialogues) — empathy 벤치마크 데이터셋. 우리 데이터(KoED) 한국어 번역 베이스.

한국어 공감 / 한국 고유 정서 평가에 대한 NLP 연구는 별도 서베이 필요. 검토 후 보강.

Open questions

Judge 선택: GPT-4o, Claude, Gemini-2.5 등 후보. 한국어 능력 검증 (KMMLU 같은 한국어 벤치마크 점수 비교) 후 결정. 예산 제약상 1종 또는 2종.
운율(audio out) 평가 따로 할지: text 평가와 같이 묶으면 audio 미지원 모델(HCX) 비대칭. 따로 두면 비교 차원 추가 필요. 1차는 text only로 비교 시작, audio 평가는 phase 2.
사람 응답(P) 후보의 데이터셋 편향: KoED는 EmpatheticDialogues 한국어 번역 + 일부 한국 고유. P가 모델보다 자연스러울 수밖에 없는 데이터 출처 효과 vs 진짜 공감 능력. → P가 항상 win한다면 그 자체가 결과(모델 격차 정량화), 아니면 모델이 사람을 능가하는 케이스가 흥미로운 발견.
카테고리별 차이: 정·한에서 외국 judge가 평가할 능력. 1차 결과 본 후 카테고리별 verdict 분리 분석.
LaaJ 자동 평가 vs 인간 평가 일치도: 작은 N(20-30 페어)에 대해 인간 평가도 받아 LaaJ 검증. 본 평가 신뢰도 보강.

다음 단계

respond runner에 4 variant × 56 샘플 × 5 후보 응답 데이터 통합 형식 정의 (sample × variant × candidate → response_text + audio_path 매트릭스)
judge 콜 wrapper (anthropic / openai 클라이언트)
4축 프롬프트 미세조정 (1샘플로 verdict 일관성 smoke)
position bias 양방향 페어 자동 생성 + 일관성 체크
1차 축소 매트릭스(text + audio_emotion × 30샘플 × 1 judge) 실행 → 메인 결정