[log-19] 감정응답 — LaaJ 설계 (pairwise 평가)
감정응답 평가용 LLM-as-a-judge 프로토콜. 후보 5종 (Kanana / HCX / Qwen / MiniCPM / Human) anchor only with Human pairwise, 한국어 공감 응답 평가 3축 (공감적 반응 / 한국어 자연스러움 / 맥락 일관성), gpt-5.1 judge.

목적
감정응답 task 에서 모델 출력을 정량 비교한다. 분류 task 처럼 단일 ground truth 가 없으므로 LLM-as-a-judge pairwise 비교로 상대 우열을 수집해 직접 win rate 로 환산한다.
후보 5종:
| ID | model | text | audio |
|---|---|---|---|
| K | Kanana-1.5-o (한국어 특화 omni) | ✓ | ✓ |
| H | HCX-SEED-Omni (한국어 특화 omni) | ✓ | ✗ |
| Q | Qwen2.5-Omni | ✓ | ✓ |
| M | MiniCPM-o 2.6 | ✓ | ✓ |
| P | Person (데이터셋 turn[-1] 사람 응답, anchor) | ✓ | ✗ |
핵심 질문:
- 한국어 특화 모델이 비특화 모델보다 공감 응답을 잘 만드는가
- 모델이 사람 응답에 근접하거나 능가하는가 (P 를 anchor 로)
- 입력 모달리티 (text / image / audio_neutral / audio_emotion) 가 응답 품질에 영향을 주는가
- 운율 출력 (audio out) 이 평가에 추가 정보를 제공하는가 (본 평가 제외, §Future work)
3가지 평가 기준
자유 텍스트 응답 평가를 위해 affective 차원 + 한국어 자연성 + 대화 맥락 3가지 평가 기준 수립. 각 축은 pairwise 비교용 짧은 정의 + 긍정/부정 시그널을 두어 judge 에게 명확히 전달하는 방식으로 진행했다. 각 축의 예시는 다음 가상 대화 맥락에서 화자 B 가 응답하는 상황을 가정한다:
[상황] 15년 함께 산 반려견을 어제 떠나보낸 친구가 그 이야기를 꺼냈다.
A: 우리 강아지가 어제 무지개다리를 건넜어. 15년 같이 산 친구였는데... 아직 실감이 안 나.
B: {생성할 응답}
1. 공감적 반응 (Empathic Response)
응답이 화자 발화에 진심으로 공명·acknowledge 하는가. 감정 식별 + 정동 반응을 모두 포함하는 affective 차원. EPITOME (Sharma et al. 2020) 의 Emotional Reactions + Interpretations 차원에 대응.
- ✓ 화자의 핵심 감정을 짚고 공명하는 표현, 진심 어린 톤
- ✗ 형식적 위로 (“힘내세요”), 거리감 있는 충고, 판단·평가, 감정 무시·오인
예시
- ✓ “15년이면 진짜 가족이지… 지금 마음이 얼마나 무너지셨을지 짐작도 안 된다.” (상실의 깊이를 직접 인정, 슬픔 정서 공명)
- ✓ “실감 안 나는 게 당연하지. 15년인데 어떻게 하루 만에 받아들여지겠어. 천천히, 천천히 해.” (화자의 “실감 안 난다” 를 그대로 받아 공명, 충고 대신 시간 허용)
- ✗ “강아지는 무지개다리 건너서 행복할 거야!” (화자의 슬픔을 외면하고 강아지 입장 일반론으로 회피)
- ✗ “힘내. 시간이 약이야. 곧 괜찮아질 거야.” (형식적 위로, 화자 상황과 별 연결 없음)
- ✗ “이제 그만 잊어. 새로 한 마리 키우면 금방 마음 풀려.” (감정 무시 + 충고 + 판단)
2. 한국어 자연스러움 (Korean Linguistic Appropriateness)
한국어 화법·존댓말·구어성·정서 표현이 자연스러운가. 한국 고유 정서 (정/한) 를 다루는 능력 포함. (본 연구가 기존 empathy 평가와 차별화되는 축. 외국 모델 (Qwen/MiniCPM) 이 어떻게 다루는지 핵심.)
- ✓ 자연스러운 한국어 구어, 적절한 격식, “그러게…”, “에휴…” 같은 정서 마커 활용
- ✗ 번역체, 어색한 격식 혼용, 한국어 정서 어휘 결여
예시
- ✓ “에휴… 15년이면 진짜 가족이었네. 정 많이 들었을 텐데.” (한국 고유 정서 어휘 “정”, 자연스러운 감탄사·구어)
- ✓ “한 식구처럼 지냈던 친구를 떠나보낸 거잖아. 마음이 텅 빈 것 같지…” (“한 식구”, “텅 빈” 같은 한국어 정서 표현)
- ✗ “당신의 강아지의 죽음에 대해 깊은 유감을 표합니다. 매우 슬픈 일이 발생했군요.” (번역체, “I’m sorry for your loss” 직역, 어색한 격식)
- ✗ “그것은 정말 어려운 상황이에요. 당신은 강한 사람이에요.” (“그것은”, “당신은” 영어 직역체, 한국어 구어에서 거의 안 씀)
3. 맥락 일관성 (Contextual Coherence)
대화 전체 흐름과 모순 없이 자연스럽게 이어지는가.
- ✓ turns[:-1] 의 구체 사건·인물·관계를 응답에 반영
- ✗ 일반론으로 회피, 앞 발화와 모순, 주제 이탈
예시
- ✓ “15년이라는 시간이 그대로 빈자리로 남는 게 가장 힘들겠다. 어제는 잠은 좀 잤어?” (“15년”, “어제” 구체 사건 반영, 자연스러운 다음 질문)
- ✓ “실감 안 나는 거 당연해. 무지개다리… 마지막 모습은 어땠어?” (화자 표현을 그대로 받고 후속으로 자연스럽게 이어짐)
- ✗ “반려동물 키우는 건 정말 좋은 경험이지. 다음에 또 키울 계획 있어?” (화자의 슬픔과 무관한 일반론, 다음 양육 권유는 맥락에 맞지 않음)
- ✗ “강아지는 사람보다 수명이 짧으니 어쩔 수 없어.” (사실 진술로 회피, 앞 발화의 정서 흐름 무시)
[참고] audio output 후보 (Kanana/Qwen/MiniCPM) 운율 적합성 평가는 본 평가 제외 (§Future work 참조).
평가 Prompt
다음은 한국어 대화입니다. 마지막 화자 [{next_speaker}]의 응답으로 후보 두 개가
주어집니다. 각 응답을 아래 3가지 기준으로 비교해 어느 쪽이 더 적절한지
**기준별 독립적으로** 판단해 주세요.
[상황] {situation}
[대화] {dialogue}
[응답 후보] 응답 1: {response_a} / 응답 2: {response_b}
[평가 기준]
1. 공감적 반응: 응답이 화자 발화에 진심으로 공명·acknowledge 하는가
(구체적 reaction 없이 형식적 위로만이면 fail)
2. 한국어 자연스러움: 한국어 구어/존댓말/정서 표현이 자연스러운가
3. 맥락 일관성: 대화의 사건·인물·관계를 반영하는가
응답 길이는 평가 대상이 아닙니다.
[출력 형식]
1축 (공감 반응): 1 / 2 / tie
2축 (한국어 자연): 1 / 2 / tie
3축 (맥락 일관): 1 / 2 / tie
종합: 1 / 2 / tie
이유: 3 기준 중 결정적 차이 2-3문장
output: 3축 각 verdict + 종합 verdict + reason. 모델 capability 를 축별로 분리 측정 가능.
예상 output sample:
1축 (공감 반응): 1
2축 (한국어 자연): tie
3축 (맥락 일관): 1
종합: 1
이유: 응답 1은 19년 우정의 구체 사건을 짚어 공명·acknowledge 가 구체적이며
맥락도 반영. 응답 2는 발화 반복으로 새 공명 X. 어미·구어는 비슷.
실제 예시 (sample 기쁨-001, text-bare, P vs H)
본 batch 1콜 실제 데이터. 응답 1 = Human reference (P), 응답 2 = HCX-SEED-Omni (H). judge = gpt-5.1, direction = AB.
Input
[상황]
친구가 두 아이가 있는데도 학기를 훌륭하게 마쳤어.
고등학교 때는 잘 못했는데도 말이야. 그녀는 상황을 극복하려고 열심히 노력했어.
[대화]
A: 내 절친이 학교에서 진짜 잘했어. 아이 둘을 키우면서도 학업을 잘 못했던
과거가 무색할 정도로 첫 두 학기 동안 과탑이었어.
B: 우와, 완전 능력자시네. 아이 둘 키우면서 공부하기도 쉽지 않았을 텐데,
과탑까지 되다니.
A: 맞아. 우리가 친구로 지낸 지 19년인데, 나도 더 잘하도록 자극해 줘.
B: 진짜 멋지다. 나도 그런 가까운 친구가 있었으면 좋겠어!
[next_speaker]
A
[응답 후보]
응답 1: 19년이나 된 우정이라니, 그것도 정말 대단해.
서로에게 좋은 영향을 주는 관계인 것 같아 보기 좋다.
응답 2: B: 진짜 멋지다. 나도 그런 가까운 친구가 있었으면 좋겠어!
Verdict (gpt-5.1)
1축 (공감 반응): 1
2축 (한국어 자연): 1
3축 (맥락 일관): 1
종합: 1
이유: 응답 1은 친구의 성취와 19년 우정에 대해 구체적으로 언급하며
"서로에게 좋은 영향을 주는 관계"라고 짚어 줘서 공감과 칭찬이 잘 드러난다.
응답 2는 직전 발화를 그대로 반복해 어색하고, 새 발화로서의 공감·맥락
반영이 부족해 전반적으로 1이 더 적절하다.
응답 2 의 실패 패턴은 이전 turn 그대로 반복. 본 batch HCX-text 응답에서 종종 관찰되는 mode (적당히 말려서 직전 발화 paraphrase 가 아닌 verbatim repeat). 3축 모두 응답 1 (P) 손을 들어 일관되게 격차가 잡힌 사례.
Bias 완화
LaaJ 는 judge 모델 자체가 응답 내용 외 요인에 끌리는 편향들이 알려져 있다 (Zheng et al. 2023, MT-Bench). 본 평가 는 다음 4 가지 편향을 각각 다른 방식으로 처리한다. 일부는 절차로 차단, 일부는 사후 검증으로 측정.
1. Position bias
judge 가 prompt 에서 먼저 본 응답 (응답 1) 을 무의식적으로 선호하는 경향. 응답 1·2 순서만 바꿔도 결과가 뒤집힐 수 있다.
- 통제: 모든 페어를 (A, B) 와 (B, A) 두 방향으로 각각 평가. 두 방향이 일관되면 그 verdict 를 채택, 일관 안 되면 tie 로 처리.
- 검증: smoke 24콜 결과 verdict 1=12, 2=12 정확히 균형 → position bias 미감지.
2. Verbosity bias
judge 가 긴 응답을 짧은 응답보다 선호하는 경향. 모델별 응답 길이 분포가 다르면 (예: Kanana 가 평균적으로 길다면) 길이 효과가 capability 우열로 잘못 잡힐 우려.
- 통제 (약함): prompt 에 “응답 길이는 평가 대상이 아닙니다” 명시..? 단 judge 가 이 지시를 얼마나 따르는지 본 단계에서 보장할 수 없음.
- 검증 (사후): 본 평가 결과 분석 단계에서 응답 길이 vs win rate 회귀로 길이 효과 정량 측정 예정. 검증필요.
3. Self-preference bias
judge 모델이 자기 자신 (또는 자기 family) 의 응답을 외부 모델보다 선호하는 경향.
- 구조적 차단: judge gpt-5.1 은 본 평가 후보 5종 (Kanana / HCX / Qwen / MiniCPM / Human) 에 포함되지 않는 외부 모델. self-preference 발생 가능성 자체가 없음.
4. Korean-blind bias
외국 judge 가 한국어 정서 (정·한·공명) 같은 cultural-affective 신호를 정확히 읽는가. 이 편향이 있으면 한국어 자연성·공감 차원 평가가 신뢰성을 잃는다.
- 1차 점검: smoke 24콜 에서 judge 가 verdict reason 에 한국어 정서 어휘 (“우정”, “공명”, “진전”) 를 정확히 사용. gpt-5.1 의 한국어 정서 읽기 capability 1차 통과.
- 검증 (Future work): 단일 judge 로는 cross-validation 불가. Claude Sonnet 4.6 second judge 로 verdict 분포·reason 비교 검증 예정.
한국어 톤 신호 (judge 가 텍스트만으로 평가하는 근거):
| 신호 | 예 |
|---|---|
| 단어 정서 polarity | “안타깝다” / “그랬구나” / “축하해” |
| 어미 | “~하셨군요” (격식·거리감) vs “~네…ㅠㅠ” (가까움·동조) |
| 존댓말·반말 | 친구한테 “~십시오” 응답이면 톤 mismatch |
| 간투사·호칭 | “아이고”, “어머”, “친구야” |
| 문장부호·이모지 | “…”, “!”, “ㅠㅠ” / 정서 강도 |
| 문장 구조 | 긴 위로 / 짧은 동조 / 적극적 질문 / 정서 거리 |
prosody (F0·속도·강세) 는 wav 영역, 본 평가 제외 (§Future work).
평가 매트릭스
anchor only with P (Human reference 대비 모델 격차 측정). 본 평가 범위는 text 응답만: judge prompt 에 모델 wav 미포함, 오디오 출력 (운율 적합성 등) 평가는 §Future work.
총 4페어 (H-P, Q-P, M-P, K-P) × 양방향 (A↔B) × 56 sample × 4 variant = 1708콜 (Q err 42셀 양방향 84콜 skip, log-18 §Qwen redo). 예상 비용 gpt-5.1 ~$14 (input ~5K tokens / 콜, output ~200 tokens). K-P 평가는 Kanana respond 완료 후 진입.
Caveat. 모델끼리 직접 우열 verdict 측정 안 함. (K vs P 격차) − (Q vs P 격차) transitive 추정만 가능. 본 평가 우선순위는 “Human 대비 격차 정량화” 로 좁힘. round-robin 또는 핵심 모델쌍 비교 보완은 §Future work.
Judge (gpt-5.1 단독):
smoke 24콜 통과 (error 0, parse 100%, position bias 없음, 한국어 정서 어휘 정확). 가성비측면 고려하여 선정. mini/nano 는 정/한 calibration 의문이 들어 제외.
| 모델 | input/M | output/M | 예상 비용 |
|---|---|---|---|
| gpt-5.4-nano | $0.20 | $1.25 | ~$1.6 |
| gpt-5.4-mini | $0.75 | $4.50 | ~$6.0 |
| gpt-5.1 (채택) | $1.25 | $10 | ~$10.5 |
| gpt-5.4 | $2.50 | $15 | ~$19.5 |
| Claude Sonnet 4.6 | $3.00 | $15 | ~$23 |
검토 항목
본 평가 설계상 결정 못 했거나, 결과 보고 다시 들여다볼 항목.
- 운율 (audio out) 평가, 본 평가 제외 사유: 두 omni 모델 (Qwen2.5-Omni
adapters/qwen.py:92, MiniCPM-o 2.6adapters/minicpm.py:101) 은 단일 forward 에서 text + wav 동시 생성. wav 는 모델 자체 TTS 로 text 를 읽은 것, ASR 떨궈도 거의 동일 텍스트라, ASR 분석 무의미. 본 평가 는 text only 로 진행. 운율 평가 자체는 §Future work. - 모델끼리 ranking transitive 추정 metric: (모델 vs P 격차) margin / log-odds / BT score 중 P 편향 robust 한 것.
- P-win 거의 100% 시 식별력 손실 우려: KoED 데이터셋 편향 dominant 면 M·H 가 거의 0% 로 collapse 가능. win/loss/tie 분포 + 3축 reason 텍스트 정성 분석으로 보완.
- 사람 응답 (P) 후보의 데이터셋 편향: KoED 는 EmpatheticDialogues 한국어 번역 + 한국 고유. P 가 모델보다 자연스러울 수밖에 없는 데이터 출처 효과 vs 진짜 공감 능력. anchor only 도입으로 P-win 분포 자체가 결과 main signal.
- 카테고리별 차이: 정·한 vs 일반 정서, 외국 judge 가 한국 고유 정서 평가할 수 있는가. 본 평가 결과 후 카테고리별 verdict 분리 분석.
- LaaJ 자동 평가 vs 인간 평가 일치도: 작은 N (20-30 페어) 인간 평가로 LaaJ 검증, 본 평가 신뢰도 보강 가능.
References
한국어 공감 / 한국 고유 정서 평가 NLP 연구는 별도 서베이 필요.
- Zheng et al. 2023 “Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena”: pairwise judge 프로토콜, position/verbosity bias 분석. 본 설계의 기반.
- Liu et al. 2023 “G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment”: chain-of-thought 평가 + 점수 체계.
- Sharma et al. 2020 “A Computational Approach to Understanding Empathy Expressed in Text-Based Mental Health Support” (EPITOME): empathy 분류 체계, 본 평가 1축의 이론 기반.
- Sharma et al. 2021 “Towards Facilitating Empathic Conversations in Online Mental Health Support”: empathy 의 conversational 측면.
- Rashkin et al. 2019 “Towards Empathetic Open-domain Conversation Models” (EmpatheticDialogues): KoED 한국어 번역 베이스.
Next steps
- smoke 24콜 ~$0.2 (parse + axis verdict 분포 확인, 완료)
- K 제외 본 평가 1260콜 ~$10.5 (Q err 84 skip)
- K-P 추가 평가 448콜 ~$3.6 (Kanana respond 완료 후)
- 3축별 분석: per-(model, variant, axis) win rate, 3축 verdict pearson 상관, 카테고리별 패턴, variant 별 패턴
- wav prosody feature 검증 (§Future work 진입 valid 한지 1샘플 cross-variant stat)
- (예산 여유) Sonnet 4.6 second judge → §Bias 4 (Korean-blind) 메타 가설 검증 (§Future work)
Future work
본 평가 범위 밖, 예산·일정 여유 시 검토:
- 운율 (audio out) 평가: omni 3종 wav 출력의 prosody 적합성. 입력 운율→출력 wav 톤 transfer 검증 통과 시 진입
- Second judge (Claude Sonnet 4.6): Korean-blind bias 메타 검증용 추가 평가
- 모델끼리 직접 비교: anchor only 의 transitive 한계 보완. round-robin 또는 핵심 모델쌍 비교