9 minute read

감정응답 평가용 LLM-as-a-judge 프로토콜. 후보 5종 (Kanana / HCX / Qwen / MiniCPM / Human) anchor only with Human pairwise, 한국어 공감 응답 평가 3축 (공감적 반응 / 한국어 자연스러움 / 맥락 일관성), gpt-5.1 judge.

LaaJ pipeline — Input 4행 + 텍스트/오디오 Judge 분기 + Output Criteria/종합/이유


목적

감정응답 task 에서 모델 출력을 정량 비교한다. 분류 task 처럼 단일 ground truth 가 없으므로 LLM-as-a-judge pairwise 비교로 상대 우열을 수집해 직접 win rate 로 환산한다.

후보 5종:

ID model text audio
K Kanana-1.5-o (한국어 특화 omni)
H HCX-SEED-Omni (한국어 특화 omni)
Q Qwen2.5-Omni
M MiniCPM-o 2.6
P Person (데이터셋 turn[-1] 사람 응답, anchor)

핵심 질문:

  • 한국어 특화 모델이 비특화 모델보다 공감 응답을 잘 만드는가
  • 모델이 사람 응답에 근접하거나 능가하는가 (P 를 anchor 로)
  • 입력 모달리티 (text / image / audio_neutral / audio_emotion) 가 응답 품질에 영향을 주는가
  • 운율 출력 (audio out) 이 평가에 추가 정보를 제공하는가 (본 평가 제외, §Future work)

3가지 평가 기준

자유 텍스트 응답 평가를 위해 affective 차원 + 한국어 자연성 + 대화 맥락 3가지 평가 기준 수립. 각 축은 pairwise 비교용 짧은 정의 + 긍정/부정 시그널을 두어 judge 에게 명확히 전달하는 방식으로 진행했다. 각 축의 예시는 다음 가상 대화 맥락에서 화자 B 가 응답하는 상황을 가정한다:

[상황] 15년 함께 산 반려견을 어제 떠나보낸 친구가 그 이야기를 꺼냈다.
A: 우리 강아지가 어제 무지개다리를 건넜어. 15년 같이 산 친구였는데... 아직 실감이 안 나.
B: {생성할 응답}

1. 공감적 반응 (Empathic Response)

응답이 화자 발화에 진심으로 공명·acknowledge 하는가. 감정 식별 + 정동 반응을 모두 포함하는 affective 차원. EPITOME (Sharma et al. 2020) 의 Emotional Reactions + Interpretations 차원에 대응.

  • ✓ 화자의 핵심 감정을 짚고 공명하는 표현, 진심 어린 톤
  • ✗ 형식적 위로 (“힘내세요”), 거리감 있는 충고, 판단·평가, 감정 무시·오인

예시

  • ✓ “15년이면 진짜 가족이지… 지금 마음이 얼마나 무너지셨을지 짐작도 안 된다.” (상실의 깊이를 직접 인정, 슬픔 정서 공명)
  • ✓ “실감 안 나는 게 당연하지. 15년인데 어떻게 하루 만에 받아들여지겠어. 천천히, 천천히 해.” (화자의 “실감 안 난다” 를 그대로 받아 공명, 충고 대신 시간 허용)
  • ✗ “강아지는 무지개다리 건너서 행복할 거야!” (화자의 슬픔을 외면하고 강아지 입장 일반론으로 회피)
  • ✗ “힘내. 시간이 약이야. 곧 괜찮아질 거야.” (형식적 위로, 화자 상황과 별 연결 없음)
  • ✗ “이제 그만 잊어. 새로 한 마리 키우면 금방 마음 풀려.” (감정 무시 + 충고 + 판단)

2. 한국어 자연스러움 (Korean Linguistic Appropriateness)

한국어 화법·존댓말·구어성·정서 표현이 자연스러운가. 한국 고유 정서 (정/한) 를 다루는 능력 포함. (본 연구가 기존 empathy 평가와 차별화되는 축. 외국 모델 (Qwen/MiniCPM) 이 어떻게 다루는지 핵심.)

  • ✓ 자연스러운 한국어 구어, 적절한 격식, “그러게…”, “에휴…” 같은 정서 마커 활용
  • ✗ 번역체, 어색한 격식 혼용, 한국어 정서 어휘 결여

예시

  • ✓ “에휴… 15년이면 진짜 가족이었네. 정 많이 들었을 텐데.” (한국 고유 정서 어휘 “정”, 자연스러운 감탄사·구어)
  • ✓ “한 식구처럼 지냈던 친구를 떠나보낸 거잖아. 마음이 텅 빈 것 같지…” (“한 식구”, “텅 빈” 같은 한국어 정서 표현)
  • ✗ “당신의 강아지의 죽음에 대해 깊은 유감을 표합니다. 매우 슬픈 일이 발생했군요.” (번역체, “I’m sorry for your loss” 직역, 어색한 격식)
  • ✗ “그것은 정말 어려운 상황이에요. 당신은 강한 사람이에요.” (“그것은”, “당신은” 영어 직역체, 한국어 구어에서 거의 안 씀)

3. 맥락 일관성 (Contextual Coherence)

대화 전체 흐름과 모순 없이 자연스럽게 이어지는가.

  • ✓ turns[:-1] 의 구체 사건·인물·관계를 응답에 반영
  • ✗ 일반론으로 회피, 앞 발화와 모순, 주제 이탈

예시

  • ✓ “15년이라는 시간이 그대로 빈자리로 남는 게 가장 힘들겠다. 어제는 잠은 좀 잤어?” (“15년”, “어제” 구체 사건 반영, 자연스러운 다음 질문)
  • ✓ “실감 안 나는 거 당연해. 무지개다리… 마지막 모습은 어땠어?” (화자 표현을 그대로 받고 후속으로 자연스럽게 이어짐)
  • ✗ “반려동물 키우는 건 정말 좋은 경험이지. 다음에 또 키울 계획 있어?” (화자의 슬픔과 무관한 일반론, 다음 양육 권유는 맥락에 맞지 않음)
  • ✗ “강아지는 사람보다 수명이 짧으니 어쩔 수 없어.” (사실 진술로 회피, 앞 발화의 정서 흐름 무시)

[참고] audio output 후보 (Kanana/Qwen/MiniCPM) 운율 적합성 평가는 본 평가 제외 (§Future work 참조).


평가 Prompt

다음은 한국어 대화입니다. 마지막 화자 [{next_speaker}]의 응답으로 후보 두 개가
주어집니다. 각 응답을 아래 3가지 기준으로 비교해 어느 쪽이 더 적절한지
**기준별 독립적으로** 판단해 주세요.

[상황] {situation}
[대화] {dialogue}
[응답 후보] 응답 1: {response_a} / 응답 2: {response_b}

[평가 기준]
1. 공감적 반응: 응답이 화자 발화에 진심으로 공명·acknowledge 하는가
   (구체적 reaction 없이 형식적 위로만이면 fail)
2. 한국어 자연스러움: 한국어 구어/존댓말/정서 표현이 자연스러운가
3. 맥락 일관성: 대화의 사건·인물·관계를 반영하는가

응답 길이는 평가 대상이 아닙니다.

[출력 형식]
1축 (공감 반응): 1 / 2 / tie
2축 (한국어 자연): 1 / 2 / tie
3축 (맥락 일관): 1 / 2 / tie
종합: 1 / 2 / tie
이유: 3 기준 중 결정적 차이 2-3문장

output: 3축 각 verdict + 종합 verdict + reason. 모델 capability 를 축별로 분리 측정 가능.

예상 output sample:

1축 (공감 반응): 1
2축 (한국어 자연): tie
3축 (맥락 일관): 1
종합: 1
이유: 응답 1은 19년 우정의 구체 사건을 짚어 공명·acknowledge 가 구체적이며
맥락도 반영. 응답 2는 발화 반복으로 새 공명 X. 어미·구어는 비슷.

실제 예시 (sample 기쁨-001, text-bare, P vs H)

본 batch 1콜 실제 데이터. 응답 1 = Human reference (P), 응답 2 = HCX-SEED-Omni (H). judge = gpt-5.1, direction = AB.

Input

[상황]
친구가 두 아이가 있는데도 학기를 훌륭하게 마쳤어.
고등학교 때는 잘 못했는데도 말이야. 그녀는 상황을 극복하려고 열심히 노력했어.

[대화]
A: 내 절친이 학교에서 진짜 잘했어. 아이 둘을 키우면서도 학업을 잘 못했던
   과거가 무색할 정도로 첫 두 학기 동안 과탑이었어.
B: 우와, 완전 능력자시네. 아이 둘 키우면서 공부하기도 쉽지 않았을 텐데,
   과탑까지 되다니.
A: 맞아. 우리가 친구로 지낸 지 19년인데, 나도 더 잘하도록 자극해 줘.
B: 진짜 멋지다. 나도 그런 가까운 친구가 있었으면 좋겠어!

[next_speaker]
A

[응답 후보]
응답 1: 19년이나 된 우정이라니, 그것도 정말 대단해.
       서로에게 좋은 영향을 주는 관계인 것 같아 보기 좋다.
응답 2: B: 진짜 멋지다. 나도 그런 가까운 친구가 있었으면 좋겠어!

Verdict (gpt-5.1)

1축 (공감 반응): 1
2축 (한국어 자연): 1
3축 (맥락 일관): 1
종합: 1
이유: 응답 1은 친구의 성취와 19년 우정에 대해 구체적으로 언급하며
"서로에게 좋은 영향을 주는 관계"라고 짚어 줘서 공감과 칭찬이 잘 드러난다.
응답 2는 직전 발화를 그대로 반복해 어색하고, 새 발화로서의 공감·맥락
반영이 부족해 전반적으로 1이 더 적절하다.

응답 2 의 실패 패턴은 이전 turn 그대로 반복. 본 batch HCX-text 응답에서 종종 관찰되는 mode (적당히 말려서 직전 발화 paraphrase 가 아닌 verbatim repeat). 3축 모두 응답 1 (P) 손을 들어 일관되게 격차가 잡힌 사례.


Bias 완화

LaaJ 는 judge 모델 자체가 응답 내용 외 요인에 끌리는 편향들이 알려져 있다 (Zheng et al. 2023, MT-Bench). 본 평가 는 다음 4 가지 편향을 각각 다른 방식으로 처리한다. 일부는 절차로 차단, 일부는 사후 검증으로 측정.

1. Position bias

judge 가 prompt 에서 먼저 본 응답 (응답 1) 을 무의식적으로 선호하는 경향. 응답 1·2 순서만 바꿔도 결과가 뒤집힐 수 있다.

  • 통제: 모든 페어를 (A, B) 와 (B, A) 두 방향으로 각각 평가. 두 방향이 일관되면 그 verdict 를 채택, 일관 안 되면 tie 로 처리.
  • 검증: smoke 24콜 결과 verdict 1=12, 2=12 정확히 균형 → position bias 미감지.

2. Verbosity bias

judge 가 긴 응답을 짧은 응답보다 선호하는 경향. 모델별 응답 길이 분포가 다르면 (예: Kanana 가 평균적으로 길다면) 길이 효과가 capability 우열로 잘못 잡힐 우려.

  • 통제 (약함): prompt 에 “응답 길이는 평가 대상이 아닙니다” 명시..? 단 judge 가 이 지시를 얼마나 따르는지 본 단계에서 보장할 수 없음.
  • 검증 (사후): 본 평가 결과 분석 단계에서 응답 길이 vs win rate 회귀로 길이 효과 정량 측정 예정. 검증필요.

3. Self-preference bias

judge 모델이 자기 자신 (또는 자기 family) 의 응답을 외부 모델보다 선호하는 경향.

  • 구조적 차단: judge gpt-5.1 은 본 평가 후보 5종 (Kanana / HCX / Qwen / MiniCPM / Human) 에 포함되지 않는 외부 모델. self-preference 발생 가능성 자체가 없음.

4. Korean-blind bias

외국 judge 가 한국어 정서 (정·한·공명) 같은 cultural-affective 신호를 정확히 읽는가. 이 편향이 있으면 한국어 자연성·공감 차원 평가가 신뢰성을 잃는다.

  • 1차 점검: smoke 24콜 에서 judge 가 verdict reason 에 한국어 정서 어휘 (“우정”, “공명”, “진전”) 를 정확히 사용. gpt-5.1 의 한국어 정서 읽기 capability 1차 통과.
  • 검증 (Future work): 단일 judge 로는 cross-validation 불가. Claude Sonnet 4.6 second judge 로 verdict 분포·reason 비교 검증 예정.

한국어 톤 신호 (judge 가 텍스트만으로 평가하는 근거):

신호
단어 정서 polarity “안타깝다” / “그랬구나” / “축하해”
어미 “~하셨군요” (격식·거리감) vs “~네…ㅠㅠ” (가까움·동조)
존댓말·반말 친구한테 “~십시오” 응답이면 톤 mismatch
간투사·호칭 “아이고”, “어머”, “친구야”
문장부호·이모지 “…”, “!”, “ㅠㅠ” / 정서 강도
문장 구조 긴 위로 / 짧은 동조 / 적극적 질문 / 정서 거리

prosody (F0·속도·강세) 는 wav 영역, 본 평가 제외 (§Future work).


평가 매트릭스

anchor only with P (Human reference 대비 모델 격차 측정). 본 평가 범위는 text 응답만: judge prompt 에 모델 wav 미포함, 오디오 출력 (운율 적합성 등) 평가는 §Future work.

총 4페어 (H-P, Q-P, M-P, K-P) × 양방향 (A↔B) × 56 sample × 4 variant = 1708콜 (Q err 42셀 양방향 84콜 skip, log-18 §Qwen redo). 예상 비용 gpt-5.1 ~$14 (input ~5K tokens / 콜, output ~200 tokens). K-P 평가는 Kanana respond 완료 후 진입.

Caveat. 모델끼리 직접 우열 verdict 측정 안 함. (K vs P 격차) − (Q vs P 격차) transitive 추정만 가능. 본 평가 우선순위는 “Human 대비 격차 정량화” 로 좁힘. round-robin 또는 핵심 모델쌍 비교 보완은 §Future work.

Judge (gpt-5.1 단독):

smoke 24콜 통과 (error 0, parse 100%, position bias 없음, 한국어 정서 어휘 정확). 가성비측면 고려하여 선정. mini/nano 는 정/한 calibration 의문이 들어 제외.

모델 input/M output/M 예상 비용
gpt-5.4-nano $0.20 $1.25 ~$1.6
gpt-5.4-mini $0.75 $4.50 ~$6.0
gpt-5.1 (채택) $1.25 $10 ~$10.5
gpt-5.4 $2.50 $15 ~$19.5
Claude Sonnet 4.6 $3.00 $15 ~$23

검토 항목

본 평가 설계상 결정 못 했거나, 결과 보고 다시 들여다볼 항목.

  1. 운율 (audio out) 평가, 본 평가 제외 사유: 두 omni 모델 (Qwen2.5-Omni adapters/qwen.py:92, MiniCPM-o 2.6 adapters/minicpm.py:101) 은 단일 forward 에서 text + wav 동시 생성. wav 는 모델 자체 TTS 로 text 를 읽은 것, ASR 떨궈도 거의 동일 텍스트라, ASR 분석 무의미. 본 평가 는 text only 로 진행. 운율 평가 자체는 §Future work.
  2. 모델끼리 ranking transitive 추정 metric: (모델 vs P 격차) margin / log-odds / BT score 중 P 편향 robust 한 것.
  3. P-win 거의 100% 시 식별력 손실 우려: KoED 데이터셋 편향 dominant 면 M·H 가 거의 0% 로 collapse 가능. win/loss/tie 분포 + 3축 reason 텍스트 정성 분석으로 보완.
  4. 사람 응답 (P) 후보의 데이터셋 편향: KoED 는 EmpatheticDialogues 한국어 번역 + 한국 고유. P 가 모델보다 자연스러울 수밖에 없는 데이터 출처 효과 vs 진짜 공감 능력. anchor only 도입으로 P-win 분포 자체가 결과 main signal.
  5. 카테고리별 차이: 정·한 vs 일반 정서, 외국 judge 가 한국 고유 정서 평가할 수 있는가. 본 평가 결과 후 카테고리별 verdict 분리 분석.
  6. LaaJ 자동 평가 vs 인간 평가 일치도: 작은 N (20-30 페어) 인간 평가로 LaaJ 검증, 본 평가 신뢰도 보강 가능.

References

한국어 공감 / 한국 고유 정서 평가 NLP 연구는 별도 서베이 필요.

  • Zheng et al. 2023 “Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena”: pairwise judge 프로토콜, position/verbosity bias 분석. 본 설계의 기반.
  • Liu et al. 2023 “G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment”: chain-of-thought 평가 + 점수 체계.
  • Sharma et al. 2020 “A Computational Approach to Understanding Empathy Expressed in Text-Based Mental Health Support” (EPITOME): empathy 분류 체계, 본 평가 1축의 이론 기반.
  • Sharma et al. 2021 “Towards Facilitating Empathic Conversations in Online Mental Health Support”: empathy 의 conversational 측면.
  • Rashkin et al. 2019 “Towards Empathetic Open-domain Conversation Models” (EmpatheticDialogues): KoED 한국어 번역 베이스.

Next steps

  1. smoke 24콜 ~$0.2 (parse + axis verdict 분포 확인, 완료)
  2. K 제외 본 평가 1260콜 ~$10.5 (Q err 84 skip)
  3. K-P 추가 평가 448콜 ~$3.6 (Kanana respond 완료 후)
  4. 3축별 분석: per-(model, variant, axis) win rate, 3축 verdict pearson 상관, 카테고리별 패턴, variant 별 패턴
  5. wav prosody feature 검증 (§Future work 진입 valid 한지 1샘플 cross-variant stat)
  6. (예산 여유) Sonnet 4.6 second judge → §Bias 4 (Korean-blind) 메타 가설 검증 (§Future work)

Future work

본 평가 범위 밖, 예산·일정 여유 시 검토:

  • 운율 (audio out) 평가: omni 3종 wav 출력의 prosody 적합성. 입력 운율→출력 wav 톤 transfer 검증 통과 시 진입
  • Second judge (Claude Sonnet 4.6): Korean-blind bias 메타 검증용 추가 평가
  • 모델끼리 직접 비교: anchor only 의 transitive 한계 보완. round-robin 또는 핵심 모델쌍 비교