피드백 3: task tautology 비판 검토
연구 방향 설계에 대한 외부 피드백 overview 중 피드백 3(task tautology)을 단독으로 펼친 글. 진단·근거·plan 반영 그림을 한 번에 정리한다. 피드백 4(도메인 좁히기)는 피드백 3의 “역방향 접근” 권고와 같은 방향이라 본문에 흡수.
피드백 3·4 원문
피드백 3 — 다양한 Task마다 특정 모달리티에 우세한 세팅이 있을것이고(가설), 모델 돌려봐서 분석을 한 다음에(가설 해결) 최종 방법론 제시는 task 특성에 맞는 모달리티 선택 인것으로 이해했는데 (…) task type이 너무 text 우위 / Audio-advantage / image-advantage에 미리 (사전에) 맞춰져있다는 느낌이 들어서 (…) 뭐가 더 좋을까? 아리송한 세팅이 아니라 당연히 오디오와 ASR텍스트를 비교하면 오디오가 좋을 것 같은 task를 사전작업 쳐놓은 느낌….?
피드백 4 — 도메인을 좁히고 발화 유형별 modality 우위를 분석.
핵심 비판: plan §과제 유형 표가 modality-neutral / audio-advantage / image-advantage 3분류로 task를 사전 라벨링 → “audio 우위 task에서 audio가 이긴다”가 self-fulfilling. 결과가 라벨에 묶여 있으면 “당연한 결과를 당연하게 확인한 연구” 비판이 정당. 받아들여야 함.
4가지 개선 후보 무게 평가
overview에 적은 개선 후보 중:
| 개선안 | 강도 | 비고 |
|---|---|---|
| (1) 경계 task 포함 | △ | 효과적이지만 “경계” 정의가 자의적. 단독으로는 약함 |
| (2) 연속 차원 분해 | ◎ | 가장 학술적으로 강력. dimension score로 task 점수화 → 회귀로 “차원 점수가 modality advantage를 예측”을 입증. 라벨이 아니라 연속변수가 패턴을 설명하면 tautology 비판 자체가 봉쇄됨 |
| (3) 역방향 접근 | ○ | 사후 패턴 발굴. 데이터 풍부한 도메인에서 가능. 피드백 4와 정확히 같은 방향 |
| (4) Counterexample 보고 | △ | 본질적 변화 아님. (2)·(3)의 보조 |
→ 메인은 (2) 연속 차원 분해. 거기에 (3) 역방향 접근으로 도메인 선택을 일반 대화로 좁히면 피드백 4까지 자연스럽게 흡수.
Kanana 감정 실험가 이미 차원 분해를 구현하고 있다
추상 권고만으로 plan을 고치면 또 다른 사후 라벨링이 될 수 있어 실제 운영 중인 Kanana 감정 실험 설계를 점검 — classify와 respond 두 task가 각자 다른 방식으로 차원 분해를 이미 구현 중. plan에서는 “감정 분류 = audio-advantage task” 단일 라벨로 봉인돼 있어 tautology처럼 보이는 것.
Classify 단의 3축 분리 (log-17 · log-19)
variant 4종(text-bare, text-with-image, audio_emotion, audio_neutral) 자체가 아래 3축을 변수로 분리한다:
| 축 | 비교 쌍 | 분리되는 dimension |
|---|---|---|
| Modality | text / image / audio | 기본 modality 효과 |
| Prosody-only | audio_neutral vs audio_emotion |
같은 lexical, 운율만 다름 → 순수 prosody 기여 측정 |
| Cultural lexical | register-specific category vs 일반 카테고리 | 모델별 lexical density × register specificity |
라벨 대신 이 3축 점수가 결과를 predict하는 구조. plan에 “라벨이 아니라 차원 점수 × 모델 capability 매트릭스로 분석한다”고 명시하면 tautology 회피 지점이 됨.
Respond + LaaJ 단의 다차원 매트릭스 (log-18 설계)
LaaJ 4축이 차원 분해의 정석 형태:
| 축 | 분리되는 dimension |
|---|---|
| 감정 인식 | modality 신호 처리 능력 (입력 modality와 직접 결합) |
| 공감적 반응 | 일반 empathy 학습 — modality 중립 |
| 언어 자연스러움 | linguistic register / dialectal appropriateness |
| 맥락 일관성 | context length·발화 응집성 |
→ (축, modality variant, 모델, 카테고리) 4차원 매트릭스가 결과를 predict. 라벨 분류로는 “응답이 좋다/나쁘다” 1차원이지만, 4축 × 4 variants × 5 후보(P 포함) × 6 카테고리 = 480 셀(per sample) 분해. 피드백 3 (2) “연속 차원 분해”의 가장 본격적 구현.
추가 분리 장치 4개:
- 5번째 후보 P (사람 응답) — 모델 비교만이 아니라 absolute anchor. “사람과 격차”가 modality variant별로 어떻게 변하는지 측정 가능
- Audio out 5번째 축 (운율 적합성) — text 채점과 분리. K/Q/M 3-way (HCX 결측)로 output modality 효과 단독 측정. REMODE plan RQ4(output modality 변수)의 mini-scale prototype
- Judge 2종 (GPT-4o + Claude) verdict 차이 — culture/dialect-blind judge bias 정량화. “외국 judge가 register-specific 정서를 평가할 수 있는가”가 메타 차원으로 실험 안에 박힘
- 양방향 평가 (A,B)+(B,A) 일관성 — position bias가 잡히면서 동시에 verdict 신뢰도 측정
결과가 라벨에 안 묶이는 건 이미 입증됨 (log-17 · log-19)
Kanana 비교 모델 3종 classify 결과:
- MiniCPM:
audio_neutral37.5% →audio_emotion44.6% (+7%p) — 운율 단독 신호 정량화. 라벨이 “audio 우위”였다면 둘 다 높아야 하는데, neutral은 평범, emotion만 뜀 → 차원이 결과를 predict - HCX: image/audio 56/56 모두 “중립” 디폴트 도주. “register-specific omni니까 audio도 좋다”는 가설 reject. register-specific 효과가 modality 종속이라는 sub-hypothesis 등장
- Qwen: emotion에서 중립 truth 0/10 폭락 — 운율 강조하니 lexical 신뢰도 추락. 운율과 lexical 사이의 trade-off 발견
- Register-specific 카테고리: HCX 8/8 (text), MiniCPM·Qwen 0/8. Cultural lexical 차원 단독 분리축으로 작동
- 카테고리 비대칭: HCX는 register-specific 카테고리에서 14/16 ≈ 87.5%, 다른 카테고리에서 5/40 ≈ 12.5%로 양극 분리
→ 다섯 패턴 모두 “task 라벨이 결과를 predict”가 아니라 “차원 점수 × 모델 capability 매트릭스가 결과를 predict”. tautology가 아닌 mechanism discovery.
REMODE plan으로 transfer
핵심 주장
피드백 3은 정당한 비판이지만, Kanana 감정 실험는 이미 그 비판을 우회하는 design을 갖고 있다 — 다만 plan에서는 단순 라벨로 표현돼 위험해 보일 뿐이다. REMODE plan은 Kanana의 숨은 차원 구조를 명시화해서 영어 도메인으로 계승한다 —
(prosody dimension, lexical/cultural density dimension, modality × output × capability)매트릭스로 plan §과제 유형을 차원 표로 갈아엎는다. 라벨 분류는 explanatory framing으로만 쓰고, 실제 분석 단위는 차원 점수.
Kanana 메커니즘이 영어 도메인에 transfer되는지
| Kanana 박혀 있는 장치 | REMODE 영어 도메인 등가 |
|---|---|
Prosody-only signal (audio_neutral vs audio_emotion) |
그대로 transfer — 언어 무관 |
| LaaJ “register 자연스러움” 축 | “linguistic register / dialectal appropriateness” 일반 차원으로 교체 |
| Register-specific 카테고리 | “model-coverage가 약한 cultural-lexical 카테고리” 일반 형태 (영어에서는 register-specific emotion, dialect-bound reference 등) |
| 5번째 후보 P (사람 응답 anchor) | EmpatheticDialogues 원본 응답이 직접 anchor |
| Audio out 별도 평가 (운율 적합성) | 그대로 — output modality 측정, 언어 무관 |
| Korean-blind judge bias | culture/dialect-blind judge bias로 일반화. judge 2종 verdict 비교 protocol 그대로 |
| Modality × capability 매트릭스 | 그대로 — 모델 capability 차이는 언어 무관 |
→ Kanana illustrative example을 빼도 차원 분해 메커니즘 자체는 그대로 transfer. 피드백 3 적용 그림 무너지지 않음. Kanana 결과는 plan §동기·preliminary evidence에서만 인용. (한국어 축을 contribution 본체로 끌어오지 않는 이유는 별도 메모 참조.)
비용 trade-off 명시 (plan §risk에)
Kanana 1차 축소안(text-bare + audio_emotion 2 variants × 30 샘플 × 1 judge ≈ 1200 콜)은 prosody contrast만 측정하고 lexical density 차원과 modality_neutral baseline을 못 본다. 비용($360 → $90) 절약은 좋지만 차원 분해 contribution이 절반으로 잘림. 본 결과는 4 variants 풀 매트릭스에서만 tautology-free 주장 가능.
→ plan §risk에 “차원 풀 측정 vs 비용 trade-off”로 명시. 4-variant 풀 매트릭스를 메인으로 하고, 축소판은 “early signal용 sub-experiment”로 포지셔닝.
plan 본문 §과제 유형 섹션 개편 방향
기존: modality-neutral / audio-advantage / image-advantage 3분류 라벨 표.
개편: 차원 점수 × 모델 capability 매트릭스. 차원 후보:
prosody-dependence(운율 의존도, 0~1)lexical-density(어휘 정보 밀도, 0~1)cultural/register-specificity(model coverage가 약한 register 의존도, 0~1)visual-layout-dependence(시각 레이아웃 의존도, 0~1)paralinguistic-content(비언어 정보 비중, 0~1)
각 task에 0~1 점수 부여 → 회귀로 “차원 점수가 modality advantage를 예측”한다는 가설 직접 검증. 결과 보고는 라벨이 아닌 차원 회귀 계수.
피드백 4는 (3) 역방향 접근의 도메인 선택을 “일반 대화”로 좁히는 구체화 → 자연스럽게 흡수. plan §실험 도메인에 “EmpatheticDialogues / IEMOCAP / MELD를 메인으로, 발화 단위로 차원 점수 매기고 사후 회귀”라고 명시.
후속 작업
- 짧은
feedback-4글 — 피드백 3의 (3) 역방향 접근에 대한 도메인 권고로 흡수해 본 글에 cross-link - 연구 방향 설계 §과제 유형 섹션을 새 차원 점수 표로 갈아엎기
- 같은 plan §risk에 “차원 풀 측정 vs 비용 trade-off” 항목 추가
2026-04-28 작성. 피드백 3 단독 검토.