피드백 3: task tautology 비판 검토

April 28, 2026 5 minute read

연구 방향 설계에 대한 외부 피드백 overview 중 피드백 3(task tautology)을 단독으로 펼친 글. 진단·근거·plan 반영 그림을 한 번에 정리한다. 피드백 4(도메인 좁히기)는 피드백 3의 “역방향 접근” 권고와 같은 방향이라 본문에 흡수.

피드백 3·4 원문

피드백 3 — 다양한 Task마다 특정 모달리티에 우세한 세팅이 있을것이고(가설), 모델 돌려봐서 분석을 한 다음에(가설 해결) 최종 방법론 제시는 task 특성에 맞는 모달리티 선택 인것으로 이해했는데 (…) task type이 너무 text 우위 / Audio-advantage / image-advantage에 미리 (사전에) 맞춰져있다는 느낌이 들어서 (…) 뭐가 더 좋을까? 아리송한 세팅이 아니라 당연히 오디오와 ASR텍스트를 비교하면 오디오가 좋을 것 같은 task를 사전작업 쳐놓은 느낌….?

피드백 4 — 도메인을 좁히고 발화 유형별 modality 우위를 분석.

핵심 비판: plan §과제 유형 표가 modality-neutral / audio-advantage / image-advantage 3분류로 task를 사전 라벨링 → “audio 우위 task에서 audio가 이긴다”가 self-fulfilling. 결과가 라벨에 묶여 있으면 “당연한 결과를 당연하게 확인한 연구” 비판이 정당. 받아들여야 함.

4가지 개선 후보 무게 평가

overview에 적은 개선 후보 중:

개선안	강도	비고
(1) 경계 task 포함	△	효과적이지만 “경계” 정의가 자의적. 단독으로는 약함
(2) 연속 차원 분해	◎	가장 학술적으로 강력. dimension score로 task 점수화 → 회귀로 “차원 점수가 modality advantage를 예측”을 입증. 라벨이 아니라 연속변수가 패턴을 설명하면 tautology 비판 자체가 봉쇄됨
(3) 역방향 접근	○	사후 패턴 발굴. 데이터 풍부한 도메인에서 가능. 피드백 4와 정확히 같은 방향
(4) Counterexample 보고	△	본질적 변화 아님. (2)·(3)의 보조

→ 메인은 (2) 연속 차원 분해. 거기에 (3) 역방향 접근으로 도메인 선택을 일반 대화로 좁히면 피드백 4까지 자연스럽게 흡수.

Kanana 감정 실험가 이미 차원 분해를 구현하고 있다

추상 권고만으로 plan을 고치면 또 다른 사후 라벨링이 될 수 있어 실제 운영 중인 Kanana 감정 실험 설계를 점검 — classify와 respond 두 task가 각자 다른 방식으로 차원 분해를 이미 구현 중. plan에서는 “감정 분류 = audio-advantage task” 단일 라벨로 봉인돼 있어 tautology처럼 보이는 것.

Classify 단의 3축 분리 (log-17 · log-18)

variant 4종(text-bare, text-with-image, audio_emotion, audio_neutral) 자체가 아래 3축을 변수로 분리한다:

축	비교 쌍	분리되는 dimension
Modality	text / image / audio	기본 modality 효과
Prosody-only	`audio_neutral` vs `audio_emotion`	같은 lexical, 운율만 다름 → 순수 prosody 기여 측정
Cultural lexical	register-specific category vs 일반 카테고리	모델별 lexical density × register specificity

라벨 대신 이 3축 점수가 결과를 predict하는 구조. plan에 “라벨이 아니라 차원 점수 × 모델 capability 매트릭스로 분석한다”고 명시하면 tautology 회피 지점이 됨.

Respond + LaaJ 단의 다차원 매트릭스 (log-19 설계)

LaaJ 4축이 차원 분해의 정석 형태:

축	분리되는 dimension
감정 인식	modality 신호 처리 능력 (입력 modality와 직접 결합)
공감적 반응	일반 empathy 학습 — modality 중립
언어 자연스러움	linguistic register / dialectal appropriateness
맥락 일관성	context length·발화 응집성

→ (축, modality variant, 모델, 카테고리) 4차원 매트릭스가 결과를 predict. 라벨 분류로는 “응답이 좋다/나쁘다” 1차원이지만, 4축 × 4 variants × 5 후보(P 포함) × 6 카테고리 = 480 셀(per sample) 분해. 피드백 3 (2) “연속 차원 분해”의 가장 본격적 구현.

추가 분리 장치 4개:

5번째 후보 P (사람 응답) — 모델 비교만이 아니라 absolute anchor. “사람과 격차”가 modality variant별로 어떻게 변하는지 측정 가능
Audio out 5번째 축 (운율 적합성) — text 채점과 분리. K/Q/M 3-way (HCX 결측)로 output modality 효과 단독 측정. REMODE plan RQ4(output modality 변수)의 mini-scale prototype
Judge 2종 (GPT-4o + Claude) verdict 차이 — culture/dialect-blind judge bias 정량화. “외국 judge가 register-specific 정서를 평가할 수 있는가”가 메타 차원으로 실험 안에 박힘
양방향 평가 (A,B)+(B,A) 일관성 — position bias가 잡히면서 동시에 verdict 신뢰도 측정

결과가 라벨에 안 묶이는 건 이미 입증됨 (log-17 · log-18)

Kanana 비교 모델 3종 classify 결과:

MiniCPM: audio_neutral 37.5% → audio_emotion 44.6% (+7%p) — 운율 단독 신호 정량화. 라벨이 “audio 우위”였다면 둘 다 높아야 하는데, neutral은 평범, emotion만 뜀 → 차원이 결과를 predict
HCX: image/audio 56/56 모두 “중립” 디폴트 도주. “register-specific omni니까 audio도 좋다”는 가설 reject. register-specific 효과가 modality 종속이라는 sub-hypothesis 등장
Qwen: emotion에서 중립 truth 0/10 폭락 — 운율 강조하니 lexical 신뢰도 추락. 운율과 lexical 사이의 trade-off 발견
Register-specific 카테고리: HCX 8/8 (text), MiniCPM·Qwen 0/8. Cultural lexical 차원 단독 분리축으로 작동
카테고리 비대칭: HCX는 register-specific 카테고리에서 14/16 ≈ 87.5%, 다른 카테고리에서 5/40 ≈ 12.5%로 양극 분리

→ 다섯 패턴 모두 “task 라벨이 결과를 predict”가 아니라 “차원 점수 × 모델 capability 매트릭스가 결과를 predict”. tautology가 아닌 mechanism discovery.

REMODE plan으로 transfer

핵심 주장

피드백 3은 정당한 비판이지만, Kanana 감정 실험는 이미 그 비판을 우회하는 design을 갖고 있다 — 다만 plan에서는 단순 라벨로 표현돼 위험해 보일 뿐이다. REMODE plan은 Kanana의 숨은 차원 구조를 명시화해서 영어 도메인으로 계승한다 — (prosody dimension, lexical/cultural density dimension, modality × output × capability) 매트릭스로 plan §과제 유형을 차원 표로 갈아엎는다. 라벨 분류는 explanatory framing으로만 쓰고, 실제 분석 단위는 차원 점수.

Kanana 메커니즘이 영어 도메인에 transfer되는지

Kanana 박혀 있는 장치	REMODE 영어 도메인 등가
Prosody-only signal (`audio_neutral` vs `audio_emotion`)	그대로 transfer — 언어 무관
LaaJ “register 자연스러움” 축	“linguistic register / dialectal appropriateness” 일반 차원으로 교체
Register-specific 카테고리	“model-coverage가 약한 cultural-lexical 카테고리” 일반 형태 (영어에서는 register-specific emotion, dialect-bound reference 등)
5번째 후보 P (사람 응답 anchor)	EmpatheticDialogues 원본 응답이 직접 anchor
Audio out 별도 평가 (운율 적합성)	그대로 — output modality 측정, 언어 무관
Korean-blind judge bias	culture/dialect-blind judge bias로 일반화. judge 2종 verdict 비교 protocol 그대로
Modality × capability 매트릭스	그대로 — 모델 capability 차이는 언어 무관

→ Kanana illustrative example을 빼도 차원 분해 메커니즘 자체는 그대로 transfer. 피드백 3 적용 그림 무너지지 않음. Kanana 결과는 plan §동기·preliminary evidence에서만 인용. (한국어 축을 contribution 본체로 끌어오지 않는 이유는 별도 메모 참조.)

비용 trade-off 명시 (plan §risk에)

Kanana 1차 축소안(text-bare + audio_emotion 2 variants × 30 샘플 × 1 judge ≈ 1200 콜)은 prosody contrast만 측정하고 lexical density 차원과 modality_neutral baseline을 못 본다. 비용($360 → $90) 절약은 좋지만 차원 분해 contribution이 절반으로 잘림. 본 결과는 4 variants 풀 매트릭스에서만 tautology-free 주장 가능.

→ plan §risk에 “차원 풀 측정 vs 비용 trade-off”로 명시. 4-variant 풀 매트릭스를 메인으로 하고, 축소판은 “early signal용 sub-experiment”로 포지셔닝.

plan 본문 §과제 유형 섹션 개편 방향

기존: modality-neutral / audio-advantage / image-advantage 3분류 라벨 표.

개편: 차원 점수 × 모델 capability 매트릭스. 차원 후보:

prosody-dependence (운율 의존도, 0~1)
lexical-density (어휘 정보 밀도, 0~1)
cultural/register-specificity (model coverage가 약한 register 의존도, 0~1)
visual-layout-dependence (시각 레이아웃 의존도, 0~1)
paralinguistic-content (비언어 정보 비중, 0~1)

각 task에 0~1 점수 부여 → 회귀로 “차원 점수가 modality advantage를 예측”한다는 가설 직접 검증. 결과 보고는 라벨이 아닌 차원 회귀 계수.

피드백 4는 (3) 역방향 접근의 도메인 선택을 “일반 대화”로 좁히는 구체화 → 자연스럽게 흡수. plan §실험 도메인에 “EmpatheticDialogues / IEMOCAP / MELD를 메인으로, 발화 단위로 차원 점수 매기고 사후 회귀”라고 명시.

후속 작업

짧은 feedback-4 글 — 피드백 3의 (3) 역방향 접근에 대한 도메인 권고로 흡수해 본 글에 cross-link
연구 방향 설계 §과제 유형 섹션을 새 차원 점수 표로 갈아엎기
같은 plan §risk에 “차원 풀 측정 vs 비용 trade-off” 항목 추가

2026-04-28 작성. 피드백 3 단독 검토.