3 minute read

4-28 14:00 ~ 4-29 04:30(KST) 사이 진행분. log-17 #4 (Qwen respond redo)가 끝났고, Kanana 본 배치 #1 (classify)이 17/56까지 진척. raw 수치 + 비교만 — 해석은 log-21로 분리.

1. Qwen flash redo 56/56 완료

이전 chain (log-17 §2-d, 4-27)에서 empty_cache() 만으로는 53/224 OOM. flash_attention_2 활성 후 redo 결과:

variant 4-27 (OOM run) 4-28 (flash redo) Δ
text-bare text 34/56 / audio 34/56 / err 22 text 41/56 / audio 41/56 / err 15 -7 err
image-bare text 49/56 / audio 49/56 / err 7 text 46/56 / audio 46/56 / err 10 +3 err
audio-neutral-cut text 43/56 / audio 43/56 / err 13 text 45/56 / audio 45/56 / err 11 -2 err
audio-emotion-cut text 46/56 / audio 46/56 / err 10 text 50/56 / audio 50/56 / err 6 -4 err
합계 172/224 (76.8%) 182/224 (81.3%) +10 success / -10 err
  • Fail rate 23.2% → 18.7%로 4.5%p 개선
  • image-bare는 오히려 +3 err — flash 고유 효과 X (또는 sample-level 변동). 다른 variants는 다 좋아짐
  • text-bare는 절대치로 여전히 가장 fail 많음 (text 입력 길이가 prompt 토큰 가장 많아 KV-cache 부담 큰 영향 추정)
  • 결과 파일: data/exp_c/results/qwen/respond/2026-04-28.json (56 entries 머지 완료)
  • audio out wav 220개 디스크 (실험 워크플로 참조)
  • 작업 시간: worker 단일 (device_map=auto로 4 GPU 분산), 13946.4s = 약 3시간 52분
  • 코드: parallel_runner --model qwen --task respond --gpus 0 --redo (flash attn 박힌 5d4581 이후)

→ 18.7% fail은 원하던 0%엔 못 미치지만 LaaJ 입력으로 진입 가능한 수준. log-17 §4의 부분 결과 LaaJ 진입 분기 채택.

2. 4 모델 classify 종합 (4-29 KST 시점)

model       text-bare      image-bare    audio-neutral    audio-emotion   total
kanana      2/17 (12%)     0/17 (0%)     2/17 (12%)       3/17 (18%)      17  ← 진행 중
hcx         19/56 (34%)    10/56 (18%)   10/56 (18%)      10/56 (18%)     56
qwen        21/56 (38%)    17/56 (30%)   17/56 (30%)      21/56 (38%)     56
minicpm     21/56 (38%)    12/56 (21%)   21/56 (38%)      25/56 (45%)     56

(Kanana 분모 17은 누계 진행 sample 수 — 56이 아니라 17/56 도달. 다른 모델 결과는 log-17 부록 4-28에서 변동 없음.)

부분 Kanana 첫 패턴 (분모 작아 잠정)

  • 정답률 12~18% — 비교 모델 3종 대비 명확히 낮음 (가장 낮은 HCX image도 18%, MiniCPM emotion 45%까지)
  • variant별 편차: emotion(18%) > text(12%) ≈ neutral(12%) > image(0%) — emotion이 미세하게 앞섬, image가 0/17로 가장 약함
  • 17 sample 진행분 = 기쁨(10) + 슬픔(7) 두 카테고리만. 카테고리 편향 안 빠진 단계라 일반화 금지
  • 진행 멈춤 사유: 오늘 콜 quota 68/70 사용 (KEY_1 20/20 + KEY_2 48/50). 잔여 2콜로 1샘플 미만 → 내일 재진입

3. 4 모델 respond 종합 (4-29 KST 시점)

model        text-bare       image-bare      audio-neutral    audio-emotion   total
kanana       (no file)       (no file)       (no file)        (no file)       0   ← 미진행
hcx          t56/a0  e0      t56/a0  e0      t56/a0  e0       t56/a0  e0      56  ← text-only (audio 미지원)
qwen         t41/a41 e15     t46/a46 e10     t45/a45 e11      t50/a50 e6      56
minicpm      t56/a56 e0      t56/a56 e0      t56/a56 e0       t56/a56 e0      56  ← text+audio 풀

(t = response_text 있음, a = audio_path 있음, e = error 있음. 분모 56)

  • HCX는 audio output 디코더 미공개 → text-only로 56 (log-16 설계). LaaJ 입력 시 audio 평가축 결측 처리.
  • Qwen 18.7% fail rate가 LaaJ 입력 시 셀 결측의 주된 원인. 부분 LaaJ 입력으로 진입 (log-18 설계 유지).
  • MiniCPM은 모든 variant 풀로 성공. K/Q/M/P 4-way 비교에서 MiniCPM 셀이 baseline 역할.
  • Kanana respond는 #2 본 배치 (224콜) 미진입 — quota 누적 + classify 우선이라 보류 중.

4. 정합성 이슈 + fix (별도 정리)

진행 중 발견된 컨테이너 시계 UTC fallback, 그로 인한 중복 결과 파일(2026-04-28.json), 콜 quota 회계 의문 세 건은 실험 결과 본문과 무관한 인프라/운영 이슈라 별도 노트로 분리: 감정 실험 — 운영 노트 2. patch 적용 완료, 오늘 진행분은 4-29.json 하나로 통일 누적.

5. 다음 단계

  • #1 Kanana classify 잔여: 56-17 = 39 sample. 156콜 ≈ 2.2일 (70콜/일 기준). 내일 재진입.
  • #2 Kanana respond 본 배치: 224콜 = 3.2일치. classify 끝난 뒤로 직렬. classify까지 합쳐 약 5.4일 quota 필요.
  • #5 LaaJ: HCX/Qwen/MiniCPM 응답 + Qwen 부분 결과로 4-way 진입 가능. Kanana 응답 끝 기다리면 5-way 풀 매트릭스. 우선 4-way로 시작해도 안전 (log-18 설계).

작업 진행 자체의 일지는 여기 누적. 결과 해석은 별도 log post (log-21 예정)로 분리.