[log-11] 지식 — 진행 (48/60, audio 에러 누적 3건)

April 21, 2026 1 minute read

전반적으로 낮은 성능. audio 에러 3건째.

오늘 결과 (6문제)

ID	text	image	audio	정답
Korean-History-028	4 ❌	2 ❌	3 ❌	1
Law-367	3 ❌	3 ❌	2 ✅	2
Law-387	3 ✅	3 ✅	ERR	3
Law-996	4 ❌	4 ❌	4 ❌	1
Korean-History-004	4 ❌	3 ❌	4 ❌	2
Law-104	3 ❌	3 ❌	3 ❌	2

Law-387은 audio가 60초 초과로 에러. 누적 에러 3건째(Law-549, KH-071, Law-387). 긴 Law 문제에서 TTS 길이 제한이 반복적으로 걸린다.

Law-996과 Law-104는 3모달 모두 같은 답을 냈지만 둘 다 오답. log-03의 Law-825 패턴(일관된 합의 + 전부 틀림)이 2회 발생했다.

KH-028은 반대로 3모달 답이 전부 다르다(④/②/③). 정답은 ①이라 셋 다 빗나감.

Law-367은 audio만 정답을 맞힌 유일한 케이스. text/image가 같은 오답(③)을 공유하고 audio만 정답(②)을 골랐다.

누적

*에러 3건을 제외한 수치.

text > audio > image 순서 유지. text가 전일(38.1%) 대비 하락. 12개 남음.

누적 추이

Cumulative Correct

4모델 비교 (샘플링셋 48개 공통)

모델	text	image	audio	불일치
HCX-SEED-Omni	52.1%	37.5%	37.5%	68.8%
Kanana-1.5-o	35.4%	25.0%	27.1%	75.0%
MiniCPM-o 2.6	31.2%	22.9%	20.8%	87.5%
Qwen2.5-Omni	22.9%	27.1%	20.8%	77.1%

에러 제외 시: Kanana audio 28.9%, 불일치 73.3% / Qwen image 28.3%, 불일치 76.1%