kanana-o modality gap — log-01: 벤치마크 선택 + 1일차 (12/60)
Exp A 벤치마크 선정 + 1일차 결과 (12문제).
벤치마크 선택: KMMLU
log-00에서 설계한 Exp A(정보 대칭 과제)를 실행하려면 정답이 명확한 한국어 특화 task가 필요하다. 직접 시나리오를 만들면 이전 실험의 전철을 밟는 거라, 이미 검증된 벤치마크를 쓰기로 했다.
한국어 객관식 QA 벤치마크 중 KMMLU와 CLIcK을 검토했다. 둘 다 정답이 하나로 정해져 있어 평가가 binary(맞거나, 틀리거나)로 단순하고, 모달리티 갭 측정에 적합하다.
- CLIcK (Cultural and Linguistic Intelligence in Korean; Kim et al., 2024): 한국 문화·언어 특화 벤치마크. 1,995문항으로 한국 고유의 문화적 맥락(속담, 역사, 법률, 정치, 경제, 대중문화 등)을 이해하는지 평가한다.
- KMMLU (Korean Massive Multitask Language Understanding; Son et al., 2024): 영어 MMLU의 한국어 대응 벤치마크. 인문·사회·과학·공학·의료 등 45개 서브셋, 35,030문항으로 구성되어 한국어 전문 지식 이해를 광범위하게 평가한다. 한국어 LLM 평가의 사실상 표준이다.
이번 실험에서는 KMMLU를 사용하고자 한다. CLIcK이 평가하려는 한국 문화·역사·법률 지식은 KMMLU의 Korean-History, Law 서브셋에도 포함되어 있고, KMMLU는 문항 수가 많아 시드 기반 샘플링이 용이하다. 또한 마더모델인 텍스트 전용 kanana-1.5-8B의 KMMLU 수치가 공개되어 있어(base 48.94), omni 모델과 같은 벤치마크로 비교할 수 있다는 점도 고려했다. 모델 카드에는 KoNet(이미지), KsponSpeech(음성) 등 멀티모달 벤치마크만 보고되어 있고, omni 모델의 KMMLU 공개 수치는 아직 없다. 공개된 baseline이 없으므로 텍스트 조건 결과 자체가 새로운 참고 자료가 될 것이라고 판단했다. CLIcK은 콜이 남으면 후속으로 시도해보려고 한다.
사용할 수 있는 call 수는 제한적이기 때문에, KMMLU에서도 전체를 다 사용하지 않고, 서브셋으로 Korean-History와 Law 두 도메인으로 좁혔다. CLIcK이 커버하는 역사·법률 영역과 겹치는 도메인이면서, 텍스트 추론 기반 질문이라 이미지/음성 변환해도 정보 손실이 적고, 긴 수식이나 기호가 없어서 렌더링도 깔끔할 것이라고 예상된다.
- Korean-History: 맥락 서술이 길고 시대-인물-사건 간 관계 추론이 필요함. 음성으로 들었을 때 자연스러운 흐름이 이해를 도울 수 있어 audio 조건에서의 갭 패턴이 흥미로울 것으로 예상됨.
- Law: 조문 번호, 항목 구조, 요건-효과 대응 등 시각적 구조에 의존하는 정보가 많음. 텍스트/이미지 조건이 유리하고 audio 조건이 불리할 것으로 예상됨.
각 30개씩 총 60문제, 고정 시드(seed=42)로 추출하고자 한다. 하루 20콜 한도라 문제당 3콜(텍스트/이미지/오디오), 6문제씩 며칠에 걸쳐 돌려보고자 한다.
세팅 확인
이미지 입력이 API에서 실제로 되는지 1콜 써서 테스트했다. OpenAI 호환 포맷으로 base64 PNG를 넣으면 읽는다. log-00의 렌더링 방식(Pillow PNG, macOS Yuna TTS → 16kHz WAV)을 그대로 적용한다.
1일차 결과 (12문제, 자정 전후 두 배치)
| ID | text | image | audio | 정답 |
|---|---|---|---|---|
| Law-352 | 3 ❌ | 2 ❌ | 2 ❌ | 1 |
| Korean-History-081 | 4 ✅ | 3 ❌ | 3 ❌ | 4 |
| Law-432 | 2 ❌ | 3 ❌ | 2 ❌ | 4 |
| Korean-History-053 | 4 ✅ | 2 ❌ | 4 ✅ | 4 |
| Korean-History-093 | 3 ✅ | 3 ✅ | 3 ✅ | 3 |
| Korean-History-097 | 3 ✅ | 3 ✅ | 3 ✅ | 3 |
| Law-344 | 4 ✅ | 4 ✅ | 3 ❌ | 4 |
| Korean-History-084 | 2 ❌ | 2 ❌ | 1 ❌ | 3 |
| Korean-History-011 | 3 ❌ | 3 ❌ | 4 ✅ | 4 |
| Korean-History-057 | 4 ❌ | 3 ❌ | 3 ❌ | 2 |
| Korean-History-086 | 4 ❌ | 3 ❌ | 3 ❌ | 2 |
| Korean-History-094 | 3 ✅ | 2 ❌ | 3 ✅ | 3 |
| 모달리티 | 정답률 |
|---|---|
| 텍스트 | 6/12 = 50.0% |
| 음성 | 5/12 = 41.7% |
| 이미지 | 3/12 = 25.0% |
12개라 숫자 자체를 믿기는 이르갰지만, 이미지 모달리티에서 어려움이 느껴진다. 텍스트는 정답을 맞췄는데 이미지로는 틀리는 케이스가 2회 발생했다.
불일치율쪽이 더 흥미로운데, 완전히 같은 내용으로 통제된 상황에서도 12문제 중 10문제(83%)에서 세 모달리티의 답이 달랐다. 매우 초기의 결과지만, kanana-o 모델 역시 모달리티에 따른 성능 갭은 확실히 존재할 것으로 예상된다.
누적 추이

References
- Son et al. (2024) KMMLU: Measuring Massive Multitask Language Understanding in Korean: 45개 서브셋 35,030문항의 한국어 전문 지식 벤치마크
- Kim et al. (2024) CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean: 한국 문화·언어 특화 1,995문항 벤치마크
- 기술 리포트: Kanana-1.5-o, Kanana-1.5-8B
- Yoo & Kim et al. (2025) Kanana: Compute-efficient Bilingual Language Models