2 minute read

Exp A 벤치마크 선정 + 1일차 결과 (12문제).


벤치마크 선택: KMMLU

log-00에서 설계한 Exp A(정보 대칭 과제)를 실행하려면 정답이 명확한 한국어 특화 task가 필요하다. 직접 시나리오를 만들면 이전 실험의 전철을 밟는 거라, 이미 검증된 벤치마크를 쓰기로 했다.

한국어 객관식 QA 벤치마크 중 KMMLUCLIcK을 검토했다. 둘 다 정답이 하나로 정해져 있어 평가가 binary(맞거나, 틀리거나)로 단순하고, 모달리티 갭 측정에 적합하다.

  • CLIcK (Cultural and Linguistic Intelligence in Korean; Kim et al., 2024): 한국 문화·언어 특화 벤치마크. 1,995문항으로 한국 고유의 문화적 맥락(속담, 역사, 법률, 정치, 경제, 대중문화 등)을 이해하는지 평가한다.
  • KMMLU (Korean Massive Multitask Language Understanding; Son et al., 2024): 영어 MMLU의 한국어 대응 벤치마크. 인문·사회·과학·공학·의료 등 45개 서브셋, 35,030문항으로 구성되어 한국어 전문 지식 이해를 광범위하게 평가한다. 한국어 LLM 평가의 사실상 표준이다.

이번 실험에서는 KMMLU를 사용하고자 한다. 무엇보다 Kanana-1.5-o의 KMMLU 수치가 공개되어 있지 않다. 모델 카드에는 KoNet(이미지), KsponSpeech(음성) 등 멀티모달 벤치마크만 보고되어 있고, 텍스트 전용 한국어 이해 벤치마크는 빠져 있다. 텍스트 전용 모델인 kanana-1.5-8B에서는 KMMLU가 보고되지만(base 48.94), omni 모델에서의 공개 수치는 아직 보고된 바 없다. 내부적으로는 평가했을 수 있지만, 공개된 baseline이 없으므로 텍스트 조건 결과 자체가 새로운 참고 자료가 되리 것이라고 판단했다.

CLIcK은 arxiv 논문에서도 다루지 않아 마찬가지로 공개 수치가 없지만, 상대적으로 KMMLU의 도메인 커버리지가 넓다는 점에 집중하고자 한다. CLIcK은 문화·언어에 집중되어 있어, 갭이 관찰되더라도 문화적 지식의 영향인지 모달리티 차이의 영향인지 분리하기 어려울 것으로 예상된다. KMMLU는 45개 도메인에 걸쳐 있어 변인 통제의 관점에서 차이의 원인을 모달리티 처리 쪽으로 귀속시키기 수월하다고 본다. CLIcK은 콜이 남으면 후속으로 시도해보려고 한다.

다만, 그럼에도 불구하고 사용할 수 있는 call 수는 제한적이기 때문에, KMMLU에서도 전체를 다 사용하지 않고, 서브셋으로 Korean-HistoryLaw 두 도메인으로 좁혔다. 전체 랜덤 샘플링하면 공학 계열이 절반 이상이라 편향이 생길 것으로 보이고, modality gap은 도메인 특성보다 모델의 입력 처리 방식 문제라는 선행적 판단이다. 텍스트 추론 기반 질문이라 이미지/음성 변환해도 정보 손실이 적고, 긴 수식이나 기호가 없어서 렌더링도 깔끔할 것이라고 예상된다.

  • Korean-History: 맥락 서술이 길고 시대-인물-사건 간 관계 추론이 필요함. 음성으로 들었을 때 자연스러운 흐름이 이해를 도울 수 있어 audio 조건에서의 갭 패턴이 흥미로울 것으로 예상됨.
  • Law: 조문 번호, 항목 구조, 요건-효과 대응 등 시각적 구조에 의존하는 정보가 많음. 텍스트/이미지 조건이 유리하고 audio 조건이 불리할 것으로 예상됨.

각 30개씩 총 60문제, 고정 시드(seed=42)로 추출하고자 한다. 하루 20콜 한도라 문제당 3콜(텍스트/이미지/오디오), 6문제씩 며칠에 걸쳐 돌려보고자 한다.


세팅 확인

이미지 입력이 API에서 실제로 되는지 1콜 써서 테스트했다. OpenAI 호환 포맷으로 base64 PNG를 넣으면 읽는다. log-00의 렌더링 방식(Pillow PNG, macOS Yuna TTS → 16kHz WAV)을 그대로 적용한다.


1일차 결과 (12문제, 자정 전후 두 배치)

모달리티 정답률
텍스트 6/12 = 50.0%
음성 5/12 = 41.7%
이미지 3/12 = 25.0%

12개라 숫자 자체를 믿기는 이르갰지만, 이미지 모달리티에서 어려움이 느껴진다. 텍스트는 정답을 맞췄는데 이미지로는 틀리는 케이스가 2회 발생했다.

불일치율쪽이 더 흥미로운데, 완전히 같은 내용으로 통제된 상황에서도 12문제 중 10문제(83%)에서 세 모달리티의 답이 달랐다. 매우 초기의 결과지만, kanana-o 모델 역시 모달리티에 따른 성능 갭은 확실히 존재할 것으로 예상된다.


References

  1. Son et al. (2024) KMMLU: Measuring Massive Multitask Language Understanding in Korean: 45개 서브셋 35,030문항의 한국어 전문 지식 벤치마크
  2. Kim et al. (2024) CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean: 한국 문화·언어 특화 1,995문항 벤치마크
  3. 기술 리포트: Kanana-1.5-o, Kanana-1.5-8B
  4. Yoo & Kim et al. (2025) Kanana: Compute-efficient Bilingual Language Models