less than 1 minute read

누적 36/60. 오늘 6문제 (2배치). Law-549, Korean-History-071 audio 에러.


오늘 결과 (6문제)

ID text image audio 정답
Law-714 2 ✅ 3 ❌ 3 ❌ 2
Law-159 4 ✅ 3 ❌ 1 ❌ 4
Law-618 4 ❌ 4 ❌ 4 ❌ 3
Law-549 4 ❌ 3 ✅ ERR 3
Korean-History-054 2 ❌ 3 ❌ 3 ❌ 4
Korean-History-071 1 ❌ 3 ✅ ERR 3
모달리티 정답률
텍스트 2/6 = 33.3%
이미지 2/6 = 33.3%
음성 0/4 = 0% (2건 에러)

1배치(Law-714~618)에서는 text가 우세했고, 2배치(Law-549~KH-071)에서는 image가 우세로 뒤집혔다. Law-618은 3모달 모두 ④로 일치했는데 정답은 ③으로, log-03의 Law-825와 같은 패턴이다. 모달리티와 무관하게 모델이 강하게 확신하는 방향이 있는데 그게 오답인 경우. 이게 어떤 패턴을 띌 수도 있을까? 현재로써는 온전히 파악하긴 어렵지만, 나중을 위해 기록해본다.


에러 2건

  • Law-549 audio: Max audio length is 60 seconds — 렌더링된 음성 파일이 60초를 초과하여 API에서 거부됨. 법률 조문이 긴 문제에서 발생.
  • Korean-History-071 audio: quota exceeded — 일일 API 쿼터 소진. 2배치 구성 시 마지막 문제에서 한도에 걸렸다.

누적

모달리티 정답률
텍스트 14/36 = 38.9%
이미지 9/36 = 25.0%
음성 10/36 = 27.8%
음성* 10/34 = 29.4%

*에러 2건을 제외한 수치.

text > audio > image 순서는 계속 유지되고 있다.


누적 추이

Cumulative Correct