To Code, or Not To Code? Exploring Impact of Code in Pre-training
Meta info.
- Authors: Viraat Aryabumi, Yixuan Su, Raymond Ma, Adrien Morisot, Ivan Zhang, Acyr Locatelli, Marzieh Fadaee, Ahmet Üstün, Sara Hooker
- Paper: https://arxiv.org/pdf/2408.10914
- Affiliation: cohere
- Published: August 20, 2024
TL; DR
사전학습때 Code를 보면 정말 좋은가?를 실험으로 경험적 검증









Personal note. 구체적인 실험 내용도 물론 좋지만, 결과적으로 code를 사전학습때 같이 보는게 LM 추론능력 향상에 실질적으로 도움이 된다는 결론정도만 가져가도 좋을 것 같아요🙂 abstract에 정리된 결론 일부를 더 축약하면 “사전학습에 code가 추가되면 text-only에 비해 reasoning은 최대 8.2%, world knowledge는 4.2%, Generative quality는 6.6%, 코드 성능은 12배 향상됐다”고 합니다.