Having Beer after Prayer? Measuring Cultural Bias in Large Language Models
- Authors: Tarek Naous, Michael J. Ryan, Alan Ritter, Wei Xu
- Paper: https://arxiv.org/pdf/2305.14456
- Published: May 23, 2023
- Code: https://github.com/tareknaous/camel
- Conference: ACL2024
TL; DR
์๋-์๊ตฌ๋ฌธํ๊ฐ ๋์กฐ๋๋ entity์ natural occurring prompt ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ์
CAMeL์ ์ ์ํ๊ณ , ์ด๋ฅผ ํตํด ์ฌ๋ก์ฐ๊ตฌํ ๊ฒฐ๊ณผ LLM์ด ์๊ตฌ๋ฌธํ๊ถ entity์ ํธํฅ๋์ด ์์์ ๋ํ ์ฐ๋ ค









Problem States
multi-lingual์ด ๋๋ LM์ด๋ผ๊ณ ํด๋ ๋ฌธํ์ ๋์์ค๋ฅผ ๊ณ ๋ คํ์ง ์์, ๋น์๊ตฌ๊ถ์์๋ ๋ฌธํ์ ๋งฅ๋ฝ์์ ๋ถ์ ์ ํ ์์ฑ ๋ฐ์ย Figure 1
- Dataset Construction
- ๋์กฐ entity ๊ตฌ์ฑ (20K)ย
Figure 3, 4- type: ์ฌ๋ ์ด๋ฆ, ์์/์๋ฆฌ, ์๋ฃ, ์๋ฅ ์์ดํ , ์์น(๋์), ๋ฌธํ ์๊ฐ, ์ข ๊ต์ ์๋ฐฐ ์ฅ์, ์คํฌ์ธ ํด๋ฝ
- ํจํด๊ธฐ๋ฐ entity ์ถ์ถ from Wiki data + CommonCrawl
- ํํฐ๋ง ์๋,,
- naturally occurring prompt (600)ย
Table 1- X์์ ํค์๋ ๊ฒ์์ผ๋ก ์ถ์ถ
- ๋ฌธํ์ ์ผ๋ก ์์กด์ฑ ์๋ ํ๋กฌํํธ(CAMeL-Co)์ ๋ฌธํ์ ์ผ๋ก ๋ ๋ฆฝ์ ์ธ ํ๋กฌํํธ(CAMeL-Ag)๋ก ๊ตฌ๋ถ
- human filtering + ์ต๋ช ํ
- ๋์กฐ entity ๊ตฌ์ฑ (20K)ย
- Experiment
- backbone: 16๊ฐ LM
- AraBERT, ARBERT, CAMeLBERT, MARBERT, and AraGPT2. Multilingual models include mBERT, XLM-R, BLOOM, GPT-3.5, GPT-4
- ์๋ ์ธ์ด ํนํ ๋ชจ๋ธ ํฌํจ
- evaluation
- intrinsic: embedding distance or probability ๋ฑ..
- extrinsic: ๊ฐ์ ๋ถ์, NER, ์คํ ๋ฆฌ์์ฑ ๋ฑ
- cloze-style text infilling task์์ ์๋ ๋ฌธํ์ ๋งฅ๋ฝ์ ์ ๋๋ก ์ดํดํ์ง ๋ชปํจ์ ํ์ธ
- backbone: 16๊ฐ LM
Effect
- Story Generation: ์๋๊ณผ ์์ ์ด๋ฆ์ ๊ฐ์ง ์ธ๋ฌผ์ ๋ํ ์ด์ผ๊ธฐ๋ฅผ ์์ฑย
Table 2- ๊ฐ ํ์ฉ์ฌ์ ๋ํ ์ค์ฆ๋น(Odds Ratio) ๊ณ์ฐ: ์๋ ์ธ๋ฌผ์ ๋ํ ์ด์ผ๊ธฐ์์ ํด๋น ํ์ฉ์ฌ๊ฐ ์์ ์ธ๋ฌผ์ ๋นํด ๋ ๋ง์ด ์ฌ์ฉ๋๋์ง (OR์ด ๋์ผ๋ฉด ํด๋น ํ์ฉ์ฌ๊ฐ ์์ ์ด๋ฆ๊ณผ ๊ฐํ ์ฐ๊ด์ฑ์ ๋ณด์ธ๋ค๊ณ ๊ฐ์ )ย
Figure 5 - ์๊ตฌ ๋ฐ์ด์ด์ค: โwealthy,โ โpopular,โ โintelligentโ
- ์๋ ๋ฐ์ด์ด์ค: โpoor,โ โmodest,โ โtraditionalโ
- ๊ฐ ํ์ฉ์ฌ์ ๋ํ ์ค์ฆ๋น(Odds Ratio) ๊ณ์ฐ: ์๋ ์ธ๋ฌผ์ ๋ํ ์ด์ผ๊ธฐ์์ ํด๋น ํ์ฉ์ฌ๊ฐ ์์ ์ธ๋ฌผ์ ๋นํด ๋ ๋ง์ด ์ฌ์ฉ๋๋์ง (OR์ด ๋์ผ๋ฉด ํด๋น ํ์ฉ์ฌ๊ฐ ์์ ์ด๋ฆ๊ณผ ๊ฐํ ์ฐ๊ด์ฑ์ ๋ณด์ธ๋ค๊ณ ๊ฐ์ )ย
- NER: ANERCorp(์๋ NER๋ฐ์ดํฐ์
)ํ์ฉ finetuningํ๊ฑฐ๋ ICL(5-shot) for GPT-style model
- ์ต๋ 20์ ์ด์ ์๋ NER์ ๋ ๋ชปํ๊น
ํจ (์์น)ย
Figure 6
- ์ต๋ 20์ ์ด์ ์๋ NER์ ๋ ๋ชปํ๊น
ํจ (์์น)ย
- sentiment analysis:
- ์คํ๋ฅ ์ ๋ณ ๊ฒฝํฅ์ ์์์ง๋ง, ์๋์ ์ผ๋ก ์๊ตฌ๊ถ entity์ ๊ธ์ ์ฑ์ ๋ ๋.ย
Figure 6
- ์คํ๋ฅ ์ ๋ณ ๊ฒฝํฅ์ ์์์ง๋ง, ์๋์ ์ผ๋ก ์๊ตฌ๊ถ entity์ ๊ธ์ ์ฑ์ ๋ ๋.ย
- text(entity) infillingย
Figure 7- metric CBS: ์๊ตฌ๊ถ ํธํฅ ์ ์. ํ๋กฌํํธ์์ mask token ์ฑ์ธ ๋ LM์ด ์๋๊ถ๋ณด๋ค ์๊ตฌ๊ถ entity์ ์ ํธ๋๋ฅผ ์ธก์
- prompt adaptation: ์๊ตฌ ํธํฅ ์ค์ด๊ธฐ ์ํด
- cultural token ์ถ๊ฐ : special token์ผ๋ก [Arab] ์ถ๊ฐ
- fewshot์ ์๋ entity ํฌํจ๋์ง ์๋๋ก ์ฒ๋ฆฌ
- ์๋ฌด๋ฆฌ special token ์ค๋ค๊ณ ํ๋ค western entity์ ํธํฅ
- 6 ๊ฐ์ ์ฌ์ ํ์ต ์๋ Corpus Analysis: OpenGRM์ ์ฌ์ฉํด 4-gram LM ํ์ต( ๋น๋์ ๊ธฐ๋ฐ LM์ด๋ฏ๋ก ์ง๊ด์ ๋น๊ต ๊ฐ๋ฅ) โ CAMeL-Co์ ๋ํ CBS ์ธก์ ย
Figure 8- ์๋์ด๋๋ผ๋ ์๊ตฌ ๋ด์ค๋ฅผ ์ฃผ๋ก ๋ค๋ฃจ๋ ๋ฑ Wikipedia์ ๊ฐ์ด ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ ์์ค๋ฅผ ์กฐ์ ์์ด ๊ทธ๋๋ก ์ฌ์ฉํ ๊ฒฝ์ฐ ๋ฌธํ์ ์ผ๋ก ํธํฅ ์์ค LM ํ์ต์๋ ์ ํฉํ์ง ์์๋ฏ.
- ๊ทธ๋๋ง Twitter ๋ฐ์ดํฐ๊ฐ ์ ์ผ ๋์ CBS ์ ์ ํ๋
Personal note. ๋จ์ผ์ธ์ด๋ง์ ๋น๊ตํ ๋ถ๋ถ - cross-lingual setting๋ ์ถฉ๋ถํ ๋ฌธ์ ๋๊น.. ๋น์ฐํ ์ง๋? ํํธ์ผ๋ก ๊ทธ๋ ๋ค๊ณ ํด๋, ์๋ฌด๋๋ ํ๊ตญ์ด๋ณด๋ค๋ ๋ฌธํโ๊ถโ์ผ๋ก ๋ฌถ์ด๋ ์๋์ด๊ฐ ๋ ์ ์ ํ ๋์กฐ๊ตฐ์ด๋ผ๋ ์ ์ ๋ฉ๋ํ ์๋ฐ์. entity๋ฅผ ๋์กฐ ๊ธฐ์ค์ผ๋ก ์ก์ ๊ฒ๋ ์ ์ฉํ๊ณ ๊ด์ฐฎ์ ์ ๊ทผ์ผ๋ก ๋ณด์.
ํธํฅ์ด ์๋ค๋ฅผ ๋ณด์ฌ์ฃผ๊ธฐ ์ํด ํนํ ๋น์นธ ์ฑ์ฐ๊ธฐ ์ ๋ชปํ๋ ๊ฑธ ๋ณด์ธ ๊ฒ, ์ผ๋ฐ์ ์ผ๋ก ํ์ธํ๋ QA๋ณด๋ค ์ฝ๊ณ ์ง๊ด์ ์ด๊ณ ์ค๋๋จ.๊ทธ๋ฐ์ NLU/NLG task๋ฅผ ๋ชจ๋ ํฌ๊ดํ ๊ฒ๋ ์ ์ ํ ์ ๊ทผ - ๊ธฐ์กด QA task๋ฅผ cloze style๋ก ๋ฐ๊พธ๋ ๊ฑด ์ด๋ ค์ฐ๋ ค๋? ์๋์ ์ผ๋ก ์ฌ์ธ์ง๋? ์ด์ฐจํผ ์ด ๋ ผ๋ฌธ๋ ์ถ์ถํ entity๊ฐ wiki data -based๋ผ๋ฉด..
entity๋ ๋ญ๋ ์๊ตฌ๋ฌธํ๊ถ์ ๋ฐ์ด์ด์ค ๋ผ์ด์์ ๊ฑฐ๋ผ๋ ์ ์ ๋๊ฒ ๋น์ฐํ์ง ์๋? ๊ฒฐ๋ก ๋ ์ฌํํ๊ฒ ๋ฌธํ ๋ฐ์ด์ด์ค๋ฅผ ๊ณ ๋ คํ ๋ฆฌ์์ค ๊ตฌ์ถ์ธ ์ .. ๋ปํ ๊ฒฐ๊ณผ์ ๋ปํ ์ฃผ์ฅ์ ์ด๋ป๊ฒ ํฌ์ฅํ์๊น? (์ฝ๊ฐ ๋ณ๊ฑด์ด์ง๋ง) lingual bias๋ฅผ ๋ค๋ฃจ๋ฉด์ cultural context๋ฅผ ๋ฌด์ํ๋ ๊ฒ์ ๋๋ฌด ํธํํ ์ฐ๊ตฌ๊ฐ ๋ ๊ฒ ๊ฐ์.
์ฃผ์ฅ์ ๊ด์ฒ ํ๋ ๋ฐ์ ์ผ๊ด์ฑ์๊ณ ๊ตฐ๋๋๊ธฐ ์๋ ์ถฉ์คํ ์ฐ๊ตฌ: ๋ฐ์ดํฐ์ ๊ตฌ์ถ์ ํฌํจํ์ฌ ์ด๋ค ํ์์ ํฌ์ฐฉํ๊ธฐ ์ํ study๋ผ๋ฉด ์ด๋ฐ ํ๋ฆ์ผ๋ก ๊ตฌ์ฑํ๋๊ฒ ํ๋นํด๋ณด์
์คํ์ด ํ๋ถํจ: ์ถฉ์คํ ์ค๋ช + appendix๋. ์ ์ํ task๊ฐ ์ ์ ํ ์ , ๊ธฐ์กด metric + ์์ฒด metricย ยป ์ผ๊ด๋ ๊ฒฐ๊ณผ, ์คํ ablation์์ ๊ทธ์น์ง ์๊ณ ๋ปํ ์ฃผ์ฅ์ ์ค๋๋ ฅ์ ๋ํ๊ธฐ ์ํด ์ฝํผ์ค ๋ถ์ ๊ฒฐ๊ณผ๋ฅผ ์ถ๊ฐํ ํ๋ฆ์ด ์์ฐ์ค๋ฌ์