Archive

[๋ฒˆ์—ญ] The History of Open-Source LLMs: Part โ…ก. Better Base Models

geum 2023. 10. 25. 10:16

The History of Open-Source LLMs: Part โ… . Early days

The History of Open-Source LLMs: Part โ…ก. Better Base Models

The History of Open-Source LLMs: Part โ…ข. Imitations and alignment

 

โญ ๊ธ€์— ์‚ฝ์ž…๋œ ๋ชจ๋“  ์ด๋ฏธ์ง€์˜ ์ถœ์ฒ˜๋Š” ์›๋ฌธ์ž…๋‹ˆ๋‹ค.


์ดˆ๊ธฐ ์˜คํ”ˆ์†Œ์Šค LLM

- ๊ณต๊ฐœ๋˜์ง€ ์•Š์€ ์‚ฌ์ „ ํ•™์Šต ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ตํ•˜๋ฉด ์„ฑ๋Šฅ์ด ๋งŽ์ด ๋–จ์–ด์ง„๋‹ค๋Š” ๋‹จ์ ์ด ์กด์žฌํ•จ

 

1) LLM ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ

โ‘  ๋Œ€๋Ÿ‰์˜ ์›์‹œ ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•ด ๋ชจ๋ธ ์‚ฌ์ „ ํ•™์Šต

โ‘ก SFT์™€ RLHF ๊ฐ™์€ ๊ธฐ์ˆ ์„ ์ด์šฉํ•ด alignment ์ˆ˜ํ–‰

โ‘ข LLM์„ ํŠน์ • ํƒœ์Šคํฌ์— ์ ์šฉํ•˜๊ธฐ ์œ„ํ•ด ํŒŒ์ธ ํŠœ๋‹ ๋˜๋Š” in-context learning ์ˆ˜ํ–‰

 

 

- ์ตœ๊ทผ ์—ฐ๊ตฌ๋“ค์€ ์–ธ์–ด ๋ชจ๋ธ์˜ ์ง€์‹์˜ ๋Œ€๋ถ€๋ถ„์ด ์‚ฌ์ „ ํ•™์Šต ๊ณผ์ •์—์„œ ์–ป์–ด์ง„๋‹ค๋Š” ๊ฒƒ์„ ๊ฒฝํ—˜์ ์œผ๋กœ ํ™•์ธํ•จ

- Alignment ๊ณผ์ •์€ LIMA์—์„œ ๋‚˜์˜จ ์•„์ด๋””์–ด๋กœ ๋ชจ๋ธ์ด ์‚ฌ์ „ ํ•™์Šต ๊ณผ์ •์—์„œ ์–ป์€ ์ง€์‹์„ ์ ์ ˆํ•˜๊ฒŒ ํ˜•์‹ํ™”ํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ฐ€๋ฅด์น˜๋Š” ๊ฒƒ

- ์ถฉ๋ถ„ํ•œ ์‚ฌ์ „ ํ•™์Šต์ด ์ด๋ค„์ง€์ง€ ์•Š์€ ๋ชจ๋ธ์€ ํŒŒ์ธ ํŠœ๋‹์ด๋‚˜ alignment๋ฅผ ํ†ตํ•ด ๊ณ ์ •๋  ๊ฐ€๋Šฅ์„ฑ์ด ๋‚ฎ์Œ

 

๊ฐœ์„ ๋œ ๋ฒ ์ด์Šค ๋ชจ๋ธ

1. LLaMA: Open and Efficient Foundation Language Models

- ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜์— ๋”ฐ๋ฅธ ๋‹ค์–‘ํ•œ ๋ฒ„์ „์ด ์žˆ์Œ

- LLaMA ๊ณต๊ฐœ ์ดํ›„ ์˜คํ”ˆ์†Œ์Šค LLM ์—ฐ๊ตฌ๊ฐ€ ํ™œ๋ฐœํžˆ ์ง„ํ–‰๋จ

- ์ƒ์—…์  ์‚ฌ์šฉ ๋ถˆ๊ฐ€, ์—ฐ๊ตฌ ๋ชฉ์ ์œผ๋กœ๋งŒ ์‚ฌ์šฉ ๊ฐ€๋Šฅ

 

 

1) ๋ฐ์ดํ„ฐ์…‹

- 1์กฐ 4์ฒœ ์–ต ๊ฐœ ์ด์ƒ์˜ ํ† ํฐ์ด ํฌํ•จ๋œ ์ฝ”ํผ์Šค๊ฐ€ ์‚ฌ์ „ ํ•™์Šต์— ์‚ฌ์šฉ๋จ

- ๊ณต๊ฐœ๋˜์–ด ์žˆ๋Š” ๋ฐ์ดํ„ฐ์…‹๋งŒ์„ ์‚ฌ์ „ ํ•™์Šต์— ์‚ฌ์šฉํ•˜์—ฌ ์—ฌ๋Ÿฌ ๋ฉด์—์„œ LLM์˜ ํˆฌ๋ช…์„ฑ๊ณผ ๊ฐœ๋ฐฉ์„ฑ์„ ๊ฐœ์„ ํ•˜๊ณ ์ž ํ–ˆ์Œ

 

2) ์„ฑ๋Šฅ

- Alignment๋ฅผ ์ ์šฉํ•˜์ง€ ์•Š์•˜์Œ์—๋„ LLaMA-13B ๋ชจ๋ธ์€ GPT-3์— ํ•„์ ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์˜€๊ณ , LLaMA-65B ๋ชจ๋ธ์€ ์—ฌ๋Ÿฌ ํƒœ์Šคํฌ์—์„œ PaLM์˜ ์„ฑ๋Šฅ์„ ๋Šฅ๊ฐ€

 

2. MPT

- ์ƒ์—…์ ์œผ๋กœ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๋ชจ๋ธ

 

1) MPT-7B ๋ชจ๋ธ๊ณผ MPT-30B ๋ชจ๋ธ์˜ ์ฐจ์ด์ 

- ์‚ฌ์ „ ํ•™์Šต์— ์‚ฌ์šฉ๋œ ๋ฐ์ดํ„ฐ์…‹ ์กฐํ•ฉ์ด ๋‹ค๋ฆ„

-  MPT-30B๋Š” ๋” ๊ธด ์ปจํ…์ŠคํŠธ ๊ธธ์ด์˜ 8K ํ† ํฐ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต

 

3. Falcon

- ์ƒ์—…์ ์œผ๋กœ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๋ชจ๋ธ

- Falcon models perform incredibly well due to being pre-trained on a massive, custom-curated corpus.

 

1) ์›น ํ๋ ˆ์ดํŒ… ๋ฐ์ดํ„ฐ

- 5์กฐ ๊ฐœ ์ด์ƒ์˜ ํ…์ŠคํŠธ ํ† ํฐ์„ ํฌํ•จํ•œ ๋Œ€๊ทœ๋ชจ ํ…์ŠคํŠธ ์ฝ”ํผ์Šค RefinedWeb ์‚ฌ์šฉ(7B, 40B ๋ชจ๋ธ ํ•™์Šต ์‹œ ์ด ํ† ํฐ์„ ๋ชจ๋‘ ์‚ฌ์šฉํ•œ ๊ฑด X)

- ๋Œ€๋ถ€๋ถ„์˜ LLM์€ ์ด๋ฏธ ํ๋ ˆ์ดํŒ… ๋˜์–ด ์žˆ๋Š” ๊ณต๊ฐœ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•ด ์‚ฌ์ „ ํ•™์Šต๋˜์ง€๋งŒ Falcon์€ ์›น ๋ฐ์ดํ„ฐ๋งŒ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ž์ฒด์ ์ธ ์‚ฌ์ „ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•

 

 

4. LLaMA-2

1) LLaMA์™€์˜ ์ฐจ์ด์ 

- ๋” ๋งŽ์€ ํ† ํฐ, ๋” ๊ธด ์ปจํ…์ŠคํŠธ๋กœ ํ•™์Šต๋จ

- ํฌ๊ธฐ๊ฐ€ ํฐ ๋ฒ„์ „์€ ๊ธฐ๋ณธ ์•„ํ‚คํ…์ฒ˜ ๋‚ด์—์„œ GQA(Grouped Query Attention) ์‚ฌ์šฉ

 

 

2) Grouped Query Attention

- LLM์˜ ์ถ”๋ก  ํšจ์œจ์„ฑ ํ–ฅ์ƒ์„ ์œ„ํ•ด ๋ฉ€ํ‹ฐํ—ค๋“œ ์–ดํ…์…˜์„ ๋ณ€ํ˜•ํ•œ ๋ฐฉ์‹

- ์ผ๋ฐ˜์ ์ธ ๋ฉ€ํ‹ฐํ—ค๋“œ ์–ดํ…์…˜์€ query, key, value๋ฅผ ๊ฐ๊ฐ N๊ฐœ์”ฉ ๊ฐ€์ง€๊ณ  ์žˆ์ง€๋งŒ GQA๋Š” N๊ฐœ๋ฅผ ๊ทธ๋ฃน์œผ๋กœ ๋ฌถ์–ด์„œ ์ฒ˜๋ฆฌ

- ๋ฉ€ํ‹ฐํ—ค๋“œ ์–ดํ…์…˜๊ณผ ๋ฉ€ํ‹ฐ์ฟผ๋ฆฌ ์–ดํ…์…˜์„ ํ•ฉ์นœ ๋ฐฉ๋ฒ•์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์Œ

- ๋ฉ€ํ‹ฐํ—ค๋“œ ์–ดํ…์…˜์˜ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ๋ฉ€ํ‹ฐ์ฟผ๋ฆฌ ์–ดํ…์…˜์— ๋งž๋จน๋Š” ์ถ”๋ก  ์†๋„๋ฅผ ๊ฐ€์ง€๊ธฐ ์œ„ํ•ด ๊ณ ์•ˆ๋จ

 

์˜คํ”ˆ ์†Œ์Šค LLM ํŠธ๋ Œ๋“œ

1. ๋ฐ์ดํ„ฐ

- ๋ฐ์ดํ„ฐ์˜ ์–‘๊ณผ ์งˆ์ด ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๋งค์šฐ ์ค‘์š”ํ•จ

 

2. ์ถ”๋ก  ์ตœ์ ํ™”

- ์ตœ๊ทผ์˜ ์˜คํ”ˆ ์†Œ์Šค LLM์€ ๋น ๋ฅด๊ณ  ์‰ฝ๊ฒŒ ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ๋„๋ก ์ตœ์ ํ™” ๋˜์–ด ์žˆ๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Œ

 

3. ์•„ํ‚คํ…์ฒ˜ ๋ณ€ํ™”

- ๊ณต๊ฐœ๋˜์ง€ ์•Š์€ ๋…์  ๋ชจ๋ธ๋ณด๋‹ค ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ€ ์ž‘๊ณ  ์ถ”๋ก  ์†๋„๋ฅผ ๋†’์ด๊ธฐ ์œ„ํ•œ ๋‹ค์–‘ํ•œ ๋ฐฉ์‹ ์ ์šฉ