Archive

[๋ฒˆ์—ญ] The History of Open-Source LLMs: Part โ… . Early days

geum 2023. 10. 23. 15:32

์—ฐ๊ตฌ์‹ค ์˜ค๋น ๊ฐ€ ๊ณต์œ ํ•ด์ค€ ์˜คํ”ˆ์†Œ์Šค LLM ๋ฐœ์ „ ๊ณผ์ •์— ๋Œ€ํ•œ ๊ธ€์„ ์ฝ๊ณ  ๋ฒˆ์—ญ ๋ฐ ์ถ”๊ฐ€ ๊ณต๋ถ€ํ•œ ๋‚ด์šฉ์„ ์ •๋ฆฌํ•ด๋ณธ๋‹ค. 

 

The History of Open-Source LLMs: Part โ… . Early days

The History of Open-Source LLMs: Part โ…ก. Better Base Models

The History of Open-Source LLMs: Part โ…ข. Imitations and alignment

 

โญ ๊ธ€์— ์‚ฝ์ž…๋œ ๋ชจ๋“  ์ด๋ฏธ์ง€์˜ ์ถœ์ฒ˜๋Š” ์›๋ฌธ์ž…๋‹ˆ๋‹ค.


LLM ๋“ฑ์žฅ ๋ฐฐ๊ฒฝ

- ์–ธ์–ด ๋ชจ๋ธ ์ž์ฒด๋Š” ์—ญ์‚ฌ๊ฐ€ ์˜ค๋ž˜ ๋์ง€๋งŒ self-supervised pre-training๊ณผ in-context learning์„ ์กฐํ•ฉํ•˜์—ฌ ์—ฌ๋Ÿฌ ํƒœ์Šคํฌ์—์„œ ์ธ์ƒ ๊นŠ์€ few-shot learning ์„ฑ๋Šฅ์„ ๋ณด์ธ GPT-3์˜ ๋“ฑ์žฅ์œผ๋กœ LLM ๋Œ€์ค‘ํ™”

- ์ดํ›„ ์ˆ˜๋งŽ์€ LLM์ด ์ œ์•ˆ๋˜๊ณ  ์–ธ์–ด ๋ชจ๋ธ alignment์™€ ๊ฐ™์€ ์—ฐ๊ตฌ๊ฐ€ ์ง„ํ–‰๋˜๋ฉด์„œ InstructGPT, ChatGPT ๊ฐ™์€ ์ธ์ƒ์ ์ธ ๋ชจ๋ธ์ด ๊ฐœ๋ฐœ๋จ

 

Open-source LLMs

- ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ธ ์ดˆ๊ธฐ LLM๋“ค์€ ๊ธฐ์ˆ ์ด ๊ณต๊ฐœ๋˜์ง€ ์•Š์€ closed source ํ˜•ํƒœ์˜€์œผ๋‚˜ LLM ์—ฐ๊ตฌ ์ปค๋ฎค๋‹ˆํ‹ฐ์—์„œ ์ธ๊ธฐ ์žˆ๋Š” ์–ธ์–ด ๋ชจ๋ธ์˜ ์˜คํ”ˆ ์†Œ์Šค ๋ณ€ํ˜•์„ ๋งŒ๋“ฆ

- ์ตœ์ดˆ์˜ ์˜คํ”ˆ ์†Œ์Šค ์–ธ์–ด ๋ชจ๋ธ์€ ์ตœ๊ณ ์˜ ๋…์  ๋ชจ๋ธ(๊ณต๊ฐœ๋˜์ง€ ์•Š์€ ๋ชจ๋ธ)๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋’ค์ณ์ง€๊ธด ํ–ˆ์ง€๋งŒ LLM ์—ฐ๊ตฌ ๋‚ด ํˆฌ๋ช…์„ฑ ํ–ฅ์ƒ์„ ์œ„ํ•œ ํ† ๋Œ€๋ฅผ ๋งˆ๋ จ

- ๋˜ํ•œ, Falcon, LLaMA์™€ ๊ฐ™์ด ๋” ๊ฐ•๋ ฅํ•œ ํ›„์† ๋ชจ๋ธ์˜ ๊ฐœ๋ฐœ์„ ์ด‰์ง„ํ•˜๋Š” ๊ณ„๊ธฐ๊ฐ€ ๋จ

 

์–ธ์–ด ๋ชจ๋ธ ๋ฉ”์ปค๋‹ˆ์ฆ˜

- ์–ธ์–ด ๋ชจ๋ธ์˜ ํ•ต์‹ฌ์€ next token prediction์œผ๋กœ ๊ฑฐ์˜ ๋ชจ๋“  ์–ธ์–ด ๋ชจ๋ธ ํ•™์Šต์— ์‚ฌ์šฉ๋จ

- Next token prediction์€ ์–ธ์–ด ๋ชจ๋ธ ๋ชฉ์  ํ•จ์ˆ˜์˜ ํ‘œ์ค€์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์Œ

- Next token prediction์œผ๋กœ ์–ธ์–ด ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๋Œ€๋Ÿ‰์˜ ํ…์ŠคํŠธ ์ฝ”ํผ์Šค ํ•„์š”

- ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๋ถ€ํ„ฐ ํ…์ŠคํŠธ๋ฅผ ์ถ”์ถœํ•œ ํ›„ ๋ชจ๋ธ์ด ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋„๋ก ํ•™์Šต ์ง„ํ–‰

- ๋‹ค์Œ ํ† ํฐ์€ ํ•ญ์ƒ ์›์‹œ ํ…์ŠคํŠธ๋กœ๋ถ€ํ„ฐ ์ถ”๋ก ๋  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— next token prediction์€ ์ผ์ข…์˜ self-supervised learning

 

 

1. ์–ธ์–ด ๋ชจ๋ธ objective

1) ํ† ํฐ

- 'ํ† ํฐ'๊ณผ '๋‹จ์–ด'๋Š” ๊ฐ™์•„ ๋ณด์ด์ง€๋งŒ ์ •ํ™•ํžˆ ๊ฐ™์€ ๊ฒƒ์€ ์•„๋‹˜

- ์–ธ์–ด ๋ชจ๋ธ์ด ํ…์ŠคํŠธ๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์œผ๋ฉด ์›์‹œ ํ…์ŠคํŠธ๊ฐ€ ํ† ํฐํ™”๋จ

 

2) ๋‹ค์Œ ํ† ํฐ ์˜ˆ์ธก

- ์–ธ์–ด ๋ชจ๋ธ์€ ํ† ํฐํ™”๋œ ์–ดํœ˜ ๋‚ด ๋ชจ๋“  ํ† ํฐ์— ๋Œ€ํ•ด ๊ณ ์œ ํ•˜๊ณ  ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋ฒกํ„ฐ ์ž„๋ฒ ๋”ฉ์„ ์ €์žฅํ•˜๋Š” ์ž„๋ฒ ๋”ฉ ๋ ˆ์ด์–ด๋ฅผ ๊ฐ€์ง

- ํ† ํฐํ™” ๊ณผ์ •์„ ๊ฑฐ์ณ ํ† ํฐ ์‹œํ€€์Šค๊ฐ€ ์ƒ์„ฑ๋˜๋ฉด ์–ธ์–ด ๋ชจ๋ธ์€ ์ž„๋ฒ ๋”ฉ ๋ ˆ์ด์–ด๋ฅผ ์ด์šฉํ•ด ์ž…๋ ฅ ์‹œํ€€์Šค ๋‚ด ๊ฐ ํ† ํฐ์„ ๋ฒกํ„ฐ ์ž„๋ฒ ๋”ฉ์œผ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ํ† ํฐ ๋ฒกํ„ฐ ์‹œํ€€์Šค ํ˜•์„ฑ

 

 

- ๊ฐ ํ† ํฐ ๋ฒกํ„ฐ์— ํฌ์ง€์…”๋„ ์ธ์ฝ”๋”ฉ์„ ์ถ”๊ฐ€ํ•œ ํ›„ ํ† ํฐ ๋ฒกํ„ฐ ์‹œํ€€์Šค๋ฅผ decoder-only ํŠธ๋žœ์Šคํฌ๋จธ๋กœ ์ „๋‹ฌํ•˜๋ฉด ๊ฐ ํ† ํฐ์— ํ•ด๋‹นํ•˜๋Š” ์ถœ๋ ฅ ๋ฒกํ„ฐ๊ฐ€ ์ƒ์„ฑ๋จ

- ์ถœ๋ ฅ ๋ฒกํ„ฐ์˜ ์ˆ˜๋Š” ์ž…๋ ฅ ๋ฒกํ„ฐ์˜ ์ˆ˜์™€ ๋™์ผ

- ์‹œํ€€์Šค ๋‚ด ๊ฐ ํ† ํฐ์— ๋Œ€ํ•œ ์ถœ๋ ฅ ํ† ํฐ ๋ฒกํ„ฐ๋ฅผ ๊ฐ€์ ธ์™€์„œ ์‹œํ€€์Šค ๋‚ด์—์„œ ๋‹ค์Œ์— ์˜ฌ ํ† ํฐ ์˜ˆ์ธก

 

 

- ์–‘๋ฐฉํ–ฅ self-attenttion์„ ์‚ฌ์šฉํ•˜๋ฉด ๊ฐ๊ฐ์˜ ์ถœ๋ ฅ ํ† ํฐ ๋ฒกํ„ฐ๋Š” ๋ฒกํ„ฐ์˜ ์ „์ฒด ์‹œํ€€์Šค๋ฅผ ๋ณด๊ณ  ๊ณ„์‚ฐ๋˜๊ธฐ ๋•Œ๋ฌธ์— ๋ชจ๋ธ์€ ์‹œํ€€์Šค์—์„œ ๋‹ค์Œ์— ์˜ค๋Š” ํ† ํฐ์„ ํ™•์ธํ•˜์—ฌ ๊ฒฐ๊ณผ๋ฅผ ๋‚ผ ์ˆ˜ ์žˆ์Œ → ๋‹ต์„ ๋ฏธ๋ฆฌ ๋ด์„œ ์•Œ๊ฒŒ ๋œ๋‹ค๋Š” ์˜๋ฏธ

-  Causal (๋˜๋Š” masked) self-attention์„ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ฐ ์ถœ๋ ฅ ํ† ํฐ ๋ฒกํ„ฐ๋Š” ์—ฐ์‚ฐ ์‹œ์— ํ˜„์žฌ ํ† ํฐ๊ณผ ์ด์ „ ํ† ํฐ๊นŒ์ง€๋งŒ ๊ณ ๋ คํ•จ

 

2. ํŠธ๋žœ์Šคํฌ๋จธ ์•„ํ‚คํ…์ฒ˜์™€ ๋ณ€ํ˜• ๊ตฌ์กฐ

- ๋ชจ๋“  ์–ธ์–ด ๋ชจ๋ธ์€ Seq2Seq ๋ฌธ์ œ๋ฅผ ํ’€๊ธฐ ์œ„ํ•ด ์ œ์•ˆ๋œ ํŠธ๋žœ์Šคํฌ๋จธ ๊ตฌ์กฐ๋ฅผ ์•ฝ๊ฐ„์”ฉ ๋ณ€ํ˜•ํ•˜์—ฌ ์‚ฌ์šฉ

- ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋”๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ์Œ

- ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋”๊ฐ€ ๋ชจ๋‘ ์กด์žฌํ•  ๊ฒฝ์šฐ 1) ์ธ์ฝ”๋”๊ฐ€ ์ž…๋ ฅ ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•œ ํ›„ ์ถœ๋ ฅ ์‹œํ€€์Šค๋ฅผ ์ƒ์„ฑํ•˜๊ณ  2) ๋””์ฝ”๋”๋Š” ์ธ์ฝ”๋”์˜ ์ถœ๋ ฅ ์‹œํ€€์Šค๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ์ž์ฒด ์ถœ๋ ฅ ์‹œํ€€์Šค ์ƒ์„ฑ

- ์ธ์ฝ”๋”๋Š” ์ „์ฒด ์ž…๋ ฅ ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜์—ฌ ๋””์ฝ”๋”๊ฐ€ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•  ๋•Œ ์ปจํ…์ŠคํŠธ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ํ‘œํ˜„์„ ๋งŒ๋“œ๋Š” ์—ญํ• 

 

1) Decoder-only / Encoder-only ํŠธ๋žœ์Šคํฌ๋จธ

- ๊ฑฐ์˜ ๋ชจ๋“  causal language model์€ decoder-only ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ๊ธฐ๋ณธ ๊ตฌ์กฐ๋กœ ์‚ฌ์šฉ

- Encoder-only ํŠธ๋žœ์Šคํฌ๋จธ๋Š” discriminative natural language tasks์—์„œ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€๋งŒ ํ…์ŠคํŠธ ์ƒ์„ฑ์—๋Š” ์‚ฌ์šฉ๋˜์ง€ ์•Š์Œ

 

2) ๋””์ฝ”๋”๋งŒ ์‚ฌ์šฉํ•˜๋Š” ์ด์œ 

- LLM์— ๋””์ฝ”๋” ๊ตฌ์กฐ๋งŒ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์€ ์ž„์˜๋กœ ์„ ํƒํ•œ ๊ตฌ์กฐ๊ฐ€ ์•„๋‹˜

- ์–ธ์–ด ๋ชจ๋ธ ํ•™์Šต์„ ์œ„ํ•ด next token prediction+masked self-attention์„ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋””์ฝ”๋” ๋‚ด์—์„œ ๋ชจ๋ธ์ด ๋‹ค์Œ ํ† ํฐ์„ ์˜ˆ์ธกํ•  ๋•Œ ๋‹ต์„ ๋ฏธ๋ฆฌ ๋ณผ ์ˆ˜ ์—†์Œ

 

 

- Cheating ์—†์ด next token prediction์„ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” encoder-only ํŠธ๋žœ์Šคํฌ๋จธ์™€ encoder-decoder ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋‘ ์ž…๋ ฅ ์‹œํ€€์Šค์— ๋‹ค์Œ ํ† ํฐ์˜ ๊ธฐ์ค€ ๊ฐ’์„ ํฌํ•จํ•˜์ง€ ์•Š์•„์•ผ ํ•จ

- ์ด๋ฅผ ์œ„ํ•ด์„œ 1) prefix๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ  2) prefix ๋’ค์— ์˜ค๋Š” ํ† ํฐ์„ ์˜ˆ์ธกํ•˜๋„๋ก ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ ์ด ๋ฐฉ์‹์€ ํ•œ ๋ฒˆ์— ํ•˜๋‚˜์˜ ํ† ํฐ๋งŒ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๋น„ํšจ์œจ์ 

- Decoder-only ๋ชจ๋ธ์€ masked self-attention์„ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํ† ํฐ์˜ ์ „์ฒด ์‹œํ€€์Šค๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ  ์‹œํ€€์Šค ๋‚ด ๋ชจ๋“  ํ† ํฐ์— ์–ธ์–ด ๋ชจ๋ธ์˜ objective๋ฅผ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Œ

 

3) ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•

- ์œ„์—์„œ ์„ค๋ช…ํ•œ decoder-only ๊ตฌ์กฐ๋ฅผ ๊ณ ๋ คํ•˜๋ฉด ํ…์ŠคํŠธ ์ƒ์„ฑ์€ ๊ฐ„๋‹จํ•œ autoregressive ๊ณผ์ •์„ ๋”ฐ๋ฆ„

 

 

3. ์–ธ์–ด ๋ชจ๋ธ ํ•™์Šต๊ณผ ์‚ฌ์šฉ

1) Pre-training

- ์‚ฌ์ „ ํ•™์Šต ๊ณผ์ •์€ LLM์„ ๊ฐœ๋ฐœํ•˜๋Š” ์ดˆ๊ธฐ ๋‹จ๊ณ„์ด์ž ์—ฐ์‚ฐ ๋น„์šฉ์ด ๊ฐ€์žฅ ๋งŽ์ด ๋“œ๋Š” ๋‹จ๊ณ„

- ๋ฌด์ž‘์œ„๋กœ ์ดˆ๊ธฐํ™”๋œ LLM์œผ๋กœ๋ถ€ํ„ฐ ์–ธ์–ด ๋ชจ๋ธ๋ง objective์™€ ๋ฐฉ๋Œ€ํ•œ ํ…์ŠคํŠธ ์ฝ”ํผ์Šค๋ฅผ ์ด์šฉํ•ด ๋ชจ๋ธ์„ ํ•™์Šต์‹œ์ผœ์•ผ ํ•จ

- ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด ๋งŽ์€ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง„ ๋ชจ๋ธ์„ ์‚ฌ์ „ ํ•™์Šต ์‹œํ‚ค๋ฉด next token prediction์„ ์ˆ˜ํ–‰ํ•˜์—ฌ ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์„ ์–ป์„ ์ˆ˜ ์žˆ์Œ

- ์ตœ์ƒ์˜ ๊ฒฐ๊ณผ๋ฅผ ์–ป์œผ๋ ค๋ฉด ๋ฐ์ดํ„ฐ์™€ ๋ชจ๋ธ ํฌ๊ธฐ์—์„œ ํ™•์žฅ์ด ํ•„์š”ํ•จ

 

2) Alignment

- ์‚ฌ์ „ ํ•™์Šต๋งŒ ๊ฑฐ์นœ ๋ชจ๋ธ๋„ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ผ ์ˆ˜ ์žˆ์ง€๋งŒ ํ†ต๊ณ„์ ์œผ๋กœ ์ •ํ™•ํ•œ ๋‹ค์Œ ํ† ํฐ ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•˜๋ฉด ํ•ฉ๋ฆฌ์ ์ธ ํ…์ŠคํŠธ๊ฐ€ ์ƒ์„ฑ๋˜๋‚˜ ๋ฐ˜๋ณต์ ์ด๊ณ  ๋‹จ์ˆœํ•œ ๊ฒฐ๊ณผ๋ฌผ์ด ๋‚˜์˜ค๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Œ

- Alignment๋Š” ์‚ฌ์šฉ์ž์˜ ์„ ํ˜ธ์— ๋” ์ž˜ ๋ถ€ํ•ฉํ•˜๋„๋ก LLM์„ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๋Š” ๊ณผ์ •์œผ๋กœ SFT ๋ฐ RLHF๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ๊ธฐ์ˆ ์„ ํ†ตํ•ด ์ˆ˜ํ–‰๋จ

- ๋ชจ๋ธ์€ alignment ๊ณผ์ •์—์„œ ์ƒˆ๋กœ์šด ์ •๋ณด๋ฅผ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ๋ชจ๋ธ์ด ์‚ฌ์ „ ํ•™์Šต ๊ณผ์ •์—์„œ ์ด๋ฏธ ์–ป์€ ์ง€์‹์„ ์ ์ ˆํ•˜๊ฒŒ ํ˜•์‹ํ™”ํ•˜๊ฑฐ๋‚˜ ํ‘œํ˜„ํ•˜๋Š” ๋ฐฉ๋ฒ•๋งŒ ๊ฐ€๋ฅด์น˜๋Š” ์—ญํ• 

 

์ดˆ๊ธฐ Open-source LLM

1. GPT-NeoX-20B

- ์ดˆ๊ธฐ ์˜คํ”ˆ์†Œ์Šค LLM ์ค‘ ํ•˜๋‚˜๋กœ EleutherAI์—์„œ GPT-Neo ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐœ๋ฐœ

- ์ „ํ†ต์ ์ธ decoder-only ํŠธ๋žœ์Šคํฌ๋จธ ๊ตฌ์กฐ์— RoPE ์ž„๋ฒ ๋”ฉ๊ณผ ๋ณ‘๋ ฌ ์–ดํ…์…˜, ํ”ผ๋“œ ํฌ์›Œ๋“œ ๋ ˆ์ด์–ด ์ ์šฉ

 

 

- RoPE ์ž„๋ฒ ๋”ฉ์€ ๊ธฐ์กด ํฌ์ง€์…”๋„ ์ž„๋ฒ ๋”ฉ์„ ๊ฐœ์„ ํ•œ ๋ฐฉ์‹์œผ๋กœ, ์ ˆ๋Œ€์ ์ธ ์œ„์น˜ ์ •๋ณด์™€ ์ƒ๋Œ€์ ์ธ ์œ„์น˜ ์ •๋ณด ๊ฐ„ ๊ท ํ˜•์„ ์ฐพ์„ ์ˆ˜ ์žˆ๊ณ  ๊ธด ์‹œํ€€์Šค์—์„œ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ

- ๋ณ‘๋ ฌ ์–ดํ…์…˜ ๋ฐ ํ”ผ๋“œ ํฌ์›Œ๋“œ ๋ ˆ์ด์–ด๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์„ฑ๋Šฅ ์ €ํ•˜ ์ตœ์†Œํ™” ๊ฐ€๋Šฅ

 

 

2. BLOOM: An Open, Multilingual Language Model

- 1,760์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ๊ตฌ์„ฑ๋œ LLM์œผ๋กœ, ์ฒœ ๋ช… ์ด์ƒ์˜ ์—ฐ๊ตฌ์ž๊ฐ€ ์ฐธ์—ฌํ•œ ๋Œ€๊ทœ๋ชจ ์˜คํ”ˆ ํ˜‘์—…

- 1) ๋Œ€๊ทœ๋ชจ ๋‹ค๊ตญ์–ด ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์™€ 2) ์ด ๋ฐ์ดํ„ฐ ์„ธํŠธ์— ๋Œ€ํ•ด ํ•™์Šต๋œ ๋Œ€๊ทœ๋ชจ ๋‹ค๊ตญ์–ด ์–ธ์–ด ๋ชจ๋ธ์„ ๋งŒ๋“œ๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ์—ฐ๊ตฌ๊ฐ€ ์ง„ํ–‰๋จ

 

1) ๋ชจ๋ธ ๊ตฌ์กฐ

 

- ์ „ํ†ต์ ์ธ decoder-only ํŠธ๋žœ์Šคํฌ๋จธ ๊ตฌ์กฐ์— ALiBi ๋ฐ layer norm ์ž„๋ฒ ๋”ฉ ์ถ”๊ฐ€

 

3. ๊ธฐํƒ€ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ๋ชจ๋ธ

- GPT-J

- GLM