์ฐ๊ตฌ์ค ์ค๋น ๊ฐ ๊ณต์ ํด์ค ์คํ์์ค LLM ๋ฐ์ ๊ณผ์ ์ ๋ํ ๊ธ์ ์ฝ๊ณ ๋ฒ์ญ ๋ฐ ์ถ๊ฐ ๊ณต๋ถํ ๋ด์ฉ์ ์ ๋ฆฌํด๋ณธ๋ค.
The History of Open-Source LLMs: Part โ . Early days
The History of Open-Source LLMs: Part โ ก. Better Base Models
The History of Open-Source LLMs: Part โ ข. Imitations and alignment
โญ ๊ธ์ ์ฝ์ ๋ ๋ชจ๋ ์ด๋ฏธ์ง์ ์ถ์ฒ๋ ์๋ฌธ์ ๋๋ค.
LLM ๋ฑ์ฅ ๋ฐฐ๊ฒฝ
- ์ธ์ด ๋ชจ๋ธ ์์ฒด๋ ์ญ์ฌ๊ฐ ์ค๋ ๋์ง๋ง self-supervised pre-training๊ณผ in-context learning์ ์กฐํฉํ์ฌ ์ฌ๋ฌ ํ์คํฌ์์ ์ธ์ ๊น์ few-shot learning ์ฑ๋ฅ์ ๋ณด์ธ GPT-3์ ๋ฑ์ฅ์ผ๋ก LLM ๋์คํ
- ์ดํ ์๋ง์ LLM์ด ์ ์๋๊ณ ์ธ์ด ๋ชจ๋ธ alignment์ ๊ฐ์ ์ฐ๊ตฌ๊ฐ ์งํ๋๋ฉด์ InstructGPT, ChatGPT ๊ฐ์ ์ธ์์ ์ธ ๋ชจ๋ธ์ด ๊ฐ๋ฐ๋จ
Open-source LLMs
- ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ ์ด๊ธฐ LLM๋ค์ ๊ธฐ์ ์ด ๊ณต๊ฐ๋์ง ์์ closed source ํํ์์ผ๋ LLM ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ์์ ์ธ๊ธฐ ์๋ ์ธ์ด ๋ชจ๋ธ์ ์คํ ์์ค ๋ณํ์ ๋ง๋ฆ
- ์ต์ด์ ์คํ ์์ค ์ธ์ด ๋ชจ๋ธ์ ์ต๊ณ ์ ๋ ์ ๋ชจ๋ธ(๊ณต๊ฐ๋์ง ์์ ๋ชจ๋ธ)๋ณด๋ค ์ฑ๋ฅ์ด ๋ค์ณ์ง๊ธด ํ์ง๋ง LLM ์ฐ๊ตฌ ๋ด ํฌ๋ช ์ฑ ํฅ์์ ์ํ ํ ๋๋ฅผ ๋ง๋ จ
- ๋ํ, Falcon, LLaMA์ ๊ฐ์ด ๋ ๊ฐ๋ ฅํ ํ์ ๋ชจ๋ธ์ ๊ฐ๋ฐ์ ์ด์งํ๋ ๊ณ๊ธฐ๊ฐ ๋จ
์ธ์ด ๋ชจ๋ธ ๋ฉ์ปค๋์ฆ
- ์ธ์ด ๋ชจ๋ธ์ ํต์ฌ์ next token prediction์ผ๋ก ๊ฑฐ์ ๋ชจ๋ ์ธ์ด ๋ชจ๋ธ ํ์ต์ ์ฌ์ฉ๋จ
- Next token prediction์ ์ธ์ด ๋ชจ๋ธ ๋ชฉ์ ํจ์์ ํ์ค์ด๋ผ๊ณ ํ ์ ์์
- Next token prediction์ผ๋ก ์ธ์ด ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ํด ๋๋์ ํ ์คํธ ์ฝํผ์ค ํ์
- ๋ฐ์ดํฐ์ ์ผ๋ก ๋ถํฐ ํ ์คํธ๋ฅผ ์ถ์ถํ ํ ๋ชจ๋ธ์ด ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๋๋ก ํ์ต ์งํ
- ๋ค์ ํ ํฐ์ ํญ์ ์์ ํ ์คํธ๋ก๋ถํฐ ์ถ๋ก ๋ ์ ์๊ธฐ ๋๋ฌธ์ next token prediction์ ์ผ์ข ์ self-supervised learning
1. ์ธ์ด ๋ชจ๋ธ objective
1) ํ ํฐ
- 'ํ ํฐ'๊ณผ '๋จ์ด'๋ ๊ฐ์ ๋ณด์ด์ง๋ง ์ ํํ ๊ฐ์ ๊ฒ์ ์๋
- ์ธ์ด ๋ชจ๋ธ์ด ํ ์คํธ๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ผ๋ฉด ์์ ํ ์คํธ๊ฐ ํ ํฐํ๋จ
2) ๋ค์ ํ ํฐ ์์ธก
- ์ธ์ด ๋ชจ๋ธ์ ํ ํฐํ๋ ์ดํ ๋ด ๋ชจ๋ ํ ํฐ์ ๋ํด ๊ณ ์ ํ๊ณ ํ์ต ๊ฐ๋ฅํ ๋ฒกํฐ ์๋ฒ ๋ฉ์ ์ ์ฅํ๋ ์๋ฒ ๋ฉ ๋ ์ด์ด๋ฅผ ๊ฐ์ง
- ํ ํฐํ ๊ณผ์ ์ ๊ฑฐ์ณ ํ ํฐ ์ํ์ค๊ฐ ์์ฑ๋๋ฉด ์ธ์ด ๋ชจ๋ธ์ ์๋ฒ ๋ฉ ๋ ์ด์ด๋ฅผ ์ด์ฉํด ์ ๋ ฅ ์ํ์ค ๋ด ๊ฐ ํ ํฐ์ ๋ฒกํฐ ์๋ฒ ๋ฉ์ผ๋ก ๋ณํํ์ฌ ํ ํฐ ๋ฒกํฐ ์ํ์ค ํ์ฑ
- ๊ฐ ํ ํฐ ๋ฒกํฐ์ ํฌ์ง์ ๋ ์ธ์ฝ๋ฉ์ ์ถ๊ฐํ ํ ํ ํฐ ๋ฒกํฐ ์ํ์ค๋ฅผ decoder-only ํธ๋์คํฌ๋จธ๋ก ์ ๋ฌํ๋ฉด ๊ฐ ํ ํฐ์ ํด๋นํ๋ ์ถ๋ ฅ ๋ฒกํฐ๊ฐ ์์ฑ๋จ
- ์ถ๋ ฅ ๋ฒกํฐ์ ์๋ ์ ๋ ฅ ๋ฒกํฐ์ ์์ ๋์ผ
- ์ํ์ค ๋ด ๊ฐ ํ ํฐ์ ๋ํ ์ถ๋ ฅ ํ ํฐ ๋ฒกํฐ๋ฅผ ๊ฐ์ ธ์์ ์ํ์ค ๋ด์์ ๋ค์์ ์ฌ ํ ํฐ ์์ธก
- ์๋ฐฉํฅ self-attenttion์ ์ฌ์ฉํ๋ฉด ๊ฐ๊ฐ์ ์ถ๋ ฅ ํ ํฐ ๋ฒกํฐ๋ ๋ฒกํฐ์ ์ ์ฒด ์ํ์ค๋ฅผ ๋ณด๊ณ ๊ณ์ฐ๋๊ธฐ ๋๋ฌธ์ ๋ชจ๋ธ์ ์ํ์ค์์ ๋ค์์ ์ค๋ ํ ํฐ์ ํ์ธํ์ฌ ๊ฒฐ๊ณผ๋ฅผ ๋ผ ์ ์์ → ๋ต์ ๋ฏธ๋ฆฌ ๋ด์ ์๊ฒ ๋๋ค๋ ์๋ฏธ
- Causal (๋๋ masked) self-attention์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ๊ฐ ์ถ๋ ฅ ํ ํฐ ๋ฒกํฐ๋ ์ฐ์ฐ ์์ ํ์ฌ ํ ํฐ๊ณผ ์ด์ ํ ํฐ๊น์ง๋ง ๊ณ ๋ คํจ
2. ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ์ ๋ณํ ๊ตฌ์กฐ
- ๋ชจ๋ ์ธ์ด ๋ชจ๋ธ์ Seq2Seq ๋ฌธ์ ๋ฅผ ํ๊ธฐ ์ํด ์ ์๋ ํธ๋์คํฌ๋จธ ๊ตฌ์กฐ๋ฅผ ์ฝ๊ฐ์ฉ ๋ณํํ์ฌ ์ฌ์ฉ
- ํธ๋์คํฌ๋จธ๋ ์ธ์ฝ๋์ ๋์ฝ๋๋ก ์ด๋ฃจ์ด์ ธ ์์
- ์ธ์ฝ๋์ ๋์ฝ๋๊ฐ ๋ชจ๋ ์กด์ฌํ ๊ฒฝ์ฐ 1) ์ธ์ฝ๋๊ฐ ์ ๋ ฅ ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ํ ์ถ๋ ฅ ์ํ์ค๋ฅผ ์์ฑํ๊ณ 2) ๋์ฝ๋๋ ์ธ์ฝ๋์ ์ถ๋ ฅ ์ํ์ค๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ์์ฒด ์ถ๋ ฅ ์ํ์ค ์์ฑ
- ์ธ์ฝ๋๋ ์ ์ฒด ์ ๋ ฅ ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ์ฌ ๋์ฝ๋๊ฐ ์ถ๋ ฅ์ ์์ฑํ ๋ ์ปจํ ์คํธ๋ก ์ฌ์ฉํ ์ ์๋ ํํ์ ๋ง๋๋ ์ญํ
1) Decoder-only / Encoder-only ํธ๋์คํฌ๋จธ
- ๊ฑฐ์ ๋ชจ๋ causal language model์ decoder-only ํธ๋์คํฌ๋จธ๋ฅผ ๊ธฐ๋ณธ ๊ตฌ์กฐ๋ก ์ฌ์ฉ
- Encoder-only ํธ๋์คํฌ๋จธ๋ discriminative natural language tasks์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง ํ ์คํธ ์์ฑ์๋ ์ฌ์ฉ๋์ง ์์
2) ๋์ฝ๋๋ง ์ฌ์ฉํ๋ ์ด์
- LLM์ ๋์ฝ๋ ๊ตฌ์กฐ๋ง ์ฌ์ฉํ๋ ๊ฒ์ ์์๋ก ์ ํํ ๊ตฌ์กฐ๊ฐ ์๋
- ์ธ์ด ๋ชจ๋ธ ํ์ต์ ์ํด next token prediction+masked self-attention์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ๋์ฝ๋ ๋ด์์ ๋ชจ๋ธ์ด ๋ค์ ํ ํฐ์ ์์ธกํ ๋ ๋ต์ ๋ฏธ๋ฆฌ ๋ณผ ์ ์์
- Cheating ์์ด next token prediction์ ์ํํ๊ธฐ ์ํด์๋ encoder-only ํธ๋์คํฌ๋จธ์ encoder-decoder ํธ๋์คํฌ๋จธ ๋ชจ๋ ์ ๋ ฅ ์ํ์ค์ ๋ค์ ํ ํฐ์ ๊ธฐ์ค ๊ฐ์ ํฌํจํ์ง ์์์ผ ํจ
- ์ด๋ฅผ ์ํด์ 1) prefix๋ฅผ ์์งํ๊ณ 2) prefix ๋ค์ ์ค๋ ํ ํฐ์ ์์ธกํ๋๋ก ํ ์ ์์ง๋ง ์ด ๋ฐฉ์์ ํ ๋ฒ์ ํ๋์ ํ ํฐ๋ง ์์ธกํ ์ ์๊ธฐ ๋๋ฌธ์ ๋นํจ์จ์
- Decoder-only ๋ชจ๋ธ์ masked self-attention์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ํ ํฐ์ ์ ์ฒด ์ํ์ค๋ฅผ ์์งํ๊ณ ์ํ์ค ๋ด ๋ชจ๋ ํ ํฐ์ ์ธ์ด ๋ชจ๋ธ์ objective๋ฅผ ์ ์ฉํ ์ ์์
3) ํ ์คํธ๋ฅผ ์์ฑํ๋ ๋ฐฉ๋ฒ
- ์์์ ์ค๋ช ํ decoder-only ๊ตฌ์กฐ๋ฅผ ๊ณ ๋ คํ๋ฉด ํ ์คํธ ์์ฑ์ ๊ฐ๋จํ autoregressive ๊ณผ์ ์ ๋ฐ๋ฆ
3. ์ธ์ด ๋ชจ๋ธ ํ์ต๊ณผ ์ฌ์ฉ
1) Pre-training
- ์ฌ์ ํ์ต ๊ณผ์ ์ LLM์ ๊ฐ๋ฐํ๋ ์ด๊ธฐ ๋จ๊ณ์ด์ ์ฐ์ฐ ๋น์ฉ์ด ๊ฐ์ฅ ๋ง์ด ๋๋ ๋จ๊ณ
- ๋ฌด์์๋ก ์ด๊ธฐํ๋ LLM์ผ๋ก๋ถํฐ ์ธ์ด ๋ชจ๋ธ๋ง objective์ ๋ฐฉ๋ํ ํ ์คํธ ์ฝํผ์ค๋ฅผ ์ด์ฉํด ๋ชจ๋ธ์ ํ์ต์์ผ์ผ ํจ
- ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ๋ํด ๋ง์ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง ๋ชจ๋ธ์ ์ฌ์ ํ์ต ์ํค๋ฉด next token prediction์ ์ํํ์ฌ ๋ค์ํ ํ์คํฌ๋ฅผ ์ ํํ๊ฒ ํด๊ฒฐํ ์ ์๋ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ป์ ์ ์์
- ์ต์์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ผ๋ ค๋ฉด ๋ฐ์ดํฐ์ ๋ชจ๋ธ ํฌ๊ธฐ์์ ํ์ฅ์ด ํ์ํจ
2) Alignment
- ์ฌ์ ํ์ต๋ง ๊ฑฐ์น ๋ชจ๋ธ๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ผ ์ ์์ง๋ง ํต๊ณ์ ์ผ๋ก ์ ํํ ๋ค์ ํ ํฐ ์์ธก์ ์ํํ๋ฉด ํฉ๋ฆฌ์ ์ธ ํ ์คํธ๊ฐ ์์ฑ๋๋ ๋ฐ๋ณต์ ์ด๊ณ ๋จ์ํ ๊ฒฐ๊ณผ๋ฌผ์ด ๋์ค๋ ๊ฒฝ์ฐ๊ฐ ๋ง์
- Alignment๋ ์ฌ์ฉ์์ ์ ํธ์ ๋ ์ ๋ถํฉํ๋๋ก LLM์ ๋ฏธ์ธ ์กฐ์ ํ๋ ๊ณผ์ ์ผ๋ก SFT ๋ฐ RLHF๋ผ๋ ๋ ๊ฐ์ง ๊ธฐ์ ์ ํตํด ์ํ๋จ
- ๋ชจ๋ธ์ alignment ๊ณผ์ ์์ ์๋ก์ด ์ ๋ณด๋ฅผ ํ์ตํ๋ ๊ฒ์ด ์๋๋ผ ๋ชจ๋ธ์ด ์ฌ์ ํ์ต ๊ณผ์ ์์ ์ด๋ฏธ ์ป์ ์ง์์ ์ ์ ํ๊ฒ ํ์ํํ๊ฑฐ๋ ํํํ๋ ๋ฐฉ๋ฒ๋ง ๊ฐ๋ฅด์น๋ ์ญํ
์ด๊ธฐ Open-source LLM
1. GPT-NeoX-20B
- ์ด๊ธฐ ์คํ์์ค LLM ์ค ํ๋๋ก EleutherAI์์ GPT-Neo ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ๋ฐ
- ์ ํต์ ์ธ decoder-only ํธ๋์คํฌ๋จธ ๊ตฌ์กฐ์ RoPE ์๋ฒ ๋ฉ๊ณผ ๋ณ๋ ฌ ์ดํ ์ , ํผ๋ ํฌ์๋ ๋ ์ด์ด ์ ์ฉ
- RoPE ์๋ฒ ๋ฉ์ ๊ธฐ์กด ํฌ์ง์ ๋ ์๋ฒ ๋ฉ์ ๊ฐ์ ํ ๋ฐฉ์์ผ๋ก, ์ ๋์ ์ธ ์์น ์ ๋ณด์ ์๋์ ์ธ ์์น ์ ๋ณด ๊ฐ ๊ท ํ์ ์ฐพ์ ์ ์๊ณ ๊ธด ์ํ์ค์์์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์
- ๋ณ๋ ฌ ์ดํ ์ ๋ฐ ํผ๋ ํฌ์๋ ๋ ์ด์ด๋ฅผ ์ฌ์ฉํ๋ฉด ์ฑ๋ฅ ์ ํ ์ต์ํ ๊ฐ๋ฅ
2. BLOOM: An Open, Multilingual Language Model
- 1,760์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ก ๊ตฌ์ฑ๋ LLM์ผ๋ก, ์ฒ ๋ช ์ด์์ ์ฐ๊ตฌ์๊ฐ ์ฐธ์ฌํ ๋๊ท๋ชจ ์คํ ํ์
- 1) ๋๊ท๋ชจ ๋ค๊ตญ์ด ํ ์คํธ ๋ฐ์ดํฐ์ 2) ์ด ๋ฐ์ดํฐ ์ธํธ์ ๋ํด ํ์ต๋ ๋๊ท๋ชจ ๋ค๊ตญ์ด ์ธ์ด ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ์ ๋ชฉํ๋ก ์ฐ๊ตฌ๊ฐ ์งํ๋จ
1) ๋ชจ๋ธ ๊ตฌ์กฐ
- ์ ํต์ ์ธ decoder-only ํธ๋์คํฌ๋จธ ๊ตฌ์กฐ์ ALiBi ๋ฐ layer norm ์๋ฒ ๋ฉ ์ถ๊ฐ
3. ๊ธฐํ ์ฃผ๋ชฉํ ๋งํ ๋ชจ๋ธ
- GPT-J
- GLM
'Archive' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[๋ฒ์ญ] The History of Open-Source LLMs: Part โ ก. Better Base Models (0) | 2023.10.25 |
---|---|
[๋ฒ์ญ] Micro, Macro & Weighted Averages of F1 Score, Clearly Explained (1) | 2022.12.20 |
[๋ฒ์ญ] Foundations of NLP Explained Visually: Beam Search, How It Works (0) | 2022.08.01 |
[๋ฒ์ญ] Word2Vec Research Paper Explained (0) | 2022.07.04 |
[๋ฒ์ญ] Introduction to Stemming and Lemmatization (0) | 2022.04.01 |