๊ตฌ์กฐ
๊ฐ๋
์ ์ ์ธ ํ๊ฒฝ์์ ํ์ต์ ์งํํ๋ ์ง๋/๋น์ง๋ํ์ต๊ณผ ๋ฌ๋ฆฌ, ์ด๋ค ํ๊ฒฝ ์์์ ์ ์๋ ์ฃผ์ฒด(agent)๊ฐ ํ์ฌ์ ์ํ(state)๋ฅผ ๊ด์ฐฐํ์ฌ ์ ํํ ์ ์๋ ํ๋(action)๋ค ์ค์์ ๊ฐ์ฅ ์ต๋์ ๋ณด์(reward)์ ๊ฐ์ ธ๋ค์ฃผ๋์ง ํ๋์ ํ์ตํ๋ ๊ฒ
18.1 ๋ณด์์ ์ต์ ํํ๊ธฐ ์ํ ํ์ต
์์ด์ ํธ๋ ๋ณด์์ ์ฅ๊ธฐ๊ฐ ๊ธฐ๋์น๋ฅผ ์ต๋๋ก ๋ง๋๋ ํ๋์ ํ์ตํ๋ ๊ฒ์ ๋ชฉ์ ์ผ๋ก ํจ
18.2 ์ ์ฑ ํ์
1) ์ ์ฑ ์ ๊ฐ๋
โฝ ์์ด์ ํธ๊ฐ ํ๋์ ๊ฒฐ์ ํ๊ธฐ ์ํด ์ฌ์ฉํ๋ ์๊ณ ๋ฆฌ์ฆ
2) ํ๋ฅ ์ ์ ์ฑ
โฝ ์ด๋ค ์ํ์ ๋ํ ํ๋๋ค์ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ฐํ
3) ์ ์ ์๊ณ ๋ฆฌ์ฆ
โฝ ์ ์์์กด ์ด๋ก ์ ๊ธฐ๋ฐ์ผ๋ก ํ ์ต์ ํ ๊ธฐ๋ฒ
โฝ ๋ถ๋ชจ์ ์์ ๊ฐ๋ → ์ฑ๋ฅ์ด ๋ฎ์ ์ ์ฑ ์ ๋ฒ๋ฆฌ๊ณ ์ด์ ์๋ ์ ์ฑ ์์ ์์ ์ ์ฑ ์ ์์ฐํ๊ฒ ํจ
โฝ ์ข์ ์ ์ฑ ์ ์ฐพ์ ๋๊น์ง ์ฌ๋ฌ ์ธ๋์ ๊ฑธ์ณ ๋ฐ๋ณต
4) ์ ์ฑ ๊ทธ๋๋์ธํธ(Policy Gradient, PG)
โฝ ์ ์ฑ ํ๋ผ๋ฏธํฐ์ ๋ํ ๋ณด์์ ๊ทธ๋๋์ธํธ๋ฅผ ํ๊ฐํ ํ ๋์ ๋ณด์์ ๋ฐฉํฅ์ ๋ฐ๋ฅด๋ ๊ทธ๋๋์ธํธ๋ก ํ๋ผ๋ฏธํฐ๋ฅผ ์์ ํ๋ ์ต์ ํ ๊ธฐ๋ฒ
18.4 ์ ๊ฒฝ๋ง ์ ์ฑ
๊ด์ธก์ ์ ๋ ฅ์ผ๋ก ๋ฐ๊ณ ์คํํ ํ๋์ ๋ํ ํ๋ฅ ์ ์ถ์ ํ์ฌ ์ถ๋ ฅํ๋ ์ ๊ฒฝ๋ง
cf. ์จ๊ฒจ์ง ์ํ๊ฐ ์์ ๊ฒฝ์ฐ๋ ๊ณผ๊ฑฐ์ ํ๋๊ณผ ๊ด์ธก์ ๊ณ ๋ คํด์ผ ํ์ง๋ง ์์ ํ ์ํ๋ผ๋ฉด ๊ณผ๊ฑฐ์ ๋ํ ์ ๋ณด๋ ๋ฌด์ํด๋ ๋จ
18.5 ํ๋ ํ๊ฐ: ์ ์ฉ ํ ๋น ๋ฌธ์
1) ๊ฐ๋
โฝ ์์ด์ ํธ๊ฐ ๋ณด์์ ๋ฐ์์ ๋ ์ด๋ค ํ๋ ๋๋ฌธ์ ๋ฐ์ ๊ฑด์ง ์ ์ ์์
2) ํด๊ฒฐ ๋ฐฉ๋ฒ
โฝ ํ๋์ด ์ผ์ด๋ ํ ๊ฐ ๋จ๊ณ๋ง๋ค ํ ์ธ ๊ณ์ γ๋ฅผ ์ ์ฉํ ๋ณด์์ ๋ชจ๋ ํฉํ ๊ฒฐ๊ณผ๋ก ํ๋ ํ๊ฐ
โฝ ํ ์ธ๋ ๋ณด์์ ํฉ = ํ๋์ ๋๊ฐ
cf. ํ ์ธ ๊ณ์๊ฐ 0์ ๊ฐ๊น์ฐ๋ฉด ๋ฏธ๋์ ๋ณด์์ด ํ์ฌ์ ๋ณด์๋งํผ ์ค์ํ๊ฒ ์ทจ๊ธ๋์ง ์์ง๋ง 1์ ๊ฐ๊น์ฐ๋ฉด ๋จผ ๋ฏธ๋์ ๋ณด์์ด ํ์ฌ์ ๋ณด์๋งํผ ์ค์ํ๊ฒ ๊ณ ๋ ค๋จ
18.6 ์ ์ฑ ๊ทธ๋๋์ธํธ - REINFORCE ์๊ณ ๋ฆฌ์ฆ
โ ์ ๊ฒฝ๋ง ์ ์ฑ ์ด ์ฌ๋ฌ ๋ฒ์ ๊ฑธ์ณ ๊ฒ์์ ํ๋ ์ดํ๊ณ ๊ฐ ๋จ๊ณ๋ง๋ค ์ ํ๋ ํ๋์ด ๋ ๋์ ๊ฐ๋ฅ์ฑ์ ๊ฐ๊ฒ ํ๋ ๊ทธ๋๋์ธํธ ๊ณ์ฐ
โก ์ํผ์๋๋ฅผ ๋ช ๋ฒ ์คํํ ํ ๊ฐ ํ๋์ ์ด์ต ๊ณ์ฐ
โข ํ๋์ ์ด์ต์ด ์์์ธ ๊ฒฝ์ฐ ์ข์ ํ๋์์ ์๋ฏธํ๊ธฐ ๋๋ฌธ์ ๋ฏธ๋์ ์ ํ๋ ๊ฐ๋ฅ์ฑ์ด ๋๋๋ก ์์ ๊ณ์ฐํ ๊ทธ๋๋์ธํธ ์ ์ฉ
โฃ ๋ชจ๋ ๊ฒฐ๊ณผ ๊ทธ๋๋์ธํธ ๋ฒกํฐ๋ฅผ ํ๊ท ๋ด์ด ๊ฒฝ์ฌ ํ๊ฐ๋ฒ ๋จ๊ณ ์ํ
18.7 ๋ง๋ฅด์ฝํ ๊ฒฐ์ ๊ณผ์
1) ๋ง๋ฅด์ฝํ ์ฐ์
โฝ ์ ํด์ง ๊ฐ์์ ์ํ๋ฅผ ๊ฐ์ง๊ณ ์์
โฝ ๊ฐ ๋จ๊ณ๋ง๋ค ์์คํ ์ ์ํ๋ฅผ ์ ์งํ๊ฑฐ๋ ์์คํ ์ ์ํ๊ฐ ๋ฐ๋๊ฒ ๋๋๋ฐ ์ํ์ ๋ณํ๋ฅผ ์ ์ด๋ผ๊ณ ํจ
โฝ ์ข ๋ฃ ์ํ : ๋ค๋ฅธ ์ํ๋ก์ ์ ์ด๊ฐ ๋ ์ด์ ์ผ์ด๋์ง ์์ ๋
2) ๋ง๋ฅด์ฝํ ์ฑ์ง
โฝ n+1ํ์ ์ํ๋ ์ค์ง nํ ๋๋ ์ด์ ์ ์ผ์ ๊ธฐ๊ฐ ์ํ์๋ง ์ํฅ์ ๋ฐ๋ ๊ฒ
ex) ๋์ ๋์ง๊ธฐ : ๋ ๋ฆฝ ์ํ์ด๊ธฐ ๋๋ฌธ์ ๋ง๋ฅด์ฝํ ์ฑ์ง์ ๊ฐ์ง ์์
3) ๋ฒจ๋จผ ์ต์ ๋ฐฉ์ ์
โฝ T(s, a, s') : ์์ด์ ํธ๊ฐ ํ๋ a๋ฅผ ์ ํํ์ ๋ ์ํ s์์ ์ํ s'๋ก ์ ์ด๋ ํ๋ฅ
โฝ R(s, a, s') : ์์ด์ ํธ๊ฐ ํ๋ a๋ฅผ ์ ํํด์ ์ํ s์์ ์ํ s'๋ก ์ ์ดํ์ ๋ ๋ฐ์ ์ ์๋ ๋ณด์
โฝ γ : ํ ์ธ ๊ณ์
∴ ์๊ณ ๋ฆฌ์ฆ์ด ๊ฐ๋ฅํ ๋ชจ๋ ์ํ์ ๋ํ ์ต์ ์ ์ํ ๊ฐ์น๋ฅผ ์ ํํ ์ถ์ ํ ์ ์๋๋ก ๋์์ฃผ๋ ๋ฐฉ์ ์
4) ๊ฐ์น ๋ฐ๋ณต ์๊ณ ๋ฆฌ์ฆ
18.8 ์๊ฐ์ฐจ ํ์ต
โฝ ๋ ๋ฆฝ์ ์ธ ํ๋์ผ๋ก ์ด๋ฃจ์ด์ง ๊ฐํ ํ์ต ๋ฌธ์ ๋ ๋ณดํต ๋ง๋ฅด์ฝํ ๊ฒฐ์ ๊ณผ์ ์ผ๋ก ๋ชจ๋ธ๋ง๋ ์ ์์ง๋ง ์ด๊ธฐ ์์ด์ ํธ๋ ์ ์ด ํ๋ฅ ๊ณผ ๋ณด์์ด ์ผ๋ง๋ ๋๋์ง๋ฅผ ์์ง ๋ชปํจ
โฝ ๋ณด์์ ๋ํด ์๊ธฐ ์ํด์๋ ์ ์ด๋ ํ ๋ฒ์ ๊ฐ ์ํ์ ์ ์ด๋ฅผ ๊ฒฝํํด์ผ ํจ
โฝ ์ ์ด ํ๋ฅ ์ ๋ํด ์ ๋ขฐํ ๋งํ ์ถ์ ์ ์ป์ผ๋ ค๋ฉด ์ฌ๋ฌ ๋ฒ์ ๊ฒฝํ ํ์
18.9 Q-๋ฌ๋
โฝ ์ ์ด ํ๋ฅ ๊ณผ ๋ณด์์ ๋ชจ๋ฅด๋ ์ด๊ธฐ ์ํฉ์์ Q-๊ฐ์น ๋ฐ๋ณต ์๊ณ ๋ฆฌ์ฆ ์ ์ฉ
โฝ ์์ด์ ํธ์ ํ๋ ์ด๋ฅผ ๋ณด๊ณ ์ ์ง์ ์ผ๋ก Q-๊ฐ์น ์ถ์ ์ ํฅ์ํ๋ ๋ฐฉ์์ผ๋ก ์๋
'Artificial Intelligence > Studying' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
์ ๋์ ๊ณต๊ฒฉ ๊ฐ๋ ๋ฐ ์ ํ (0) | 2022.01.04 |
---|---|
[Hands-on] Ch15 RNN๊ณผ CNN์ ์ฌ์ฉํด ์ํ์ค ์ฒ๋ฆฌํ๊ธฐ (0) | 2021.08.18 |
[Hands-on] Ch17-9 (2) GAN ๋ชจ๋ธ (0) | 2021.08.02 |
[Hands-on] Ch17-9 (1) ์์ฑ์ ์ ๋ ์ ๊ฒฝ๋ง (0) | 2021.07.16 |
Convolutional Neural Network (0) | 2021.01.19 |