Artificial Intelligence/NLP

[NLP 기초] Vocab

geum 2022. 9. 2. 14:27

'Vocab 생성' 과정은 μžμ—°μ–΄μ²˜λ¦¬ νƒœμŠ€ν¬λ₯Ό μˆ˜ν–‰ν•  λ•Œ 빠지지 μ•Šκ³  λ“±μž₯ν•˜μ§€λ§Œ, μŠ΅κ΄€μ μœΌλ‘œ μ“Έ 뿐 생성 λͺ©μ μ΄ 뭔지 μ΄ν•΄ν•˜μ§€ λͺ»ν–ˆμ—ˆλ‹€.  트랜슀포머 λͺ¨λΈμ„ λ‹€λ€„λ³΄λ©΄μ„œ λ­”κ°€ μ•Œ 것 같기도 ν•œ λŠλ‚Œμ΄ λ“€μ–΄μ„œ μžμ—°μ–΄μ²˜λ¦¬ νƒœμŠ€ν¬μ— μžˆμ–΄μ„œ Vocab의 역할에 λŒ€ν•΄ λ‚΄κ°€ μ΄ν•΄ν•œ λ°”λ₯Ό 정리해보렀고 ν•œλ‹€.

 

⭐ 잘λͺ»λœ λ‚΄μš©μ΄ μžˆλ‹€λ©΄ νŽΈν•˜κ²Œ λŒ“κΈ€ λ‚¨κ²¨μ£Όμ„Έμš”!

 

 

생성 단계

β€» Vocab 생성 단계 μ΄ν›„μ˜ '데이터 생성'은 λͺ¨λΈ μž…λ ₯ 데이터 생성을 의미

 

토큰화-Vocab 생성 κ³Όμ •

토큰화

⭐ 토큰화에 λŒ€ν•œ λ‚΄μš©μ€ 였λ₯Έμͺ½ 링크λ₯Ό λˆ„λ₯΄λ©΄ 확인할 수 μžˆλ‹€. μ—¬κΈ°!

 

토큰화λ₯Ό ν•˜λŠ” μ΄μœ λŠ” λͺ¨λΈμ΄ 일반적인 ν‘œν˜„μ„ 배울 수 있게 ν•˜κΈ° μœ„ν•œ 게 μ•„λ‹κΉŒ? ν•˜λŠ” 것이 λ‚΄ 생각이닀. λ¬Έμž₯을 μž…λ ₯으둜 λ°›μ•„μ„œ 토큰화 κ³Όμ • 없이 λ¬Έμž₯ 전체λ₯Ό ν•™μŠ΅μ— μ‚¬μš©ν•˜λŠ” λͺ¨λΈμ΄ μžˆλ‹€λ©΄ λΉ„μŠ·ν•œ 의미λ₯Ό 가지고 μžˆλŠ” λ¬Έμž₯이라도 μ™„μ „νžˆ μƒˆλ‘œμš΄ λ°μ΄ν„°λ‘œ μΈμ‹ν•˜κ³  ν•™μŠ΅ν•΄μ•Ό ν•  것이닀. μž‘μ€ λ‹¨μœ„λ‘œ λ¬Έμž₯을 λ‚˜λˆ μ„œ 토큰 ν•˜λ‚˜ν•˜λ‚˜λ₯Ό ν•™μŠ΅ν•˜λŠ” λŠλ‚Œμ΄λΌκ³  μ΄ν•΄ν–ˆλ‹€.

 

Vocab 생성   

λ¬Έμžμ— λŒ€ν•΄ μ •μˆ˜ν˜• 값을 λΆ€μ—¬ν•˜λŠ” 과정이닀. 값을 λΆ€μ—¬ν•˜λŠ” 방식이 정해진 건 μ—†λŠ” 것 κ°™λ‹€. 토큰 λΉˆλ„μˆ˜λ‘œ 값을  μ •ν•˜λŠ”('ν•˜λŠ˜'μ΄λΌλŠ” 단어가 5번 λ‚˜μ™”λ‹€λ©΄ vocab λ‚΄μ—μ„œ 'ν•˜λŠ˜': 5 이런 방식) 경우λ₯Ό 많이 λ΄€λ‹€.

 

μ—­ν• 

λ‚  κ°€μž₯ ν—·κ°ˆλ¦¬κ²Œ ν–ˆλ˜ 것 😡 λŒ€ν•™μ›μƒμ΄λ‚˜ λΌμ„œ μ°½ν”ΌμŠ€λŸ½μ§€λ§Œ κ½€ μ΅œκ·ΌκΉŒμ§€λ„ 'Vocab을 κ·Έλž˜μ„œ μ™œ μ“°λŠ”κ±°μ•Ό?'λΌλŠ” 생각을 많이 ν–ˆλ‹€. νŠΉμ • λͺ¨λΈ 가지고 μžμ—°μ–΄μ²˜λ¦¬ κ΄€λ ¨ μ‹€μŠ΅μ„ ν•˜λ©΄ 단계λ₯Ό μ΄ν•΄ν•˜λ©΄μ„œ μ§„ν–‰ν•˜λŠ” 게 μ•„λ‹ˆλΌ κΈ°κ³„μ μœΌλ‘œ "μ „μ²˜λ¦¬ν–ˆμœΌλ‹ˆκΉŒ 토큰화해야지", "ν† ν°ν™”ν–ˆμœΌλ‹ˆκΉŒ Vocab λ§Œλ“€μ–΄μ•Όμ§€" μ΄λž¬μ–΄μ„œ 이해λ₯Ό λͺ» ν–ˆλ˜ 것 κ°™λ‹€. λ¬Όλ‘  μ§€κΈˆ 정리해둔 이 글에도 ν‹€λ¦° λ‚΄μš©μ΄ μžˆμ„ 수 μžˆλ‹€!

 

μžμ—°μ–΄μ²˜λ¦¬ κ³Όμ •μ—μ„œ μž…λ ₯ λ°μ΄ν„°λŠ” 문자 ν˜•νƒœλ‹€. 문자둜 된 데이터λ₯Ό λͺ¨λΈμ— λ„˜κ²¨μ£Όκ³ , λͺ¨λΈλ‘œλΆ€ν„° μ›ν•˜λŠ” κ²°κ³Όλ₯Ό 좜λ ₯ν•˜κΈ° μœ„ν•΄μ„œλŠ” λͺ¨λΈ λ‚΄λΆ€ 연산을 거쳐야 ν•˜λŠ”λ° λ¬Έμžμ—΄ ν˜•νƒœλ‘œ 연산을 ν•  μˆ˜λŠ” μ—†λ‹€. λͺ¨λΈμ΄ 문자 데이터λ₯Ό 잘 μ²˜λ¦¬ν•  수 μžˆλ„λ‘ 벑터 ν˜•νƒœλ‘œ λ°”κΏ”μ£ΌκΈ° μœ„ν•΄ Vocab을 μ‚¬μš©ν•˜λŠ” 것이닀.  λͺ¨λΈμ΄ ν† ν°ν™”ν•œ 값듀을 μ•ˆ 까먹으렀고 적어놓은 λ©”λͺ¨μž₯ λŠλ‚Œ? 이미 Vocab에 μžˆλŠ” 토큰이 λ“€μ–΄μ˜€λ©΄ μ–΄ 이거 Vocab에 μ μ–΄λ†¨λŠ”λ° 이런 흐름이라고 μƒκ°ν•œλ‹€.

 

β€» '벑터 ν‘œν˜„'μ΄λΌλŠ” 말은 λ¬Έμž₯을 이루고 μžˆλŠ” 각 토큰듀이 수치 ν˜•νƒœλ‘œ λ°”λ€Œμ—ˆλ‹€λŠ” 의미λ₯Ό μ „λ‹¬ν•˜κ³ μž μ‚¬μš©