๊ฐ๋
ํ ์คํธ์ ๋ํด ํน์ ๊ธฐ์ค ๋จ์๋ก ๋ฌธ์ฅ์ ๋๋๋ ๊ณผ์ ์ผ๋ก ํ ํฐํ, ํ ํฌ๋์ด์ง ๋ฑ ๋ถ๋ฆฌ๋ ์ด๋ฆ์ด ๋ค์ํ๋ค. ํ ํฐ์ ๋ฌธ์ฅ์ด ๋ ์๋ ์๊ณ ๋จ์ด๊ฐ ๋ ์๋ ์์ผ๋ฉฐ ๋ณดํต์ ์ ์๋ฏธํ ๋จ์๊ฐ ํ ํฐ์ผ๋ก ์ ์๋๋ค.
์์
โฝ ๋ฌธ๋จ
์ด์ ๋ชจ๋ฅผ ๊ฐ์ ์ ํ์, ๊ทธ๋ ๋๋ด ๋ง์นจํ๋ฅผ ์ฑ์ ๋ฃ์๋ค.
๊ทธ๋ฆฌ๊ณ ๊ทธ๋ ํ๋ก์ด ๋ชป๋ค ํ ์ด์ผ๊ธฐ๋ค์ ๋น์ด๋ค. ํ์ง๋ง ๊ทธ์ ์ด์ผ๊ธฐ์ ์ฃผ์ธ๊ณต์ ์ฌ์ ํ ๊ทธ๋
์ด๋ค.
๋๋ ์ด๊ฑธ ๋ญ๋ง์ด๋ผ๊ณ ๋ถ๋ฅด๊ธฐ๋ก ํ์๋ค.
๋น ๋ํฐ-๋ญ๋ง์ด๋ผ๊ณ ๋ถ๋ฅด๊ธฐ๋ก ํ์๋ค(Narr. ๊น๊ธฐํ)
โฝ ๋ฌธ์ฅ ๋จ์ ํ ํฐํ
๋ฌธ์ฅ ๋จ์๋ก ํ ํฐํ๋ฅผ ์งํํ๋ค๋ฉด ์จ์ (.)์ ๊ธฐ์ค์ผ๋ก ์งํ๋๊ธฐ ๋๋ฌธ์ ์ด 4๊ฐ์ ๋ฌธ์ฅ์ผ๋ก ๋๋๊ฒ ๋๋ค.
โฝ ๋จ์ด ๋จ์ ํ ํฐํ
Python split()์ฒ๋ผ ๋ฌธ์ฅ๋ถํธ๋ฅผ ํฌํจํ์ง ์๊ณ ๊ณต๋ฐฑ์ ๊ธฐ์ค์ผ๋ก ํ ํฐํํ๊ฑฐ๋, ๋ฌธ์ฅ๋ถํธ๋ ํ๋์ ํ ํฐ์ผ๋ก ๋ณด๊ณ ํ ํฐํ๋ฅผ ์งํํ ์ ์๋ค. nltk ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ word_tokenize()๋ ๋ฌธ์ฅ๋ถํธ๋ ํ๋์ ํ ํฐ์ผ๋ก ํ์ ํ๋ค.
โฝ ํํ์ ๋จ์ ํ ํฐํ(ํ๊ตญ์ด)
๋ฌธ์ฅ๋ถํธ๋ฅผ ์ ์ธํ๊ณ ์ฒซ ๋ฒ์งธ ๋ฌธ์ฅ์ ๋ํด ํํ์ ๋จ์๋ก ํ ํฐํ๋ฅผ ์งํํ๋ฉด ์๋์ ๊ฐ์ ๊ฒฐ๊ณผ๊ฐ ๋์จ๋ค.
์ด์ / ๋ชจ๋ฅผ / ๊ฐ์ / ์ / ํ์ / ๊ทธ / ๋ / ๋๋ด / ๋ง์นจํ / ๋ฅผ / ์ฑ์ / ๋ฃ์๋ค
๊ตฌํ
nltk ๋ผ์ด๋ธ๋ฌ๋ฆฌ(https://www.nltk.org/install.html)๋ฅผ ์ฌ์ฉํ๋ฉด ์์ฝ๊ฒ ๋ฌธ์ฅ/๋จ์ด ๋จ์ ํ ํฐํ๋ฅผ ์งํํ ์ ์๋ค. ํ๊ตญ์ด ํ ํฐํ์ ์ฌ์ฉํ ์ ์๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ Okt(Open Korea text), Mecab, KKma, Hannanum, Komoran์ด ์๋ค.
โฝ ๋ฌธ์ฅ ๋จ์ ํ ํฐํ
from konlpy.tag import Okt
from nltk.tokenize import sent_tokenize, word_tokenize
sentences = sent_tokenize(paragraph)
โฝ ๋จ์ด ๋จ์ ํ ํฐํ
words = word_tokenize(paragraph)
โฝ ํํ์ ๋จ์ ํ ํฐํ(ํ๊ตญ์ด)
print('Okt ํํ์ ๋ถ์ :',okt.morphs("๋๋ ์ด๊ฑธ ๋ญ๋ง์ด๋ผ๊ณ ๋ถ๋ฅด๊ธฐ๋ก ํ์๋ค."))
print('--------------------------------------------------------------------')
print('Okt ํ์ฌ ํ๊น
:',okt.pos("๋๋ ์ด๊ฑธ ๋ญ๋ง์ด๋ผ๊ณ ๋ถ๋ฅด๊ธฐ๋ก ํ์๋ค."))
print('--------------------------------------------------------------------')
print('Okt ๋ช
์ฌ ์ถ์ถ :',okt.nouns("๋๋ ์ด๊ฑธ ๋ญ๋ง์ด๋ผ๊ณ ๋ถ๋ฅด๊ธฐ๋ก ํ์๋ค."))
โป ์ ์ฒด ์ฝ๋ ๋ฐ ์คํ ๊ฒฐ๊ณผ : https://github.com/nsbg/NLP/blob/main/basic/tokenization.ipynb
'Artificial Intelligence > NLP' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[NLP ์ฌํ] encode() / encode_plus() (0) | 2022.09.28 |
---|---|
[NLP ๊ธฐ์ด] Vocab (0) | 2022.09.02 |
[NLP ๊ธฐ์ด] ๋์ ์ถํ ํ๋ ฌ(Co-occurrence Matrix) (0) | 2022.06.30 |
[NLP ๊ธฐ์ด] BoW(Bag of Words) (0) | 2022.06.27 |
[Transformer ์๋ฆฌ์ฆ] 01. Positional Encoding (0) | 2022.03.30 |