[NLP 기초] BoW(Bag of Words)

Artificial Intelligence/NLP

[NLP 기초] BoW(Bag of Words)

geum 2022. 6. 27. 12:40

개념

문장을 이루고 있는 단어의 등장 횟수를 카운트하고 그 값을 기반으로 문서를 벡터화하는 방법

예시

BoW 모델은 단어 사전을 참고하여 벡터화를 진행한다. 아래처럼 4개의 문장으로 이루어진 문서가 있다고 가정하고 이 문서를 BoW 모델로 표현해보기로 한다.

◽ 문서 : ["It was the best of times", "It was the worst of times", "It was the age of wisdom", "It was the age of foolishness"]

◽ 문서에서 생성한 단어 사전 : ['It', 'was', 'the', 'best', 'of', 'times', 'worst', 'age', 'wisdom', 'foolishness']

◽ 첫 번째 문장 벡터 표현 결과(나머지 문장도 동일)

일단 각 문장 벡터의 길이는 단어 사전 요소 개수와 동일하다. 첫 번째 문장을 이루고 있는 단어는 It, was, the, best, of, times이고 각 단어들이 이 문장에서 한 번씩만 나왔기 때문에 1로 값이 채워진다. 첫 번째 문장에 포함되어 있지 않은 worst, age, wisdom, foolishness 위치의 값은 0이다.

구현

1) 직접 구현

import numpy as np

docs = ["It was the best of times", "It was the worst of times", "It was the age of wisdom", "It was the age of foolishness"]

# 단어 사전 생성
word_dict = []

for sentences in docs:
    word_list = sentences.split()
    
    for word in word_list:
        if word not in word_dict:
            word_dict.append(word)

sentences_vector = []

for sentences in docs:
    word_count = {key: 0 for key in word_dict}
    
    for i in word_dict:
        word_count[i] = sentences.count(i)

    sentences_vector.append(list(word_count.values()))

⭐ 실행 결과

2) CountVectorizer() 사용

사이킷런에서 제공하는 CountVectorizer()는 텍스트 데이터 입력만 해주면 BoW 모델의 단어 사전 구축 및 벡터 변환 과정을 알아서 처리한다.

from sklearn.feature_extraction.text import CountVectorizer

count_vectorizer = CountVectorizer()
bow = count_vectorizer.transform(docs) # fit_transform(docs)도 가능

⭐ 실행 결과

직접 구현한 결과와 단어 배치 순서에서 차이가 있다. CountVectorizer()는 어떤 방식으로 단어를 배치하는지 보고 싶었는데 방법을 찾지 못했다 🤪

한계

굉장히 간단한 방법이라는 장점이 있지만 오직 횟수만 세기 때문에 수치화된 표현들이 문맥을 파악하지 못한다. 또한 특별한 의미를 갖지는 않지만 많이 사용되는 단어(조사, 지시대명사 등)들은 실질적으로 의미가 없음에도 횟수가 높게 카운트되기 때문에 결과에 영향을 미칠 수 있다.

※ 전체 코드 : https://github.com/nsbg/NLP/blob/main/basic/bag-of-words.ipynb

저작자표시 비영리 변경금지 (새창열림)

'Artificial Intelligence > NLP' 카테고리의 다른 글

[NLP 심화] encode() / encode_plus() (0)	2022.09.28
[NLP 기초] Vocab (0)	2022.09.02
[NLP 기초] 동시 출현 행렬(Co-occurrence Matrix) (0)	2022.06.30
[NLP 기초] 토큰화(Tokenization, 토크나이징) (0)	2022.06.28
[Transformer 시리즈] 01. Positional Encoding (0)	2022.03.30

현재글[NLP 기초] BoW(Bag of Words)

nsbg 🌞

my life is nsbg

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

nsbg 🌞