[NLP 심화] encode() / encode

Artificial Intelligence/NLP

[NLP 심화] encode() / encode_plus()

geum 2022. 9. 28. 18:49

~~사실 엄청난 심화는 아님~~

허깅페이스에서 사전학습모델을 불러와 사용할 때 encode()를 이용해 토큰화된 데이터를 얻을 수 있는데, 이것저것 예제를 보다보니 encode()가 나올 때가 있고 encode_plus()가 나올 때가 있었다.

한 줄짜리 코드로 차이점을 확인해보기로 한다.

# 데이콘 '청와대 청원 분류 대회' 데이터셋에서 추출한 문장
tokenizer.encode('신혼부부위한 주택정책 보다 보육시설 늘려주세요')

결과

◽ tokenizer.tokenize(SENTENCE), tokenizer.convert_tokens_to_ids(TOKENIZED_SENTENCE)를 한 번에 수행하는 기능

◽ Vocab에 있는 값을 이용해 토큰 하나하나를 vocab index로 바꾼 값만 출력

tokenizer.encode_plus('신혼부부위한 주택정책 보다 보육시설 늘려주세요')

결과

◽ input_ids, token_type_ids, attention_mask를 key로 가지는 딕셔너리 출력

◽ input_ids: tokenizer.encode(~)와 동일

◽ token_type_ids: 두 개의 문장이 입력으로 들어왔을 때 첫 번째 문장(0), 두 번째 문장(1)을 구별하는 역할을 수행하며 지금은 문장이 하나 밖에 없기 때문에 모든 값이 0으로 출력

◽ attention_mask: padding이 추가됐을 때 padding 토큰은 0, 나머지 토큰은 모두 1. 지금은 padding이 추가되지 않은 상태라서 모든 값이 1로 출력

1️⃣ encode_plus()가 더 자세한 정보 제공

2️⃣ 개인적인 경험에 의하면 encode()는 토큰화 확인용으로만 쓰는 느낌이었고 모델 학습용 데이터를 생성하는 과정에서는 encode_plus()를 사용하는 느낌 🙃

[NLP 기초] 임베딩(Embedding) (0)	2022.10.11
[NLP 기초] Vocab (0)	2022.09.02
[NLP 기초] 동시 출현 행렬(Co-occurrence Matrix) (0)	2022.06.30
[NLP 기초] 토큰화(Tokenization, 토크나이징) (0)	2022.06.28
[NLP 기초] BoW(Bag of Words) (0)	2022.06.27

nsbg 🌞

my life is nsbg