μ¬μ€ μμ²λ μ¬νλ μλ
νκΉ νμ΄μ€μμ μ¬μ νμ΅λͺ¨λΈμ λΆλ¬μ μ¬μ©ν λ encode()λ₯Ό μ΄μ©ν΄ ν ν°νλ λ°μ΄ν°λ₯Ό μ»μ μ μλλ°, μ΄κ²μ κ² μμ λ₯Ό 보λ€λ³΄λ encode()κ° λμ¬ λκ° μκ³ encode_plus()κ° λμ¬ λκ° μμλ€.
ν μ€μ§λ¦¬ μ½λλ‘ μ°¨μ΄μ μ νμΈν΄λ³΄κΈ°λ‘ νλ€.
tokenizer.encode()
# λ°μ΄μ½ 'μ²μλ μ²μ λΆλ₯ λν' λ°μ΄ν°μ
μμ μΆμΆν λ¬Έμ₯
tokenizer.encode('μ νΌλΆλΆμν μ£Όνμ μ±
λ³΄λ€ λ³΄μ‘μμ€ λλ €μ£ΌμΈμ')
κ²°κ³Ό
β½ tokenizer.tokenize(SENTENCE), tokenizer.convert_tokens_to_ids(TOKENIZED_SENTENCE)λ₯Ό ν λ²μ μννλ κΈ°λ₯
β½ Vocabμ μλ κ°μ μ΄μ©ν΄ ν ν° νλνλλ₯Ό vocab indexλ‘ λ°κΎΌ κ°λ§ μΆλ ₯
tokenizer.encode_plus()
tokenizer.encode_plus('μ νΌλΆλΆμν μ£Όνμ μ±
λ³΄λ€ λ³΄μ‘μμ€ λλ €μ£ΌμΈμ')
κ²°κ³Ό
β½ input_ids, token_type_ids, attention_maskλ₯Ό keyλ‘ κ°μ§λ λμ λ리 μΆλ ₯
β½ input_ids: tokenizer.encode(~)μ λμΌ
β½ token_type_ids: λ κ°μ λ¬Έμ₯μ΄ μ λ ₯μΌλ‘ λ€μ΄μμ λ 첫 λ²μ§Έ λ¬Έμ₯(0), λ λ²μ§Έ λ¬Έμ₯(1)μ ꡬλ³νλ μν μ μννλ©° μ§κΈμ λ¬Έμ₯μ΄ νλ λ°μ μκΈ° λλ¬Έμ λͺ¨λ κ°μ΄ 0μΌλ‘ μΆλ ₯
β½ attention_mask: paddingμ΄ μΆκ°λμ λ padding ν ν°μ 0, λλ¨Έμ§ ν ν°μ λͺ¨λ 1. μ§κΈμ paddingμ΄ μΆκ°λμ§ μμ μνλΌμ λͺ¨λ κ°μ΄ 1λ‘ μΆλ ₯
μ 리
1οΈβ£ encode_plus()κ° λ μμΈν μ 보 μ 곡
2οΈβ£ κ°μΈμ μΈ κ²½νμ μνλ©΄ encode()λ ν ν°ν νμΈμ©μΌλ‘λ§ μ°λ λλμ΄μκ³ λͺ¨λΈ νμ΅μ© λ°μ΄ν°λ₯Ό μμ±νλ κ³Όμ μμλ encode_plus()λ₯Ό μ¬μ©νλ λλ π
'Artificial Intelligence > NLP' μΉ΄ν κ³ λ¦¬μ λ€λ₯Έ κΈ
[NLP κΈ°μ΄] μλ² λ©(Embedding) (0) | 2022.10.11 |
---|---|
[NLP κΈ°μ΄] Vocab (0) | 2022.09.02 |
[NLP κΈ°μ΄] λμ μΆν νλ ¬(Co-occurrence Matrix) (0) | 2022.06.30 |
[NLP κΈ°μ΄] ν ν°ν(Tokenization, ν ν¬λμ΄μ§) (0) | 2022.06.28 |
[NLP κΈ°μ΄] BoW(Bag of Words) (0) | 2022.06.27 |