μ΄μ€λ²λκ»μ μ¬λ €μ£Όμ QLoRA+Polyglot-Ko-12.8B νμ΅ μμ λ₯Ό λ³΄κ³ λ°λΌνκ³ μμλλ° μλ³Έ μ½λμμλ λμ€μ§ μλ μλ¬κ° λ°μνλ€.
ꡬκΈλ§ν΄μ μ°Ύμλ ν΄κ²°λ²(tokenizer μΈμλ‘ padding=True/λλ 'max_length', truncation=True/λλ 'max_length' μΆκ°)μ΄ νλλ λ¨Ήμ§ μμμ λ무 λ΅λ΅νμλλ° μλμ κ°μ λ°©λ²μΌλ‘ ν΄κ²°ν μ μμλ€. ν΅μ¬μ remove_columns!
β ν΄κ²° λ°©λ²
dataset = dataset.map(lambda samples: tokenizer(samples["text"], padding=True, truncation=True, max_length=128), batched=True, remove_columns=['inputs', 'labels'])