Artificial Intelligence38 [Causal Inference] 01. Introduction to causality ์ฃผ 1ํ ์งํํ๋ ์คํฐ๋ ๋ชจ์์์ ํจ๊ป ๊ณต๋ถํด๋ณด๊ธฐ๋ก ํ ์๋ฃ ์ ๋ฆฌ ๋ชฉ์ ์ผ๋ก ๊ธ์ ์์ฑํ๋ค. ์คํฐ๋์๋ถ๊ป์ ์ข์ ์๋ฃ๋ฅผ ์ถ์ฒํด์ฃผ์ ์ ์ ๋ง ์ค๋๋ง์ ์ง๋ํ ์ด๋ก ๊ณต๋ถ๋ฅผ ํ๊ฒ ๋ ๊ฒ ๊ฐ๋ค. ์๋ฌธ: https://github.com/CausalInferenceLab/Causal-Inference-with-Python ๋จธ์ ๋ฌ๋๊ณผ ์ธ๊ณผ๊ด๊ณ โพ ๋จธ์ ๋ฌ๋์ ์๊ฒฉํ ๋ฐ์ด๋๋ฆฌ ์์์ ์์ฒญ๋ ์ผ์ ํ ์ ์์ง๋ง, ์ฃผ์ด์ง ๋ฐ์ดํฐ๊ฐ ๋ชจ๋ธ์ด ํ์ตํ ๊ฒ๊ณผ ์กฐ๊ธ ๋ค๋ฅผ ๊ฒฝ์ฐ ์ ๋๋ก ์๋ํ์ง ์์ ์ ์์ โพ ๋จธ์ ๋ฌ๋์ ์๊ด๊ด๊ณ์ ์์กดํ๊ธฐ ๋๋ฌธ์ ์ธ๊ณผ๊ด๊ณ(causation) ์ ํ์ ๋ฌธ์ ๋ฅผ ์ ๋ค๋ฃจ์ง ๋ชปํจ ์์) "ํธํ ์ฐ์ ์์ ๊ฐ๊ฒฉ์ ๋น์๊ธฐ์ผ ๋ ์ ๋ ดํ๊ณ , ์์๊ฐ ๊ฐ์ฅ ๋ง๊ณ ํธํ ์ด ๊ฐ๋ ์ฐจ๋ ์ฑ์๊ธฐ ์์ฆ์๋ ๊ฐ๊ฒฉ์ด ๋์ต๋๋ค. ํด๋น ๋ฐ์ด.. 2023. 4. 30. Improving Language Understanding by Generative Pre-Training ๐ฌ ๋ ผ๋ฌธ ๋ด์ฉ๊ณผ ์ด ๊ธ์ ๋ํ ์๊ฒฌ ๊ณต์ , ์คํ์ ์ง์ ํ์ํฉ๋๋ค. ํธํ๊ฒ ๋๊ธ ๋จ๊ฒจ์ฃผ์ธ์ ! ๐ฌ โพ ๊ธฐํธ๋ ์๋ฌธ ๋ด์ฉ์ด๋ฉฐ, โฝ ๊ธฐํธ๋ ๊ธ ์์ฑ์์ ๊ฐ์ธ์ ์ธ ์๊ฐ์ ๋๋ค. ์๋ฌธ: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf Abstract โพ ์์ฐ์ด ์์ฑ(NLG) ๋ถ์ผ์์ ๋ ์ด๋ธ์ด ์๋ ํ ์คํธ ๋ฐ์ดํฐ๋ ์ถฉ๋ถํ์ง๋ง ํน์ ํ์คํฌ(textual entailment, QA, semantic similarity assessment ๋ฑ)๋ฅผ ์ํด ๋ ์ด๋ธ ๋ ๋ฐ์ดํฐ๋ ๋ถ์กฑํจ โพ ๋ ์ด๋ธ ๋ ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ ์ํฉ์ ํ์ต๋ ๋ชจ๋ธ์ด ์ ๋๋ก ์ฑ๋ฅ์ ๋ฐํํ์ง ๋ชปํ๊ฒ ํจ โพ ๋ ์ด๋ธ์ด ์๋ ๋ค์ํ ํ ์คํธ ์ฝํผ์ค์.. 2023. 1. 15. RoBERTa: A Robustly Optimized BERT Pretraining Approach ๐ฌ ๋ ผ๋ฌธ ๋ด์ฉ๊ณผ ์ด ๊ธ์ ๋ํ ์๊ฒฌ ๊ณต์ , ์คํ์ ์ง์ ํ์ํฉ๋๋ค. ํธํ๊ฒ ๋๊ธ ๋จ๊ฒจ์ฃผ์ธ์ ! ๐ฌ โฝ ๊ธฐํธ๋ ๊ธ ์์ฑ์์ ๊ฐ์ธ์ ์ธ ์๊ฐ์ด๋ฉฐ, โพ ๊ธฐํธ๋ ์๋ฌธ ๋ด์ฉ์ ๋๋ค. ์๋ฌธ: https://arxiv.org/pdf/1907.11692.pdf Abstract โพ BERT ๋ชจ๋ธ์ ๋ํด ์ฌํ ์ฐ๊ตฌ(replication study)๋ฅผ ์ํํ๋ฉด์ ๋ฐ์ดํฐ ํฌ๊ธฐ, ์ฃผ์ ํ์ดํผํ๋ผ๋ฏธํฐ๊ฐ ๊ฒฐ๊ณผ์ ์ด๋ค ์ํฅ์ ์ฃผ๋์ง ํ์ธ โพ BERT ๋ชจ๋ธ์ด undertrained๋์์ผ๋ฉฐ BERT ๋ชจ๋ธ ๋ฐํ ์ดํ ๋์จ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ ๋ฅ๊ฐํ๋ค๋ ๊ฒ์ ์๊ฒ ๋จ โพ ์ด์ ์ ๊ฐ๊ณผ๋๋ ๋ชจ๋ธ ์ค๊ณ ๋ฐฉ๋ฒ์ ์ค์์ฑ์ ๋ํด ๊ฐ์กฐ โฝ RoBERTa๋ผ๋ ์๋ก์ด ๋ชจ๋ธ์ ์ ์ํ ๊ฒ์ด ์๋๋ผ BERT ๋ชจ๋ธ์ ๊ฐ์ฅ ์ข์ ๋ฐฉ๋ฒ์ผ๋ก ํ์ต์ํจ ๊ฒ โฝ 'undertra.. 2023. 1. 5. EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks ๐ฌ ๋ ผ๋ฌธ ๋ด์ฉ๊ณผ ์ด ๊ธ์ ๋ํ ์๊ฒฌ ๊ณต์ , ์คํ์ ์ง์ ํ์ํฉ๋๋ค. ํธํ๊ฒ ๋๊ธ ๋จ๊ฒจ์ฃผ์ธ์ ! ์๋ฌธ: https://aclanthology.org/D19-1670.pdf 1 Introduction โช๏ธ ๋จธ์ ๋ฌ๋๊ณผ ๋ฅ๋ฌ๋์ ๊ฐ์ฑ๋ถ์๋ถํฐ ํ ํฝ ๋ถ๋ฅ๊น์ง NLP ๋ถ์ผ์์ ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์ง๋ง, ๋์ ์ฑ๋ฅ์ ์ข ์ข ํ์ต ๋ฐ์ดํฐ์ ์๊ณผ ํ๋ฆฌํฐ์ ๋ฌ๋ ค ์์ โช๏ธ ์๋ ๋ฐ์ดํฐ ์ฆ๊ฐ(Automatica data augmentation)์ ์ปดํจํฐ ๋น์ ๊ณผ ์์ฑ ๋ถ์ผ์์ ๋ง์ด ์ฌ์ฉ๋์ง๋ง ์ธ์ด ๋ณํ์ ์ํ ์ผ๋ฐ์ ์ธ ๊ท์น์ ๋ง๋๋ ๊ฒ์ ์ด๋ ต๊ธฐ ๋๋ฌธ์ NLP ๋ถ์ผ์์ ์ผ๋ฐ์ ์ธ ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ์ ์์ ํ ์ฐ๊ตฌ๋ ์ ์ด ์์ โช๏ธ ๋ ผ๋ฌธ์ ํตํด EDA(Easy Data Augmentation)๋ผ๊ณ ๋ถ๋ฅด๋ ๊ฐ๋จํ NLP ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ.. 2022. 11. 7. [NLP ๊ธฐ์ด] ์๋ฒ ๋ฉ(Embedding) ๊ฐ๋ ๋จ์ด ์งํฉ(vocab)์ ์๋ ๋จ์ด ๊ฐ๊ฐ์ ์ค์(real number)๋ก ์ด๋ฃจ์ด์ง dense vector๋ก ํํํ๋ ๊ฒ ๋ฐฉ๋ฒ โป PyTorch ๊ธฐ์ค 1) Embedding layer ์์ฑ: nn.Embedding ์ฌ์ฉ 2) Pre-trained word embedding: ์ฌ์ ํ์ต๋ ์๋ ์๋ฒ ๋ฉ(Word2Vec, GloVe ๋ฑ)์ ๊ฐ์ ธ์์ ์ฌ์ฉ ์์ 1) Embedding layer ์์ฑ โ nn.Embedding layer ์์ด ์ง์ ๊ตฌํ(์ ์์๋๋ก ์งํ๋จ) import torch train_data = 'I want to be a AI engineer' # ๋จ์ด ์งํฉ ์์ฑ(์ค๋ณต ์ ๊ฑฐ) word_set = set(train_data.split()) # ๊ฐ ๋จ์ด์ ๊ณ ์ ํ ์ ์ ๋ถ์ฌ vocab =.. 2022. 10. 11. [NLP ์ฌํ] encode() / encode_plus() ์ฌ์ค ์์ฒญ๋ ์ฌํ๋ ์๋ ํ๊น ํ์ด์ค์์ ์ฌ์ ํ์ต๋ชจ๋ธ์ ๋ถ๋ฌ์ ์ฌ์ฉํ ๋ encode()๋ฅผ ์ด์ฉํด ํ ํฐํ๋ ๋ฐ์ดํฐ๋ฅผ ์ป์ ์ ์๋๋ฐ, ์ด๊ฒ์ ๊ฒ ์์ ๋ฅผ ๋ณด๋ค๋ณด๋ encode()๊ฐ ๋์ฌ ๋๊ฐ ์๊ณ encode_plus()๊ฐ ๋์ฌ ๋๊ฐ ์์๋ค. ํ ์ค์ง๋ฆฌ ์ฝ๋๋ก ์ฐจ์ด์ ์ ํ์ธํด๋ณด๊ธฐ๋ก ํ๋ค. tokenizer.encode() # ๋ฐ์ด์ฝ '์ฒญ์๋ ์ฒญ์ ๋ถ๋ฅ ๋ํ' ๋ฐ์ดํฐ์ ์์ ์ถ์ถํ ๋ฌธ์ฅ tokenizer.encode('์ ํผ๋ถ๋ถ์ํ ์ฃผํ์ ์ฑ ๋ณด๋ค ๋ณด์ก์์ค ๋๋ ค์ฃผ์ธ์') ๊ฒฐ๊ณผ โฝ tokenizer.tokenize(SENTENCE), tokenizer.convert_tokens_to_ids(TOKENIZED_SENTENCE)๋ฅผ ํ ๋ฒ์ ์ํํ๋ ๊ธฐ๋ฅ โฝ Vocab์ ์๋ ๊ฐ์ ์ด์ฉํด ํ ํฐ ํ๋ํ๋๋ฅผ vocab inde.. 2022. 9. 28. ์ด์ 1 2 3 4 ยทยทยท 7 ๋ค์