'Artificial Intelligence' 카테고리의 글 목록

[Causal Inference] 01. Introduction to causality

주 1회 진행하는 스터디 모임에서 함께 공부해보기로 한 자료 정리 목적으로 글을 작성한다. 스터디원분께서 좋은 자료를 추천해주셔서 정말 오랜만에 진득한 이론 공부를 하게 될 것 같다. 원문: https://github.com/CausalInferenceLab/Causal-Inference-with-Python 머신러닝과 인과관계 ◾ 머신러닝은 엄격한 바운더리 안에서 엄청난 일을 할 수 있지만, 주어진 데이터가 모델이 학습한 것과 조금 다를 경우 제대로 작동하지 않을 수 있음 ◾ 머신러닝은 상관관계에 의존하기 때문에 인과관계(causation) 유형의 문제를 잘 다루지 못함 예시) "호텔 산업에서 가격은 비수기일 때 저렴하고, 수요가 가장 많고 호텔이 가득 차는 성수기 시즌에는 가격이 높습니다. 해당 데이..

Artificial Intelligence/Studying 2023.04.30

Improving Language Understanding by Generative Pre-Training

💬 논문 내용과 이 글에 대한 의견 공유, 오탈자 지적 환영합니다. 편하게 댓글 남겨주세요 ! 💬 ◾ 기호는 원문 내용이며, ◽ 기호는 글 작성자의 개인적인 생각입니다. 원문: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf Abstract ◾ 자연어 생성(NLG) 분야에서 레이블이 없는 텍스트 데이터는 충분하지만 특정 태스크(textual entailment, QA, semantic similarity assessment 등)를 위해 레이블 된 데이터는 부족함 ◾ 레이블 된 데이터가 부족한 상황은 학습된 모델이 제대로 성능을 발휘하지 못하게 함 ◾ 레이블이 없는 다양한 텍스트 코퍼스에..

Artificial Intelligence/Paper 2023.01.15

RoBERTa: A Robustly Optimized BERT Pretraining Approach

💬 논문 내용과 이 글에 대한 의견 공유, 오탈자 지적 환영합니다. 편하게 댓글 남겨주세요 ! 💬 ◽ 기호는 글 작성자의 개인적인 생각이며, ◾ 기호는 원문 내용입니다. 원문: https://arxiv.org/pdf/1907.11692.pdf Abstract ◾ BERT 모델에 대해 재현 연구(replication study)를 수행하면서 데이터 크기, 주요 하이퍼파라미터가 결과에 어떤 영향을 주는지 확인 ◾ BERT 모델이 undertrained되었으며 BERT 모델 발표 이후 나온 모델들의 성능을 능가한다는 것을 알게 됨 ◾ 이전에 간과되던 모델 설계 방법의 중요성에 대해 강조 ◽ RoBERTa라는 새로운 모델을 제안한 것이 아니라 BERT 모델을 가장 좋은 방법으로 학습시킨 것 ◽ 'undertra..

Artificial Intelligence/Paper 2023.01.05

EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

💬 논문 내용과 이 글에 대한 의견 공유, 오탈자 지적 환영합니다. 편하게 댓글 남겨주세요 ! 원문: https://aclanthology.org/D19-1670.pdf 1 Introduction ▪️ 머신러닝과 딥러닝은 감성분석부터 토픽 분류까지 NLP 분야에서 높은 정확도를 달성했지만, 높은 성능은 종종 학습 데이터의 양과 퀄리티에 달려 있음 ▪️ 자동 데이터 증강(Automatica data augmentation)은 컴퓨터 비전과 음성 분야에서 많이 사용되지만 언어 변환을 위한 일반적인 규칙을 만드는 것은 어렵기 때문에 NLP 분야에서 일반적인 데이터 증강 기법은 완전히 연구된 적이 없음 ▪️ 논문을 통해 EDA(Easy Data Augmentation)라고 부르는 간단한 NLP 데이터 증강 기법..

Artificial Intelligence/Paper 2022.11.07

[NLP 기초] 임베딩(Embedding)

개념 단어 집합(vocab)에 있는 단어 각각을 실수(real number)로 이루어진 dense vector로 표현하는 것 방법 ※ PyTorch 기준 1) Embedding layer 생성: nn.Embedding 사용 2) Pre-trained word embedding: 사전 학습된 워드 임베딩(Word2Vec, GloVe 등)을 가져와서 사용 예시 1) Embedding layer 생성 ① nn.Embedding layer 없이 직접 구현(셀 순서대로 진행됨) import torch train_data = 'I want to be a AI engineer' # 단어 집합 생성(중복 제거) word_set = set(train_data.split()) # 각 단어에 고유한 정수 부여 vocab =..

Artificial Intelligence/NLP 2022.10.11

[NLP 심화] encode() / encode_plus()

사실 엄청난 심화는 아님 허깅페이스에서 사전학습모델을 불러와 사용할 때 encode()를 이용해 토큰화된 데이터를 얻을 수 있는데, 이것저것 예제를 보다보니 encode()가 나올 때가 있고 encode_plus()가 나올 때가 있었다. 한 줄짜리 코드로 차이점을 확인해보기로 한다. tokenizer.encode() # 데이콘 '청와대 청원 분류 대회' 데이터셋에서 추출한 문장 tokenizer.encode('신혼부부위한 주택정책 보다 보육시설 늘려주세요') 결과 ◽ tokenizer.tokenize(SENTENCE), tokenizer.convert_tokens_to_ids(TOKENIZED_SENTENCE)를 한 번에 수행하는 기능 ◽ Vocab에 있는 값을 이용해 토큰 하나하나를 vocab inde..

Artificial Intelligence/NLP 2022.09.28

BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding

논문 읽기 엄청 오랜만이다. BERT 기반 사전학습모델 써보려고 하다가 관련 개념을 하나도 모르니까 모델 입력에 뭐가 들어가는지~ 데이터 형태를 어떻게 맞춰줘야 하는지~ 너무 이해가 안 되는 부분이 많아서 논문 본인등판시킴 💬 논문 내용과 이 글에 대한 의견 공유, 오탈자 지적 환영합니다. 편하게 댓글 남겨주세요 ! 원문: https://arxiv.org/pdf/1810.04805.pdf ■ : 아직 바로 이해 안 되는 부분 Introduction 1. Pre-train된 언어 표현을 하위 태스크에 적용하는 2가지 방법 존재 1) Feature-based - Pre-trained representations을 포함하는 task-specific 구조를 추가적인 feature로 사용 - 예: ELMo 2) ..

Artificial Intelligence/Paper 2022.09.21

[PyTorch] class 기반 모델 구현 방법

class ModelName(nn.Module): def __init__(self): super().__init__() # 코드 작성 부분 def forward(self): # 코드 작성 부분 nn.Module - 모든 신경망 모듈의 기본이 되는 클래스 - 모델 구현 시 이 클래스를 상속받아 사용해야 함(should) - nn.Module 클래스는 다른 nn.Module 안에서 사용될 수 있음 - Linear, Dropout, LayerNorm 등 모델 생성에 쓰이는 여러 기능 포함 __init__ - 신경망 구성 요소를 정의하기 위해 사용 - ✅ super().__init__(): 부모 클래스(nn.Module)를 호출하는 역할로 이 부분을 작성하지 않고 self.변수명 = ~ 을 사용할 경우 에러 발..

Artificial Intelligence/Framework 2022.09.16

[NLP 기초] Vocab

'Vocab 생성' 과정은 자연어처리 태스크를 수행할 때 빠지지 않고 등장하지만, 습관적으로 쓸 뿐 생성 목적이 뭔지 이해하지 못했었다. 트랜스포머 모델을 다뤄보면서 뭔가 알 것 같기도 한 느낌이 들어서 자연어처리 태스크에 있어서 Vocab의 역할에 대해 내가 이해한 바를 정리해보려고 한다. ⭐ 잘못된 내용이 있다면 편하게 댓글 남겨주세요! 생성 단계 ※ Vocab 생성 단계 이후의 '데이터 생성'은 모델 입력 데이터 생성을 의미 토큰화-Vocab 생성 과정 토큰화 ⭐ 토큰화에 대한 내용은 오른쪽 링크를 누르면 확인할 수 있다. 여기! 토큰화를 하는 이유는 모델이 일반적인 표현을 배울 수 있게 하기 위한 게 아닐까? 하는 것이 내 생각이다. 문장을 입력으로 받아서 토큰화 과정 없이 문장 전체를 학습에 사..

Artificial Intelligence/NLP 2022.09.02

[NLP 기초] 동시 출현 행렬(Co-occurrence Matrix)

개념 현재 단어(중심 단어)와 특정 거리 범위 안에 있는 단어의 출현 빈도를 행렬로 만든 것이다. 구글링 또는 책을 보다 보면 거리에 대한 설명이 빠져 있고 '출현 빈도'에만 초점을 맞춰 설명하는 경우가 있는데 개인적으로 출현 빈도보다 거리 개념이 더 중요하다고 생각한다. 출현 빈도만으로 이해하려고 하면 행렬 형태를 봤을 때 '이 단어 출현 횟수가 왜 이거야?' 싶은 경우가 생긴다. 내가 그랬음 🙂.. 예시 ◽ 문장 자연어처리 분야에서 다루게 될 데이터가 한 문장으로 이뤄진 경우는 없겠지만 예시이므로 간단하게 보기로 한다. a hundred bad days made a hundred good stories. AJR - 100 Days 이 문장을 이용해 만든 동시 출현 행렬은 아래와 같은 모습일거고 단어의..

Artificial Intelligence/NLP 2022.06.30

nsbg 🌞

Artificial Intelligence 38

티스토리툴바

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30