'Artificial Intelligence' 카테고리의 글 목록 (2 Page)

[NLP 기초] 토큰화(Tokenization, 토크나이징)

개념 텍스트에 대해 특정 기준 단위로 문장을 나누는 과정으로 토큰화, 토크나이징 등 불리는 이름이 다양하다. 토큰은 문장이 될수도 있고 단어가 될수도 있으며 보통은 유의미한 단위가 토큰으로 정의된다. 예시 ◽ 문단 이유 모를 감정의 풍요, 그는 끝내 마침표를 채워 넣었다. 그리고 그는 홀로이 못다 한 이야기들을 비운다. 하지만 그의 이야기의 주인공은 여전히 그녀이다. 나는 이걸 낭만이라고 부르기로 하였다. 빅나티-낭만이라고 부르기로 하였다(Narr. 김기현) ◽ 문장 단위 토큰화 문장 단위로 토큰화를 진행한다면 온점(.)을 기준으로 진행되기 때문에 총 4개의 문장으로 나뉘게 된다. ◽ 단어 단위 토큰화 Python split()처럼 문장부호를 포함하지 않고 공백을 기준으로 토큰화하거나, 문장부호도 하나의..

Artificial Intelligence/NLP 2022.06.28

[NLP 기초] BoW(Bag of Words)

개념 문장을 이루고 있는 단어의 등장 횟수를 카운트하고 그 값을 기반으로 문서를 벡터화하는 방법 예시 BoW 모델은 단어 사전을 참고하여 벡터화를 진행한다. 아래처럼 4개의 문장으로 이루어진 문서가 있다고 가정하고 이 문서를 BoW 모델로 표현해보기로 한다. ◽ 문서 : ["It was the best of times", "It was the worst of times", "It was the age of wisdom", "It was the age of foolishness"] ◽ 문서에서 생성한 단어 사전 : ['It', 'was', 'the', 'best', 'of', 'times', 'worst', 'age', 'wisdom', 'foolishness'] ◽ 첫 번째 문장 벡터 표현 결과(나머지 ..

Artificial Intelligence/NLP 2022.06.27

[정리] Numpy ② : squeeze

b = np.array(range(1, 13, 2)).reshape(2, 3, 1) # 예상 2행 3열 이번에는 다차원 배열로 실습을 진행해봤는데 배열 생성 결과 이해하는 데에 한참 걸렸다. reshape 인자 순서대로 (행, 열, 차원) 인줄 알았는데? 그것이? 아니었습니다! numpy array는 다른 언어에서의 배열처럼 요소 간 콤마가 안 찍히기 때문에 결과 보자마자 바로 와닿지가 않았다. 일단 reshape는 (차원, 행, 열) 크기의 다차원 배열을 만든다. → reshape(2, 3, 1)은 3행 1열의 배열을 2개 쌓았다는 뜻 squeeze # axis default: None, 원하는 축 지정 가능 b_squeeze = b.squeeze() 배열에서 길이가 1인 축을 제거한다. (2, 3, ..

Artificial Intelligence/📖 2022.04.20

[정리] Numpy ① : shape, ndim, axis

a = np.array([0, 1, 2, 3, 4, 5]) 실습을 위한 임의의 배열을 생성하고 이 배열로 이것저것 해보려고 한다. shape/ndim/size print("shape: ", a.shape) # 예상 (6, 1) print("ndim: ", a.ndim) # 예상 2 print("size: ", a.size) # 예상 6 ◻ shape : (행, 열)을 뒤집은 형태로 나타냄 → (6, 1) = (1행, 6열) ◻ ndim : 배열 차원 ◻ size : 배열의 원소 개수 열이 하나일 경우는 shape에서 1이 찍히지 않는다는 것이 특징! 아직도 차원 개념이 너무 어렵다 ㅠㅠ 텐서 차원이랑 같게 생각해서 스칼라가 1차원, 배열이니까 2차원이라고 생각했는데 1차원이었음. 그냥 파이썬 상의 배열 ..

Artificial Intelligence/📖 2022.04.19

[Transformer 시리즈] 01. Positional Encoding

사용 이유 - 입력이 RNN처럼 순서대로 들어오는 것이 아니기 때문에 모델이 문장 내 단어의 위치를 파악할 수 있도록 하기 위해 Positional Encoding 사용 - 생성된 고유한 Positional Encoding을 단어 임베딩 벡터와 더할 경우 모델이 단어의 절대 위치 파악 가능 동작 방식 - N번째 Positional Encoding이 각 문장의 N번째 단어 임베딩에 더해진다. - 논문 저자들은 sin 함수, cos 함수를 사용 → pos: 문장 내 임베딩 벡터의 위치, i: 임베딩 벡터 내 위치 - Positional Encoding은 단어 임베딩 벡터와 더해져야 하기 때문에 $d_{positional encoding}$=$d_{embedding vector}$ 🧐 sin 함수, cos 함..

Artificial Intelligence/NLP 2022.03.30

Sequence to Sequence Learning with Neural Networks

Transformer를 제대로 이해하기 위해 봐야 할 논문과 개념들이 굉장히 많다. 차근차근 보고 Transformer도 다시 볼 계획이다. 💬 논문 내용과 이 글에 대한 의견 공유, 오탈자 지적 환영합니다. 편하게 댓글 남겨주세요 ! 원문 : https://arxiv.org/pdf/1409.3215.pdf Abstract - DNN은 speech recognition과 같은 어려운 학습 태스크에서 우수한 성과를 달성한 모델이지만 고정 차원을 사용하기 때문에 입출력 길이가 다른 시퀀스(문장)를 다루는 문제에는 적합하지 않았다. - 이 논문에서는 다층 LSTM을 인코더-디코더로 사용하여 입력 시퀀스 의미에 대응하는 가변 길이 시퀀스를 출력하는 방법을 제안한다. - 입력 시퀀스 단어 순서를 반대로 할 경우(..

Artificial Intelligence/Paper 2022.03.21

[정리] train_test_split을 이용한 데이터셋 분할

Bagging 실습하다가 데이터셋 분할 순서 때문에 에러 메시지를 만난 적이 있는데(무려 두 달 전) 이제서야 정리한다. from sklearn.model_selection import train_test_split from sklearn.datasets import load_breast_cancer import numpy as np 데이터는 두 달 전에 썼던 거 그대로 불러왔고 필요한 모듈만 import해줬다. 위스콘신 유방암 진단 데이터셋에는 총 569개의 데이터가 있는 것을 확인했다. X_train, X_test, y_train, y_test = train_test_split(dataset.data, dataset.target) train_test_split을 써서 데이터셋을 나누는데, 순서의 중요..

Artificial Intelligence/📖 2022.03.17

[개념] 희소 표현 / 밀집 표현

희소 표현 | sparse representation - 문장을 벡터로 나타낼 때 대부분의 값이 0인 희소행렬 개념 이용 → 표현하고자 하는 단어의 인덱스는 1, 나머지 인덱스는 0으로 설정 - 단어의 수가 늘어나면 차원도 함께 커지는 문제점이 있다. 예) 왼쪽은 표현하고 싶은 단어가 3개이기 때문에 3차원이지만, 오른쪽은 100개가 넘기 때문에 100차원을 넘게 되어 긴 문장을 벡터로 나타내야 할 때는 희소 표현이 비효율적이다. ⭐ 원소 개수가 차원인가? 에 대한 의문은 이 곳을 참고하면 도움이 될 듯 하다. (사실 내가 차원 개념을 완전히 정립하지 못함) 밀집 표현 | dense representation - 단어의 개수와 상관없이 사용자가 차원 값을 설정하기 때문에 차원 축소의 장점이 있다. - 특..

Artificial Intelligence/📖 2022.03.10

Feature Squeezing: Detecting Adversarial Examples in Deep Neural Networks

연구실에서 AI보안 쪽 공부할 때 공격에 대해서만 공부했던 거 같아서 방어 기법에 대해 궁금해졌다. 이번 주 논문으로 당첨 👊 💬 논문 내용과 이 글에 대한 의견 공유, 오탈자 지적 환영합니다. 편하게 댓글 남겨주세요 ! 원문 : https://arxiv.org/pdf/1704.01155.pdf Abstract 이전 연구들은 adversarial example을 방어하기 위해 DNN(Deep Neural Network) 모델을 개선(모델 자체를 수정해야 함)하는 것에 초점을 맞췄지만 성공이 제한적이고 계산 비용이 높다는 단점 존재 → adversarial examples를 탐지함으로써 DNN 모델을 강화할 수 있는 Feature Squeezing 방식 제시 Introduction - 분류기가 advers..

Artificial Intelligence/Paper 2022.03.03

Attention Is All You Need

이번주부터 한 주에 하나의 논문을 읽어보려고 한다. 나 잘할 수 있겠지 ? ^_^ 💬 논문 내용과 이 글에 대한 의견 공유, 오탈자 지적 환영합니다. 편하게 댓글 남겨주세요 ! 원문 : https://arxiv.org/pdf/1706.03762.pdf Abstract dominant한 sequence transduction 모델들은 복잡한 RNN/CNN 구조 → Attention 매커니즘만을 기반으로 하는 새롭고 간단한 구조의 Transformer 제안 2022. 3. 4 추가 Transformer 요약 : 학습과 병렬화가 쉽고 attention 구조를 사용하여 속도를 높인 모델 Introduction Attention 매커니즘은 입력, 출력 간 거리에 상관없이 modeling을 할 수 있게 한다는 점에..

Artificial Intelligence/Paper 2022.02.23

nsbg 🌞

Artificial Intelligence 38

티스토리툴바

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30