[코드 리뷰] 노년층 대화 감성 분류 모델 구현 (3): Transformer ①

👩‍💻

[코드 리뷰] 노년층 대화 감성 분류 모델 구현 (3): Transformer ①

geum 2022. 12. 27. 18:54

감성 분류 모델 구현 시리즈 (1) | CNN

감성 분류 모델 구현 시리즈 (2) | RNN

Transformer 분류 모델은 단일 파일이 아니라서 하나씩 분석하면 글이 3개나 4개 정도 나올 것 같다.

👩‍🏫 모델 클래스

import torch
import torch.nn as nn
import torch.nn.functional as F

from copy import deepcopy

from .encoder import Encoder, EncoderLayer
from .sublayers import *

attn = MultiHeadAttention(8, 152)
ff = PositionwiseFeedForward(152, 1024, 0.5)
pe = PositionalEncoding(152, 0.5)

class Transformer(nn.Module):
    def __init__(self, vocab_size, d_model, n_layer, num_class):
        super(Transformer, self).__init__()

        self.encoder = Encoder(EncoderLayer(d_model, deepcopy(attn), deepcopy(ff)), n_layer)
        self.src_embed = nn.Sequential(Embeddings(d_model, vocab_size), deepcopy(pe))
        self.linear = nn.Linear(d_model, num_class)

    def forward(self, x):
        x = self.src_embed(x)
        x = self.encoder(x)
        x = x[:, -1, :]
        x = self.linear(x)
        
        logits = F.softmax(x, dim=-1)

        return logits

처음에는 attn, ff, pe 변수도 파라미터로 넘기려고 했는데 뭔가 잘 안돼서 클래스랑 한 파일에 같이 뒀다. 좋은 방법은 아니라고 생각한다.

🎯 파라미터

◽ d_model: 임베딩 벡터 차원

◽ n_layer: 인코더 레이어 수(원본 논문에서는 6개의 인코더 레이어를 이어 붙여서 하나의 인코더로 사용)

⏳ 작동 방식

1. init

1) Encoder(EncoderLayer(d_model, deepcopy(attn), deepcopy(ff)), n_layer)

※ 이 파트는 Encoder 클래스, EncoderLayer 클래스에 대한 글이 작성되면 링크를 추가해놓을 예정이다.

◽ 매우 간단하게 설명하면 (d_model, deepcopy(attn), deepcopy(ff))를 입력으로 받는 EncoderLayer를 n_layer개 사용했다는 의미이다.

2) nn.Sequential(Embeddings(d_model, vocab_size)), deepcopy(pe))

◽ 임베딩층과 positional encoding 정보를 함께 인코더의 입력으로 넣어주기 위해 nn.Sequential로 연결한다. Positional encoding 층 차원은 d_model과 더해져야 하기 때문에 d_model 차원과 동일하다.

2. forward

1) x = self.src_embed(x)

◽ torch.Size([16(배치 크기), 152(문장 최대 길이)])를 갖는 입력 x는 임베딩 층을 거쳐 torch.Size([16, 152, 152])로 차원이 바뀐다.

2) x = x[:, -1, :]

◽ x의 차원을 (16, 152)로 변경한다. → torch.Size([16, 152])

3) x = self.linear(x)

◽ linear 레이어는 d_model 차원 벡터를 입력으로 받아서 num_class 수만큼 출력 벡터를 만든다. 이렇게 만들어진 벡터에 softmax 함수를 적용하면 아래와 같이 레이블별 확률이 나오게 되고, 그 중 확률이 최대인 레이블이 모델의 최종 예측 결과가 된다.

저작자표시 비영리 변경금지

'👩‍💻' 카테고리의 다른 글

[코드 리뷰] 노년층 대화 감성 분류 모델 구현 (2) : RNN (0)	2022.12.21
[코드 리뷰] 노년층 대화 감성 분류 모델 구현 (1) : CNN (0)	2022.12.13
[ART] attack_adversarial_patch_TensorFlowV2.ipynb 코드 분석 (0)	2022.01.19
[ART] attack_defence_imagenet.ipynb 코드 실습 (0)	2022.01.18
[ART] adversarial_training_mnist.ipynb 코드 분석 (0)	2022.01.12

현재글[코드 리뷰] 노년층 대화 감성 분류 모델 구현 (3): Transformer ①

nsbg 🌞

my life is nsbg

Today :
Yesterday :

nsbg 🌞