[DACON] 코드 분석 - MNIST : 숫자 이미지 분류

👩‍💻

[DACON] 코드 분석 - MNIST : 숫자 이미지 분류

geum 2021. 5. 25. 15:16

실습용 사이트로 선택한 데이콘에서 MNIST를 혼자 힘으로 해결해봐야지 하는 패기와 함께 제출한 답안의 결과다.

첫번째 시도 후 ?? 싶어서 두번째 파일을 제출했는데 10%도 안되는 정확도에 머리가 아찔-

하지만! 3일 동안 붙잡고 있던 결과 0.981까지 정확도를 올릴 수 있었고 행복한 마음으로 코드를 분석해보고자 한다.

처참한 정확도의 원인도 나름대로 열심히 분석할 예정이라 누군가에게는 유익한 글이 되기를 바라면서!

🔎 데이터 확인

① train.csv: 픽셀값과 이미지가 보여주는 숫자 값

② test.csv: 픽셀값

③ sample_submission.csv: 제출 파일의 예시

✨ 목표

test.csv의 픽셀값으로 각 인덱스의 레이블(숫자) 예측하기

👀 코드 분석

import tensorflow as tf
import numpy as np
import pandas as pd
#import matplotlib.pyplot as plt

from tensorflow import keras
#from sklearn.model_selection import train_test_split

주석 처리한 모듈은 필요에 따라 사용하면 되는 부분이다.

from google.colab import drive
drive.mount('/gdrive', force_remount=True)

코랩 폴더에 데이터 파일을 올려놨더니 런타임 연결이 유지됐을 때만 파일을 사용할 수 있길래 드라이브에 올려놓고 계속 쓰려고 세팅해줬다.

train = pd.read_csv("/gdrive/My Drive/train.csv").iloc[:, 1:]
test = pd.read_csv("/gdrive/My Drive/test.csv").iloc[:, 1:]
submission = pd.read_csv("/gdrive/My Drive/sample_submission.csv")

데이터 읽어오기

print(train.shape)
print(test.shape)

# (60000, 786): 60000개의 행, 786개의 열
# (10000, 785): 10000개의 행, 785개의 열

데이터 전처리 과정 전 데이터의 구성 형태를 확인해봤다.

x_train = train.drop(["label"], axis=1)
x_test = test
y = train["label"]

train 데이터는 위에서 확인한 것처럼 열이 786개이지만 모든 열을 사용할 것은 아니기 때문에 예측해야 할 값인 label 열은 삭제하고, test 데이터는 이미 픽셀 값만 저장되어 있기 때문에 추가적인 가공 없이 그대로 사용한다.

# 개인적으로 가장 헤맸던 부분

x_train = x_train[0:50000]
x_val = x_train[50000:60000]

y_train = y[0:50000].to_numpy()
y_val = y[50000:60000].to_numpy()

학습 데이터는 50000개, 검증 데이터는 10000개를 사용하겠다는 의미이다.

reshape나 몇몇 함수들이 데이터프레임 형태에서는 사용할 수 없기 때문에 to_numpy 함수를 이용해 numpy 형태로 바꿔준다. to_numpy 함수를 쓰지 않아도 코드가 잘 돌아간다면 굳이 쓸 필요는 없는데 나는 'ndarray.~는 함수명 요소가 없다'는 에러가 떠서 바꿔줬다.

# 정규화
x_train = x_train.astype('float32') / 255
x_val = x_val.astype('float32') / 255
x_test = x_test.astype('float32') / 255

csv 파일에 저장된 모든 데이터들은 0~255의 색상값 형태로 저장되어 있는데 학습을 위해 0~1 사이의 값으로 정규화시켜준다.

y_train = tf.keras.utils.to_categorical(y_train, num_classes=10)
y_val = tf.keras.utils.to_categorical(y_val, num_classes=10)

y_train, y_val 값은 to_categorical 함수를 이용해 one-hot 인코딩 작업을 해준다. num_classes가 10인 이유는 숫자 레이블이 0~9로 총 10개이기 때문이다.

model = keras.Sequential([ 
    keras.layers.Flatten(input_shape=(28, 28)),
    keras.layers.Dense(128, activation='relu'),
    keras.layers.Dense(128, activation='relu'),
    keras.layers.Dense(10, activation='softmax')
])

모델을 만드는 단계로 굉장히 간단한 선형 모델을 만들었다. Flatten 함수를 이용해서 입력이 28*28인 이미지를 1차원 형태로 만들어주고 Dense를 이용해 입출력을 연결해주는데 이 때 Dense layer의 수는 자유롭게, activation은 꼭 relu와 softmax를 사용할 필요는 없다.

model.compile(optimizer='adam',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

옵티마이저와 손실 함수, 평가 지표에 대해 지정해준다.

model.fit(x_train, y_train, epochs=10)

epoch 10번으로 학습 시작

y_pred = np.argmax(model.predict(x_test), axis=1)

test.csv의 값으로 숫자 레이블을 예측하기 위해 predict 함수의 input으로 x_test를 넣어준다.

우리가 필요로 하는 값은 0~9 인덱스에 해당하는 값이 아니라 인덱스 그 자체이기 때문에 최대값의 인덱스를 반환하는 np.argmax 함수를 사용했다.

# 예측값을 submisson 파일의 label 열에 할당
submission['label'] = y_pred

# 최종 제출 파일 생성
submission.to_csv("/content/submission.csv", index=False)

😥 어려웠던 점

1. train, test, val 데이터 생성

케라스에서 제공해주는 mnist 데이터는 load_data 함수를 이용하면 알아서 x_train, x_test / y_train, y_test 값을 가져오는데 csv 파일에서 직접 데이터를 만들어줘야 하는 부분이 너무 어려웠다. 이론 공부를 하면서 봤던 강의들이나 구글링 결과로 나온 글들도 케라스 제공 mnist 데이터를 쓰는 경우가 많았기 때문에 train 데이터는 50000개, val 데이터는 10000개로 나눠줘야 하는 부분에서 감을 아예 잡지 못했다.

2. y 관련 데이터에 to_categorical() 함수 적용

to_categorical 함수가 원-핫 인코딩을 알아서 해주는구나 정도만 알고 있는 상태에서 써보려고 하니까 왜 쓰는 거고 언제 써야하는지를 확실하게 몰라서 여긴가? 싶은 곳에는 다 넣었던 것 같다.

3. np.argmax 사용

여덟번째 시도까지는 np.argmax를 사용하지 않았다. 각 픽셀 값을 정규화한다고 255로 나눈 몫이 배열에 들어가니까 찾아야 하는 인덱스 값과 상관없는 값만 계속 y_pred에 저장이 됐던 거였다.

👍 결과 및 개선

위의 코드로 제출한 결과는

0.0065에서 0.9778로 장족의 발전! 좀 더 정확도를 높여보고 싶어서 Batch 정규화와 드롭아웃을 추가해보았다.

1) Batch 정규화 & 드롭아웃

model = keras.Sequential([ 
    keras.layers.Flatten(input_shape=(28, 28)),
    keras.layers.Dense(128, activation='relu'),
    keras.BatchNormalization(),
    keras.layers.Dense(128, activation='relu'),
    keras.layers.Dropout(0.5),
    keras.layers.Dense(10, activation='softmax')
])

정확도는 0.981이었다.

2) 드롭아웃만 사용

model = keras.Sequential([ 
    keras.layers.Flatten(input_shape=(28, 28)),
    keras.layers.Dense(128, activation='relu'),
    keras.layers.Dropout(0.5),
    keras.layers.Dense(128, activation='relu'),
    keras.layers.Dropout(0.5),
    keras.layers.Dense(10, activation='softmax')
])

정확도는 0.9718이었다.

배치 정규화와 드롭아웃을 함께 사용하는 게 학습에 좋다더라 하는 것만 공부하다가 직접 해보니까 정말 그랬다. 공부한 내용을 눈으로 확인할 수 있었던 아주 소중한 경험이었고 MNIST는 이렇게 마무리-!

저작자표시 (새창열림)

'👩‍💻' 카테고리의 다른 글

[ART] adversarial_training_mnist.ipynb 코드 분석 (0)	2022.01.12
[ART] ART for TensorFlow v2 - Callable 코드 분석 (0)	2022.01.03
[ART] ART for TensorFlow v2 - Keras API 코드 분석 (0)	2021.12.31
[kaggle] Intermediate Machine Learning (0)	2021.04.28
[kaggle] Intro to Machine Learning (0)	2021.04.26

현재글[DACON] 코드 분석 - MNIST : 숫자 이미지 분류

nsbg 🌞

my life is nsbg

Today :
Yesterday :

nsbg 🌞