[머신러닝 교과서] Ch04 좋은 훈련 세트 만들기 : 데이터 전처리

Artificial Intelligence/Studying

[머신러닝 교과서] Ch04 좋은 훈련 세트 만들기 : 데이터 전처리

geum 2020. 11. 1. 13:53

4.1 누락된 데이터 다루기

4.1.1 테이블 형태의 데이터에서 누락된 값 식별

csv_data = \
    '''A,    B,    C,   D
       1.0,  2.0,  3.0, 4.0
       5.0,  6.0,     , 8.0
       10.0, 11.0, 12.0 '''

df = pd.read_csv(StringIO(csv_data))
df

Output

◽ DataFrame이 아주 클 경우 수동으로 누락 값을 찾는 것은 번거로움 → isnull method 사용

◽ isnull : 셀이 수치 값을 담고 있는지에 대한 불리언 값이 채워진 DataFrame 반환

# sum method 이용해 누락된 값의 개수 확인 가능
df.isnull().sum()

4.1.2 누락된 값이 있는 샘플(행)이나 특성(열) 제외

◽ 데이터셋에서 해당 샘플이나 특성을 아예 삭제하는 방식

◽ 제일 간단하지만 너무 많은 데이터를 삭제할 경우 안정적인 분석 불가능할 수 있음

# NaN : 누락된 값

# 1. 누락된 값이 있는 샘플이나 특성 제외
'''dropna는 편리한 매개변수 제공

dropna(how='all')
-> 모든 열이 NaN일 때 행 삭제

dropna(thresh=4)
-> 실수 값이 특정 값보다 작은 행 삭제

dropna(subset=['C'])
-> 특정 열에 NaN이 있는 행만 삭제

'''
df.dropna(axis=0)

◽ axis=0 : 행
◽ axis=1 : 열

4.1.3 누락된 값 대체 → 많이 사용되는 보간(Interpolation) 기법

# 2. 누락된 값 대체(여러 보간 기법 사용)

# from sklearn.Imputer import Imputer : 사이킷런 0.22 버전에서 삭제될 예정
from sklearn.impute import SimpleImputer
import numpy as np

# 누락된 값을 각 특성 열의 전체 평균으로 변경(가장 흔한 보간 기법)
imr = SimpleImputer(missing_values=np.nan, strategy='mean')
imr = imr.fit(df.values)

imputed_data = imr.transform(df.values)
imputed_data

Output

4.1.4 사이킷런 추정기 API 익히기

◽ Imputer 클래스 : 데이터 변환에 사용되는 사이킷런의 변환기 클래스

◽ 추정기 주요 메서드는 fit(훈련 데이터에서 모델 파라미터 학습), transform(학습한 파라미터로 데이터 변환)

◽ 변환하려는 데이터 배열은 모델 학습에 사용한 데이터 특성 개수와 같아야 함

4.2 범주형 데이터 다루기

4.2.1 순서가 있는 특성 vs 순서가 없는 특성

📊 범주형 데이터 : 순서가 있는 것과 없는 것 구분해야 함

4.2.2 순서 특성 매핑

◽ 학습 알고리즘이 순서 특성을 올바르게 인식하려면 범주형 문자열 값을 정수로 바꿔야 함

4.2.3 클래스 레이블 인코딩

# enumerate를 사용하여 클래스 레이블을 0부터 할당

import numpy as np
import pandas as pd

df = pd.DataFrame([
                  ['green', 'M', 10.1, 'class1'],
                  ['red', 'L', 13.5, 'class2'],
                  ['blue', 'XL', 15.3, 'class3']
                  ])

df.columns = ['color', 'size', 'price', 'classlabel']

class_mapping = {label:idx for idx, label in enumerate(np.unique(df['classlabel']))}

class_mapping

Output

# 매핑 딕셔너리를 사용하여 클래스 레이블 정수로 변환
df['classlabel'] = df['classlabel'].map(class_mapping)
df

Output

4.2.4 순서가 없는 특성에 원-핫 인코딩 적용

◽ 순서 없는 특성에 들어 있는 고유한 값마다 새로운 dummy 특성 생성

◽ 해당 값은 1, 해당하지 않는 값은 0 ex) 세 가지 color 특성 R, G, B가 있다고 가정할 때 R은 R=1, G=0, B=0으로 변환

◽ 원-핫 인코딩 된 데이터셋을 사용할 때는 다중 공선성 문제에 주의해야 함

다중 공선성❔ 회귀 분석에서 사용된 모형의 일부 설명 변수가 다른 설명 변수와 상관 정도가 높아 데이터 분석 시 부정적인 영향을 미치는 현상

◽ pandas get_dummies() 사용 시 원-핫 인코딩 더미 변수 생성 편리

→ 문자열 열만 변환하고 나머지 열은 그대로 둠

4.3 데이터셋을 훈련 셋 / 테스트 셋으로 나누기

cf. column rank deficient : 한 열이 다른 열에 의존적이거나 열 값이 모두 0인 경우

'''
사이킷런 model_section 모듈에 있는 train_test_split 함수 사용 시
데이터셋을 랜덤한 훈련 셋과 테스트 셋으로 나눌 수 O
'''
from sklearn.model_selection import train_test_split

X, y = df_wine.iloc[:, 1:].values, df_wine.iloc[:, 0].values

X_train, X_test, y_train, y_test,= \
        train_test_split(X, y,
                         test_size = 0.3,
                         random_state = 0,
                         stratify = y)

4.4 특성 스케일 맞추기

◽ 결정 트리, 랜덤 포레스트 : 특성 스케일 영향을 받지 않기 때문에 스케일 조정 신경 안 써도 되는 알고리즘

◽ 대부분의 최적화 알고리즘은 특성 스케일이 같을 때 성능이 훨씬 좋음

< 스케일 조정 방법 >

1) 정규화(normalization) : 특성 스케일을 [0, 1] 범위에 맞추는 작업, 최소-최대 스케일 변환의 특수 케이스

2) 표준화(standardization) : 특성 평균을 0에 맞추고 표준 편차를 1로 만들어 정규 분포와 같은 특징을 가지도록 함

⭐ 둘다 문맥에 따라서 의미 이해해야 함

4.5 유용한 특성 선택

◽ 과대적합(overfitting) : 모델 파라미터가 훈련 셋에 있는 특정 샘플들에 너무 가깝게 맞춰져 있다는 의미

→ 주어진 훈련 데이터에 비해 모델이 너무 복잡하기 때문에 발생

< 과대적합을 줄이는 방법 >

1) 더 많은 훈련 데이터 수집(불가능할 때가 많음)

2) 규제를 통한 복잡도 제한

3) 파라미터 개수가 적은 간단한 모델 선택

4) 데이터 차원 감소

4.5.1 모델 복잡도 제한을 위한 L1 규제와 L2 규제

◽ L1 규제 : 희소한 특성 벡터 생성, 대부분의 특성 가중치는 0

◽ L2 규제 : 개별 가중치 값을 제한하여 모델 복잡도 줄이는 방법

4.5.2 ~ 4.5.3 책 읽었음

4.5.4 순차 특성 선택 알고리즘

◽ 모델 복잡도 줄이고 과대적합 피하는 다른 방법 : 특성 선택을 통한 차원 축소(규제가 없는 모델에서 특히 유용)

< 차원 축소 기법 >

1) 특성 선택(feature selection) : 원본 특성에서 일부 선택

① 순차 특성 알고리즘

▫ greedy search algorithm

▫ 초기 d 차원의 특성 공간을 k<d인 k 차원의 특성 부분 공간으로 축소

② 순차 후진 선택(Sequential Backward Selection, SBS)

▫ 계산 효율성 향상을 위해 모델 성능을 가능한 적게 희생하면서 초기 특성의 부분 공간으로 차원 축소

▫ 새로운 특성의 부분 공간이 목표하는 특성 개수가 될 때까지 전체 특성에서 순차적으로 특성 제거

2) 특성 추출(feature extraction) : 일련의 특성에서 얻은 정보로 새로운 특성 생성 🔍 특성 추출은 5장에서 !

'Artificial Intelligence > Studying' 카테고리의 다른 글

Logistic regression (0)	2020.12.29
Gradient descent (0)	2020.11.14
Linear regression (0)	2020.11.14
[머신러닝 교과서] Ch03 내용 정리 (아직 수정 중) (0)	2020.09.29
[머신러닝 교과서] Ch02 객체지향 퍼셉트론 API 분석 (0)	2020.09.20

현재글[머신러닝 교과서] Ch04 좋은 훈련 세트 만들기 : 데이터 전처리

nsbg 🌞

my life is nsbg

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

nsbg 🌞