[Machine Learning] Feature Engineering

✋ Google colab 연동 / Data load

## GOOGLE COLAB 연동
from google.colab import drive
drive.mount('/content/drive')

# Mounted at /content/drive

## DATA LOAD
import pandas as pd
print('pandas version:', pd.__version__)

wine = pd.read_csv('https://bit.ly/wine_csv_data')
wine.head()

alcohol	sugar	pH	class
0	9.4	1.9	3.51	0.0
1	9.8	2.6	3.20	0.0
2	9.8	2.3	3.26	0.0
3	9.8	1.9	3.16	0.0
4	9.4	1.9	3.51	0.0

👀 numpy - 수치 연산

# numpy - 수치 연산 (행렬로 변환)
import numpy as np
data = wine[['alcohol', 'sugar', 'pH']].to_numpy()
target = wine['class'].to_numpy()

data.shape, target.shape

# ((6497, 3), (6497,))

✋ DATASET 분리

## 데이터셋 분리
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    data, target, test_size = 0.2, random_state=42
)

X_train.shape, X_test.shape, y_train.shape, y_test.shape

# ((5197, 3), (1300, 3), (5197,), (1300,))

👀 Feature Engineering

▷ 수치 데이터 정규화

- 수치 데이터마다 단위가 다 다르다

ex. 키, 몸무게 - 180cm, 1.8m, 180kg => 잘못된 정보 학습할 가능성 있음 (정규화 필요)

- Min-Max Scaler : 0 - 1 사이로 분포를 재정립

- Standerd Scaler : 평균은 0, 분산은 1로 잡고 축소

- 정규화를 통해 수치 변화 시, 원래의 값 성질을 잃어버리고 달라지더라도 데이터의 순서는 변동없음(★★★)

▷ 기본 원칙 (★★★)

- train, test data 는 분리되어야 한다

- 내가 짠 코드에 train, test data 가 섞이지는 않았는지 의심한다

- Data Leakage 에서 벗어나는 방향으로 고민한다

✋ Train Data Scaling

# train data scaling
from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
ss.fit(X_train)

## train data 학습하여 X_train / X_test에 적용
trained_scaled = ss.transform(X_train)
test_scaled = ss.transform(X_test)

trained_scaled.shape, test_scaled.shape

# ((5197, 3), (1300, 3))

## 독립변수 만들어지는 것 확인
X_train[0], trained_scaled[0]
# (array([10.5 ,  7.7 ,  3.19]), array([ 0.01376574,  0.4646116 , -0.16888369]))

👉 변환된 값을 적용한다는 의미 (train_scaled)

👉 train_scaled 적용하여 새로운 test dataset으로 바꾼 후 predict

✋ Modeling

# 독립변수 만든 이후 모델링 작업
from sklearn.tree import DecisionTreeClassifier
dt = DecisionTreeClassifier(random_state=42)
dt.fit(train_scaled, y_train)

print(dt.score(train_scaled, y_train))  # 훈련 평가   99.69 %
print(dt.score(test_scaled, y_test))    # 검증 평가   85.92 %

# train - test 둘 사이에 차이가 많이 나기때문에, overfitting 이 일어났다고 판단한다
# train - test 사이의 차이를 줄여주는 것이 중요!!
# overfitting 이 일어나지 않도록

# 이후에 파생변수 만드는 싸움

👀 Decision Tree

# 결정트리 결과값
# hyperparameter 설정 없이 전부 돌릴 때
# 모든 조건에 맞게, train data에 최적화 되도록 (오래 걸림)
from sklearn.tree import plot_tree
import matplotlib.pyplot as plt

plt.figure()
plot_tree(dt)
plt.show()

👀 Max_Depth Adjustment

- max_depth 가 작을수록 정확도는 떨어짐
👉 과소적합이 일어나게 된다 (훈련 < 검증)

# max_depth 조정
plt.figure(figsize=(10,7))
plot_tree(dt, max_depth=1, filled=True, feature_names=['alcohol', 'sugar', 'pH'])
plt.show()

# max_depth 조정
plt.figure(figsize=(10,7))
plot_tree(dt, max_depth=2, filled=True, feature_names=['alcohol', 'sugar', 'pH'])
plt.show()

## 좋은 모델이 되도록 max_depth 값을 조정하여 찾아냄
from sklearn.tree import DecisionTreeClassifier
dt = DecisionTreeClassifier(max_depth=1, random_state=42)
dt.fit(train_scaled, y_train)

print(dt.score(train_scaled, y_train))  # 훈련 평가   75.3 %
print(dt.score(test_scaled, y_test))    # 검증 평가   73.7 %

plt.figure(figsize=(10,7))
plot_tree(dt, max_depth=3, filled=True, feature_names=['alcohol', 'sugar', 'pH'])
plt.show()

# 0.7579372715027901
# 0.7376923076923076

max_depth = 1 → train : 75.3 %, test : 73.7 %

from sklearn.tree import DecisionTreeClassifier
dt = DecisionTreeClassifier(max_depth=3, random_state=42)
dt.fit(train_scaled, y_train)

print(dt.score(train_scaled, y_train))  # 훈련 평가   84.5 %
print(dt.score(test_scaled, y_test))    # 검증 평가   84.1 %

plt.figure(figsize=(10,7))
plot_tree(dt, max_depth=3, filled=True, feature_names=['alcohol', 'sugar', 'pH'])
plt.show()

# 0.8454877814123533
# 0.8415384615384616

👉 Overfitting 이 일어나지 않았음을 알 수 있음

저작자표시 변경금지 (새창열림)

'Machine Learning' 카테고리의 다른 글

[Machine Learning] Poisson Regression (0)	2023.04.26
[Machine Learning] XGBoost (Extreme Gradient Boosting) (0)	2023.04.26
[Machine learning] scikit-learn pipeline (0)	2023.04.21
[Machine Learning] Data Leakage (0)	2023.04.21
[Machine Learning] Hyperparameter Tuning (0)	2023.04.21

🖐 열정이 무한한 개발자

[Machine Learning] Feature Engineering

✋ Google colab 연동 / Data load

👀 numpy - 수치 연산

✋ DATASET 분리

👀 Feature Engineering

✋ Train Data Scaling

✋ Modeling

👀 Decision Tree

👀 Max_Depth Adjustment

'Machine Learning' 카테고리의 다른 글

티스토리툴바

[Machine Learning] Feature Engineering

✋ Google colab 연동 / Data load

👀 numpy - 수치 연산

✋ DATASET 분리

👀 Feature Engineering

✋ Train Data Scaling

✋ Modeling

👀 Decision Tree

👀 Max_Depth Adjustment

'Machine Learning' 카테고리의 다른 글

'Machine Learning' Related Articles

티스토리툴바