β Data Leakage λ?
: Train Data μΈμ μ λ³΄κ° λͺ¨λΈμ λ§λλλ° μ¬μ©λ λ λ°μ
(μ°λ¦¬κ° λͺ¨λ₯Έλ€κ³ κ°μ λ "μ λ³΄κ° λμ€"λ κ²½μ°λ₯Ό μλ―Έ)
곡λͺ¨μ μ μ°Έκ°ν λ λ°λ λ°μ΄ν° : train data (μ΄λ―Έ μκ³ μλ μ 보)
곡λͺ¨μ μ μ μΆνλλ° μ¬μ©νλ λ°μ΄ν° : test data (λͺ¨λ₯΄λ μ 보)
π λͺ¨λ₯΄λ μ λ³΄μΈ test dataμ ν΅κ³μΉκ° test data μ¬μ΄μμ λ°μλ μ μμ
train data λ₯Ό κ°μ§κ³ test data λ₯Ό μμΈ‘νλ κ²μ΄ λͺ©ν
π Data Leakage : Test Dataμ κ°μλ λΆν¬ λ±μ΄ λ³νν λλ§λ€ Train / Test λ₯Ό μ§νν λ μν₯μ λΌμΉλ μμ
β Data Leakage μ λ¬Έμ μ
: μμ μ μμΈ‘ λͺ¨λΈμ κ°λ°ν λ λ¬Έμ μ λ°μ
π μ€μ λ‘ μΈλͺ¨μκ³ μμ°μ± μλ μ§λμΉκ² λκ΄μ μΈ λͺ¨λΈμ λ§λ€μ΄ λΌ κ°λ₯μ± λμ (Overfitting λ°μ)
β Data Leakage κ° λλ μμλ€
1. Test Data λ ΈμΆ
: μ μ μλ μ λ³΄κ° μμΈ‘μ λ°μλμμ λ λνλλ λ¬Έμ
ex. μκ°, μμ μ κ°λ μ΄ λμ λλ κ²½μ°
- 1μκ° λ¨μλ‘ κΈ°λ‘λ train, test dataμ "μΌ νκ· μ¨λ"λΌλ Featureλ₯Ό λ§λ¦
- But, Test dataλ "μκ°"μ κ°λ μ κ°μ§κ³ "μ°λμ±"μ κ°μ§κ³ λ±μ₯νκΈ° λλ¬Έμ κΈ°μ΄ μ μ λΆν° μλͺ»λ¨
1μκ° λ€μ μ¨λ = μ μ μλ data π μΌ νκ· μ¨λ? μ μ μμ
2. Train-Test ν΅ν©ν΄μ λ¬Έμ λ°μ
: λ―Έλμ λ°μ΄ν° (Test Data) λ₯Ό μ μ μλλ° νμ¬ μμ μμ ν¨κ» ν΅κ³λμ λ°μν λ
3. Target κ° leakage
: κ²°κ³Ό κ°μ΄ νλμ νμ λ³μλ‘ ν¨κ» νμ΅ λλ κ²½μ°
β Data Leakage μ μμ
1. Kaggle - Bike sharing demand data
- μμ±ν΄ DCμ Capital Bikeshare νλ‘κ·Έλ¨μμ μ¬μ©ν μμ κ±° λμ¬ μμλμ μΌλ§λ μ μμΈ‘νλμ§ κ²¨λ£¨λ λν
- data sets : λ μ§/μκ°λ³ μμΌ, ν΄μΌμ¬λΆ, μ¨λ, μ΅λ λ±μ λ μ¨μ 보, νμ/λΉνμ μ¬λΆμ λ°λ₯Έ λμ¬λ μ 보
[ Data Fields ]
datetime - hourly date + timestamp
season - 1 = spring, 2 = summer, 3 = fall, 4 = winter
holiday - whether the day is considered a holiday
workingday - whether the day is neither a weekend nor holiday
weather - 1: Clear, Few clouds, Partly cloudy, Partly cloudy
2: Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist
3: Light Snow, Light Rain + Thunderstorm + Scattered clouds, Light Rain + Scattered clouds
4: Heavy Rain + Ice Pallets + Thunderstorm + Mist, Snow + Fog
temp - temperature in Celsiusatemp - "feels like" temperature in Celsius
humidity - relative humiditywindspeed - wind speed
casual - number of non-registered user rentals initiated
registered - number of registered user rentals initiated
count - number of total rentals
- λͺ©μ : μκ°λ³ μμ κ±°μ μ΄ λμ¬λ(count) ꡬνκΈ°
π casual, registered λ λ³μ μ€λͺ
casual - λΉνμμ μμ κ±° λμ¬λ
registered - νμμ μμ κ±° λμ¬λ
π casual + registered = count
π μ΄λ₯Ό ν΅ν΄ λΉνμ/νμμ μμ κ±° λμ¬λ(casual/registered)μ λ 립λ³μλ‘ μ¬μ©νλ©΄
Train Data μμ μ’μ κ²°κ³Όκ° λμ¬ μ λ°μ μμ
But, μμΈ‘ λͺ¨λΈμ νμ©νκ³ μ νλ μμ μλ κ°μ λ£μ μ μμ΄μ λ¬Έμ κ° λ°μ
2. Confirmed COVID19 Prediction data
- λ€μκ³Ό κ°μ κ°μΈμ λ³΄κ° μ‘΄μ¬ν λ, μ½λ‘λ νμ§μ λ°μ μ μ΄ μλμ§ μ¬λΆλ₯Ό μμΈ‘νλ€κ³ κ°μ
μ΄λ¦, μ±λ³, λμ΄, κ±°μ£Όμ§, μ§μ
, λ°±μ μ μ’
μ¬λΆ, μ½λ‘λ κ²μ§ν€νΈ μ¬μ©μ¬λΆ, μκ°κ²©λ¦¬κΈ°κ°, μ½λ‘λνμ§μ μ§μκΈ μλ Ήμ¬λΆ
π 'μ½λ‘λνμ§μ μ§μκΈ'μ νμ§μ λ°μ μ¬λλ§μ΄ λ°μ μ μλ κ°
λ°λΌμ, μ΄ κ°μ feature λ‘ μ¬μ©νλ©΄ λͺ¨λΈ μμΈ‘λλ λΉμ°ν μ¬λΌκ° μ λ°μ μμ
π’ νμ§μ μ€μ μ§μκΈμ λ°μ§ μμ μ¬λμ΄ μ‘΄μ¬ν μ μκ² μ§λ§, νΌμ²κ°μ μΈκ³Όκ΄κ³λ₯Ό κ³ λ―Όν΄λ³΄μμ λ
μ΄ κ°μ μ¬μ©νλ κ²μ λ°λμ§νμ§ μμ
β Preventation of Data Leakage
- νμ΅ μ§ν μ νμ΅μ© λ°μ΄ν°μ ν μ€νΈμ© λ°μ΄ν°, κ²μ¦μ© λ°μ΄ν°λ‘ λΆν μ μ§ν
- μ΄νμ κ°κ°μ λν΄μ μ μ²λ¦¬λ₯Ό μννλ κ²
π λ°μ΄ν° λΆν μ μ§ννλ μ΄μ
: λ°μ΄ν°λ₯Ό λ©μ΄λ¦¬λ‘ ꡬλΆμ§μ΄μ λ©μ΄λ¦¬λ§λ€ λͺ©μ μ λ€λ₯΄κ² νμ©νλ €κ³
λ°μ΄ν° λΆν μ ν
π νμ΅ λͺ¨λΈμ μ€μ λ‘ νμ©ν μμ μ μ΄λ€ ννμ λ°μ΄ν°κ° λ°μν μ§ λͺ¨λ₯΄κΈ° λλ¬Έμ,
μΌλΆλ₯Ό λ΄μ΄μ 'μ΄κ±΄ μλκ±°λ€' μκ°νκ³ νμ΅μ μν¨λ€
X = scaler.fit_transform(X)
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.3, random_state=42)
π λ¬Έμ μ : κ²μ¦μ© λ°μ΄ν°μ μ λ³΄κ° νμ΅μ© λ°μ΄ν°μ μ€λ©°λ€ μ μμ (leakage)
π train data = 0 ~ 10
validataion data = 7 ~ 13
μμ μ½λμμ μ¬μ©ν scalerκ° MinMaxScalerλΌλ©΄ λ°μ΄ν° λΆν μ νκ³ λ³νμ νλλ,
λΆν μ΄νμ λ³νμ νλλμ λ°λΌ κ²°κ³Όκ° λ¬λΌμ§λ€
π λ°μ΄ν° λΆν μ ν μ΄νμ κ°κ°μ λν΄μ μ μ²λ¦¬λ₯Ό μνν΄μΌ λ°μ΄ν° λμλ₯Ό μλ°©ν μ μμ
κ΅μ°¨ κ²μ¦ λ±μ μμ μ μννλ©΄μ λ€μν κ²½μ°μ λν΄ μΆ©λΆν νμ΅νλ κΈ°λ²μ νμ©
'Machine Learning' μΉ΄ν κ³ λ¦¬μ λ€λ₯Έ κΈ
[Machine Learning] Poisson Regression (0) | 2023.04.26 |
---|---|
[Machine Learning] XGBoost (Extreme Gradient Boosting) (0) | 2023.04.26 |
[Machine learning] scikit-learn pipeline (0) | 2023.04.21 |
[Machine Learning] Hyperparameter Tuning (0) | 2023.04.21 |
[Machine Learning] Feature Engineering (0) | 2023.04.21 |