Machine Learning (6) μΈλ€μΌν 리μ€νΈν [Machine Learning] Poisson Regression β ν¬μμ‘ νκ· (Poisson Regression) π‘ ν¬μμ‘ λΆν¬ (Poisson distributuon) - μΌμ ν μκ° λλ κ³΅κ° λ΄μμ λ°μνλ, μ¬κ±΄μ λ°μ νμμ λ°λ₯Έ νλ₯ μ ꡬν λ μ¬μ© - λ¨μ μκ° μμ μ΄λ€ μ¬κ±΄μ΄ λͺ λ² λ°μν κ²μΈμ§ νννλ μ΄μ° νλ₯ λΆν¬ β λ (λλ€) = μ ν΄μ§ μκ° μμ μ΄λ€ μ¬κ±΄μ΄ μΌμ΄λ νμμ λν κΈ°λκ° β e = μμκ° (2.71828) π‘ ν¬μμ‘ νκ· (Poisson Regression) - μ’ μλ³μ(dependent variable)κ° ν¬μμ‘ λΆν¬λ₯Ό λ°λ₯Έλ€κ³ κ°μ νκ³ , μΌλ°ν μ νλͺ¨λΈμ νκ·λΆμ μν - μ’ μλ³μκ° κ°μ°μλ£(count data)μΌ λ μ£Όλ‘ μ¬μ© - ν¬μμ‘ λΆν¬μ νΉμ±μ νκ· κ³Ό λΆμ°μ΄ κ°μμΌ νλ€λ μ μ½μ‘°κ±΄ μμ - But, νμ€ λ°.. [Machine Learning] XGBoost (Extreme Gradient Boosting) π Boosting - μ¬λ¬ κ°μ μ½ν Decision Treeλ₯Ό μ‘°ν©ν΄μ μ¬μ©νλ Ensemble κΈ°λ² μ€ νλ - μ½ν μμΈ‘ λͺ¨νλ€μ νμ΅ μλ¬μ κ°μ€μΉλ₯Ό λκ³ , μμ°¨μ μΌλ‘ λ€μ νμ΅ λͺ¨λΈμ λ°μνμ¬ κ°ν μμΈ‘λͺ¨νμ λ§λλ κ² πGradient Boosting - κ²½μ¬ νκ°λ²(gradient descent)μ μ¬μ©ν΄ μμ¬ μ€μ°¨λ₯Ό μ΅μννλ κ² - μλͺ»λ μμΈ‘μ κΈ°λ°μΌλ‘ μ‘°μ νμ¬ μλ‘μ΄ νΈλ¦¬λ₯Ό λ§λ¦ (λλ€ ν¬λ μ€νΈ μκ³ λ¦¬μ¦μ κ²°μ μ 보μνλ λ§€λ ₯μ μΈ λμ) - μλ‘μ΄ νΈλ¦¬λ μ¬λ°λ₯΄κ² μμΈ‘λ κ°μλ μν₯μ λ°μ§ μλλ€ - μ€μ°¨μλ§ μ΄μ μ λ§μΆλ ML μκ³ λ¦¬μ¦ λ§λλ €λ©΄ μ νν μ΅μ’ μμΈ‘μ λ§λ€κΈ° μν΄ μ€μ°¨λ₯Ό κ³μ°νλ λ°©λ² νμ λ°λΌμ, λͺ¨λΈμ μμΈ‘κ³Ό μ€μ κ° μ¬μ΄μ μ°¨μ΄μΈ μμ°¨(residual)λ₯Ό νμ© -.. [Machine learning] scikit-learn pipeline 곡λΆνκΈ°!! [Machine Learning] Data Leakage β Data Leakage λ? : Train Data μΈμ μ λ³΄κ° λͺ¨λΈμ λ§λλλ° μ¬μ©λ λ λ°μ (μ°λ¦¬κ° λͺ¨λ₯Έλ€κ³ κ°μ λ "μ λ³΄κ° λμ€"λ κ²½μ°λ₯Ό μλ―Έ) 곡λͺ¨μ μ μ°Έκ°ν λ λ°λ λ°μ΄ν° : train data (μ΄λ―Έ μκ³ μλ μ 보) 곡λͺ¨μ μ μ μΆνλλ° μ¬μ©νλ λ°μ΄ν° : test data (λͺ¨λ₯΄λ μ 보) π λͺ¨λ₯΄λ μ λ³΄μΈ test dataμ ν΅κ³μΉκ° test data μ¬μ΄μμ λ°μλ μ μμ train data λ₯Ό κ°μ§κ³ test data λ₯Ό μμΈ‘νλ κ²μ΄ λͺ©ν π Data Leakage : Test Dataμ κ°μλ λΆν¬ λ±μ΄ λ³νν λλ§λ€ Train / Test λ₯Ό μ§νν λ μν₯μ λΌμΉλ μμ β Data Leakage μ λ¬Έμ μ : μμ μ μμΈ‘ λͺ¨λΈμ κ°λ°ν λ λ¬Έμ μ λ°μ π μ€μ λ‘ μΈλͺ¨μ.. [Machine Learning] Hyperparameter Tuning β Hyperparameter Tuning - λͺ©μ : νλ ¨ νκ° / κ²μ¦ νκ° μ¬μ΄μ μ°¨μ΄κ° μ΅μκ° λλλ‘ λ§λλ κ² (Overfitting λ°©μ§) π Hyperparameter μ μκ° λ무 λ§κΈ° λλ¬Έμ, μ΅μ μ parameter λ₯Ό μ°Ύμμ£Όλ λꡬλ€μ μ¨μ μ°ΎμλΈλ€ β 1) Grid Search : λ체 λͺ¨λΈ ꡬμ±(alternative model configrations) μ νμνλ μΌλ°μ μΈ μ κ·Ό λ°©μμ 그리λ κ²μ λ°©λ²μ μ¬μ© π λͺ¨λΈ νμ΄νΌ νλΌλ―Έν°μ λ£μ μ μλ κ°λ€μ μμ°¨μ μΌλ‘ μ λ ₯ν λ€μ, κ°μ₯ λμ μ±λ₯μ 보μ΄λ νμ΄νΌ νλΌλ―Έν° κ°μ μ°Ύλ νμ λ°©λ² π κ΄μ¬μλ λ§€κ°λ³μλ€μ λμμΌλ‘ κ°λ₯ν λͺ¨λ μ‘°ν©μ μλνμ¬ μ΅μ μ λ§€κ°λ³μλ₯Ό μ°Ύλ λ°©λ²μΌλ‘ λ§€κ°λ³μλ₯Ό νλνμ¬ μΌλ°ν μ±λ₯μ κ°μ β .. [Machine Learning] Feature Engineering β Google colab μ°λ / Data load ## GOOGLE COLAB μ°λ from google.colab import drive drive.mount('/content/drive') # Mounted at /content/drive ## DATA LOAD import pandas as pd print('pandas version:', pd.__version__) wine = pd.read_csv('https://bit.ly/wine_csv_data') wine.head() alcoholsugarpHclass 09.41.93.510.0 19.82.63.200.0 29.82.33.260.0 39.81.93.160.0 49.41.93.510.0 π numpy - μμΉ μ°μ° # numpy - μμΉ.. μ΄μ 1 λ€μ