μ 체 κΈ (34) μΈλ€μΌν 리μ€νΈν [Machine learning] scikit-learn pipeline 곡λΆνκΈ°!! [Machine Learning] Data Leakage β Data Leakage λ? : Train Data μΈμ μ λ³΄κ° λͺ¨λΈμ λ§λλλ° μ¬μ©λ λ λ°μ (μ°λ¦¬κ° λͺ¨λ₯Έλ€κ³ κ°μ λ "μ λ³΄κ° λμ€"λ κ²½μ°λ₯Ό μλ―Έ) 곡λͺ¨μ μ μ°Έκ°ν λ λ°λ λ°μ΄ν° : train data (μ΄λ―Έ μκ³ μλ μ 보) 곡λͺ¨μ μ μ μΆνλλ° μ¬μ©νλ λ°μ΄ν° : test data (λͺ¨λ₯΄λ μ 보) π λͺ¨λ₯΄λ μ λ³΄μΈ test dataμ ν΅κ³μΉκ° test data μ¬μ΄μμ λ°μλ μ μμ train data λ₯Ό κ°μ§κ³ test data λ₯Ό μμΈ‘νλ κ²μ΄ λͺ©ν π Data Leakage : Test Dataμ κ°μλ λΆν¬ λ±μ΄ λ³νν λλ§λ€ Train / Test λ₯Ό μ§νν λ μν₯μ λΌμΉλ μμ β Data Leakage μ λ¬Έμ μ : μμ μ μμΈ‘ λͺ¨λΈμ κ°λ°ν λ λ¬Έμ μ λ°μ π μ€μ λ‘ μΈλͺ¨μ.. [Machine Learning] Hyperparameter Tuning β Hyperparameter Tuning - λͺ©μ : νλ ¨ νκ° / κ²μ¦ νκ° μ¬μ΄μ μ°¨μ΄κ° μ΅μκ° λλλ‘ λ§λλ κ² (Overfitting λ°©μ§) π Hyperparameter μ μκ° λ무 λ§κΈ° λλ¬Έμ, μ΅μ μ parameter λ₯Ό μ°Ύμμ£Όλ λꡬλ€μ μ¨μ μ°ΎμλΈλ€ β 1) Grid Search : λ체 λͺ¨λΈ ꡬμ±(alternative model configrations) μ νμνλ μΌλ°μ μΈ μ κ·Ό λ°©μμ 그리λ κ²μ λ°©λ²μ μ¬μ© π λͺ¨λΈ νμ΄νΌ νλΌλ―Έν°μ λ£μ μ μλ κ°λ€μ μμ°¨μ μΌλ‘ μ λ ₯ν λ€μ, κ°μ₯ λμ μ±λ₯μ 보μ΄λ νμ΄νΌ νλΌλ―Έν° κ°μ μ°Ύλ νμ λ°©λ² π κ΄μ¬μλ λ§€κ°λ³μλ€μ λμμΌλ‘ κ°λ₯ν λͺ¨λ μ‘°ν©μ μλνμ¬ μ΅μ μ λ§€κ°λ³μλ₯Ό μ°Ύλ λ°©λ²μΌλ‘ λ§€κ°λ³μλ₯Ό νλνμ¬ μΌλ°ν μ±λ₯μ κ°μ β .. [Machine Learning] Feature Engineering β Google colab μ°λ / Data load ## GOOGLE COLAB μ°λ from google.colab import drive drive.mount('/content/drive') # Mounted at /content/drive ## DATA LOAD import pandas as pd print('pandas version:', pd.__version__) wine = pd.read_csv('https://bit.ly/wine_csv_data') wine.head() alcoholsugarpHclass 09.41.93.510.0 19.82.63.200.0 29.82.33.260.0 39.81.93.160.0 49.41.93.510.0 π numpy - μμΉ μ°μ° # numpy - μμΉ.. [μ 보μ²λ¦¬κΈ°μ¬] μ€κΈ° _ μΆμ μμ κ°λ μ 체 μμ μ 리 4 β 30. μ¬μ©μ μΈν°νμ΄μ€ (UI, User Interface) : μ¬μ©μμ μμ€ν κ° μνΈμμ©μ΄ μννκ² μ΄λ£¨μ΄μ§λλ‘ λμμ£Όλ μ₯μΉλ μννΈμ¨μ΄λ₯Ό μλ―Έ ex. μ€λ§νΈν° ν°μΉ νλ©΄ π μ¬μ©μ κ²½ν (UX, User Experience) : μ νκ³Ό μμ€ν , μλΉμ€ λ±μ μ¬μ©μκ° μ§/κ°μ μ μΌλ‘ κ²½ννλ©΄μ λλΌκ³ μκ°νλ μ΄μ²΄μ κ²½νμ μλ―Έ β 31. μ¬μ©μ μΈν°νμ΄μ€ (UI) μ κΈ°λ³Έ μμΉ π μ§κ΄μ± / μ ν¨μ± / νμ΅μ± / μ μ°μ± - μ§κ΄μ± : λꡬλ μ½κ² μ΄ν΄νκ³ μ¬μ©ν μ μμ΄μΌ νλ€. - μ ν¨μ± : μ¬μ©μμ λͺ©μ μ μ ννκ³ μλ²½νκ² λ¬μ±ν΄μΌ νλ€. - νμ΅μ± : λꡬλ μ½κ² λ°°μ°κ³ μ΅ν μ μμ΄μΌ νλ€. - μ μ°μ± : μ¬μ©μμ μꡬμ¬νμ μ΅λν μμ©νκ³ μ€μλ₯Ό μ΅μνν΄μΌ νλ€. π’ UI (User .. [μ 보μ²λ¦¬κΈ°μ¬] μ€κΈ° _ μΆμ μμ κ°λ μ 체 μμ μ 리 3 * 2020λ 1~4ν κΈ°μΆλ¬Έμ λ° νκΈ° λ¬Έμ κΈ°λ°μΌλ‘ μΆμ μμ κ°λ μ 리ν λ΄μ©μ λλ€. β 21. XML (eXtensible Markup Language) : μΉλΈλΌμ°μ κ° HTML λ¬Έλ²μ΄ νΈνλμ§ μλ λ¬Έμ μ SGMLμ 볡μ‘ν¨μ ν΄κ²°νκΈ° μν΄ κ°λ°λ λ€λͺ©μ λ§ν¬μ μΈμ΄ π’ λ€μ μ€λͺ μ λΆν©νλ κ²μ΄ 무μμΈμ§ μλ¬Έ μ½μ΄λ‘ μ°μμ€. HTMLμ λ¨μ μ 보μν μΈν°λ· μΈμ΄λ‘, SGMLμ 볡μ‘ν λ¨μ μ κ°μ ν λ€λͺ©μ λ§ν¬μ μΈμ΄μ΄λ€. μΉ μμμ ꡬ쑰νλ λ¬Έμλ₯Ό μνΈκ΅ν κ°λ₯νλλ‘ μ€κ³λ μΉ νμ€ λ¬Έμ ν¬λ§·μΌλ‘ λ©ν λ°μ΄ν° μ μκ° λͺ ννλ€. μ¬μ©μκ° μλ‘μ΄ νκ·Έμ μμ±μ μ μν μ μλ νμ₯μ±μ κ°μ§λ€. λ΅ : XML β 22. JSON (JavaScript Object Notation) : μμ± - κ° μ.. [Python] matplotlib, seaborn λ§λκ·Έλν 그리기 / κΎΈλ―ΈκΈ° π κ΅¬κΈ λλΌμ΄λΈ - colab μ°λ from google.colab import drive drive.mount('/content/drive') π¨ tips data λΆλ¬μ€κΈ° import matplotlib.pyplot as plt import seaborn as sns import numpy as np tips = sns.load_dataset('tips') tips.head() β μΆ ν¬λ§·ν # μΆ ν¬λ§·ν (ν¨μ μ§μ ) from matplotlib.ticker import (MultipleLocator, AutoMinorLocator, FuncFormatter) def major_fomatter(x, pos): return "%.2f+$" % x formatter = FuncFormatter(maj.. [μ 보μ²λ¦¬κΈ°μ¬] μ€κΈ° _ μΆμ μμ κ°λ μ 체 μμ μ 리 2 * 2020λ 1~4ν κΈ°μΆλ¬Έμ λ° νκΈ° λ¬Έμ κΈ°λ°μΌλ‘ μΆμ μμ κ°λ μ 리ν λ΄μ©μ λλ€. β 11. λ°μ΄ν°λ² μ΄μ€μ μ΄μ (Anomaly) λ΅ : ν μ΄λΈμμ μΌλΆ μμ±λ€μ μ’ μμΌλ‘ μΈν΄ λ°μ΄ν°μ μ€λ³΅μ΄ λ°μ μ΄ μ€λ³΅μΌλ‘ μΈν΄ ν μ΄λΈ μ‘°μ μ λ¬Έμ κ° λ°μνλ νμ β 12. λ°μ΄ν°λ² μ΄μ€μ μ΄μ (Anomaly) μ μ’ λ₯ λ΅ : μ½μ μ΄μ / μμ μ΄μ / κ°±μ μ΄μ π μ½μ μ΄μ (Insertion Anomaly) : ν μ΄λΈμ λ°μ΄ν°λ₯Ό μ½μ ν λ, μλμλ μκ΄μμ΄ μνμ§ μλ κ°λ€λ‘ μΈν΄ μ½μ ν μ μκ²λλ νμ π μμ μ΄μ (Deletion Anomaly) : ν μ΄λΈμμ ν ννμ μμ ν λ, μλμλ μκ΄μλ κ°λ€λ ν¨κ» μμ λλ νμ (μ°μ μμ λ°μ) π κ°±μ μ΄μ (Update Anomaly).. μ΄μ 1 2 3 4 5 λ€μ