λ³Έλ¬Έ λ°”λ‘œκ°€κΈ°

λ°˜μ‘ν˜•

Machine Learning

(6)
[Machine Learning] Poisson Regression βœ‹ 포아솑 νšŒκ·€ (Poisson Regression) πŸ’‘ 포아솑 뢄포 (Poisson distributuon) - μΌμ •ν•œ μ‹œκ°„ λ˜λŠ” 곡간 λ‚΄μ—μ„œ λ°œμƒν•˜λŠ”, μ‚¬κ±΄μ˜ λ°œμƒ νšŸμˆ˜μ— λ”°λ₯Έ ν™•λ₯ μ„ ꡬ할 λ•Œ μ‚¬μš© - λ‹¨μœ„ μ‹œκ°„ μ•ˆμ— μ–΄λ–€ 사건이 λͺ‡ 번 λ°œμƒν•  것인지 ν‘œν˜„ν•˜λŠ” 이산 ν™•λ₯  뢄포 βœ” λ (λžŒλ‹€) = μ •ν•΄μ§„ μ‹œκ°„ μ•ˆμ— μ–΄λ–€ 사건이 일어날 νšŸμˆ˜μ— λŒ€ν•œ κΈ°λŒ€κ°’ βœ” e = μƒμˆ˜κ°’ (2.71828) πŸ’‘ 포아솑 νšŒκ·€ (Poisson Regression) - μ’…μ†λ³€μˆ˜(dependent variable)κ°€ 포아솑 뢄포λ₯Ό λ”°λ₯Έλ‹€κ³  κ°€μ •ν•˜κ³ , μΌλ°˜ν™” μ„ ν˜•λͺ¨λΈμ˜ νšŒκ·€λΆ„μ„ μˆ˜ν–‰ - μ’…μ†λ³€μˆ˜κ°€ κ°€μ‚°μžλ£Œ(count data)일 λ•Œ 주둜 μ‚¬μš© - 포아솑 λΆ„ν¬μ˜ νŠΉμ„±μƒ 평균과 뢄산이 κ°™μ•„μ•Ό ν•œλ‹€λŠ” μ œμ•½μ‘°κ±΄ 있음 - But, ν˜„μ‹€ 데..
[Machine Learning] XGBoost (Extreme Gradient Boosting) πŸ“Œ Boosting - μ—¬λŸ¬ 개의 μ•½ν•œ Decision Treeλ₯Ό μ‘°ν•©ν•΄μ„œ μ‚¬μš©ν•˜λŠ” Ensemble 기법 쀑 ν•˜λ‚˜ - μ•½ν•œ 에츑 λͺ¨ν˜•λ“€μ˜ ν•™μŠ΅ μ—λŸ¬μ— κ°€μ€‘μΉ˜λ₯Ό 두고, 순차적으둜 λ‹€μŒ ν•™μŠ΅ λͺ¨λΈμ— λ°˜μ˜ν•˜μ—¬ κ°•ν•œ 예츑λͺ¨ν˜•을 λ§Œλ“œλŠ” 것 πŸ“ŒGradient Boosting - 경사 ν•˜κ°•λ²•(gradient descent)을 μ‚¬μš©ν•΄ μž”μ—¬ 였차λ₯Ό μ΅œμ†Œν™”ν•˜λŠ” 것 - 잘λͺ»λœ μ˜ˆμΈ‘μ„ 기반으둜 μ‘°μ •ν•˜μ—¬ μƒˆλ‘œμš΄ 트리λ₯Ό λ§Œλ“¦ (랜덀 포레슀트 μ•Œκ³ λ¦¬μ¦˜μ˜ 결점을 λ³΄μ™„ν•˜λŠ” λ§€λ ₯적인 λŒ€μ•ˆ) - μƒˆλ‘œμš΄ νŠΈλ¦¬λŠ” μ˜¬λ°”λ₯΄κ²Œ 예츑된 κ°’μ—λŠ” 영ν–₯을 λ°›μ§€ μ•ŠλŠ”λ‹€ - μ˜€μ°¨μ—λ§Œ μ΄ˆμ μ„ λ§žμΆ”λŠ” ML μ•Œκ³ λ¦¬μ¦˜ λ§Œλ“œλ €λ©΄ μ •ν™•ν•œ μ΅œμ’… μ˜ˆμΈ‘μ„ λ§Œλ“€κΈ° μœ„ν•΄ 였차λ₯Ό κ³„μ‚°ν•˜λŠ” 방법 ν•„μš” λ”°λΌμ„œ, λͺ¨λΈμ˜ 예츑과 μ‹€μ œ κ°’ μ‚¬μ΄μ˜ 차이인 μž”μ°¨(residual)λ₯Ό ν™œμš© -..
[Machine learning] scikit-learn pipeline κ³΅λΆ€ν•˜κΈ°!!
[Machine Learning] Data Leakage βœ‹ Data Leakage λž€? : Train Data μ™Έμ˜ 정보가 λͺ¨λΈμ„ λ§Œλ“œλŠ”λ° μ‚¬μš©λ  λ•Œ λ°œμƒ (μš°λ¦¬κ°€ λͺ¨λ₯Έλ‹€κ³  κ°€μ •λœ "정보가 λˆ„μ„€"된 경우λ₯Ό 의미) 곡λͺ¨μ „에 μ°Έκ°€ν•  λ•Œ λ°›λŠ” 데이터 : train data (이미 μ•Œκ³  μžˆλŠ” 정보) 곡λͺ¨μ „에 μ œμΆœν•˜λŠ”λ° μ‚¬μš©ν•˜λŠ” 데이터 : test data (λͺ¨λ₯΄λŠ” 정보) πŸ‘‰ λͺ¨λ₯΄λŠ” 정보인 test data의 ν†΅κ³„μΉ˜κ°€ test data μ‚¬μ΄μ—μ„œ 반영될 수 μ—†μŒ train data λ₯Ό κ°€μ§€κ³  test data λ₯Ό μ˜ˆμΈ‘ν•˜λŠ” 것이 λͺ©ν‘œ πŸ‘‰ Data Leakage : Test Data의 κ°œμˆ˜λ‚˜ 뢄포 등이 λ³€ν™”ν•  λ•Œλ§ˆλ‹€ Train / Test λ₯Ό μ§„ν–‰ν•  λ•Œ 영ν–₯을 λΌμΉ˜λŠ” μš”μ†Œ βœ‹ Data Leakage 의 문제점 : μžμ‹ μ˜ 에츑 λͺ¨λΈμ„ κ°œλ°œν•  λ•Œ 문제점 λ°œμƒ πŸ‘‰ μ‹€μ œλ‘œ μ“Έλͺ¨μ—†..
[Machine Learning] Hyperparameter Tuning βœ‹ Hyperparameter Tuning - λͺ©μ  : ν›ˆλ ¨ 평가 / 검증 평가 μ‚¬μ΄μ˜ 차이가 μ΅œμ†Œκ°€ λ˜λ„λ‘ λ§Œλ“œλŠ” 것 (Overfitting λ°©μ§€) πŸ‘‰ Hyperparameter 의 μˆ˜κ°€ λ„ˆλ¬΄ 많기 λ•Œλ¬Έμ—, 졜적의 parameter λ₯Ό μ°Ύμ•„μ£ΌλŠ” 도ꡬ듀을 μ¨μ„œ μ°Ύμ•„λ‚Έλ‹€ βœ‹ 1) Grid Search : λŒ€μ²΄ λͺ¨λΈ ꡬ성(alternative model configrations) 을 νƒμƒ‰ν•˜λŠ” 일반적인 μ ‘κ·Ό 방식은 κ·Έλ¦¬λ“œ 검색 방법을 μ‚¬μš© πŸ‘‰ λͺ¨λΈ ν•˜μ΄νΌ νŒŒλΌλ―Έν„°μ— 넣을 수 μžˆλŠ” 값듀을 순차적으둜 μž…λ ₯ν•œ 뒀에, κ°€μž₯ 높은 μ„±λŠ₯을 λ³΄μ΄λŠ” ν•˜μ΄νΌ νŒŒλΌλ―Έν„° 값을 μ°ΎλŠ” 탐색 방법 🎈 κ΄€μ‹¬μžˆλŠ” λ§€κ°œλ³€μˆ˜λ“€μ„ λŒ€μƒμœΌλ‘œ κ°€λŠ₯ν•œ λͺ¨λ“  쑰합을 μ‹œλ„ν•˜μ—¬ 졜적의 λ§€κ°œλ³€μˆ˜λ₯Ό μ°ΎλŠ” λ°©λ²•μœΌλ‘œ λ§€κ°œλ³€μˆ˜λ₯Ό νŠœλ‹ν•˜μ—¬ μΌλ°˜ν™” μ„±λŠ₯을 κ°œμ„  βœ‹ ..
[Machine Learning] Feature Engineering βœ‹ Google colab 연동 / Data load ## GOOGLE COLAB 연동 from google.colab import drive drive.mount('/content/drive') # Mounted at /content/drive ## DATA LOAD import pandas as pd print('pandas version:', pd.__version__) wine = pd.read_csv('https://bit.ly/wine_csv_data') wine.head() alcoholsugarpHclass 09.41.93.510.0 19.82.63.200.0 29.82.33.260.0 39.81.93.160.0 49.41.93.510.0 πŸ‘€ numpy - 수치 μ—°μ‚° # numpy - 수치..

λ°˜μ‘ν˜•