본문 바로가기

Machine Learning

(6)

[Machine Learning] Poisson Regression ✋ 포아송 회귀 (Poisson Regression) 💡 포아송 분포 (Poisson distributuon) - 일정한 시간 또는 공간 내에서 발생하는, 사건의 발생 횟수에 따른 확률을 구할 때 사용 - 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지 표현하는 이산 확률 분포 ✔ λ (람다) = 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기대값 ✔ e = 상수값 (2.71828) 💡 포아송 회귀 (Poisson Regression) - 종속변수(dependent variable)가 포아송 분포를 따른다고 가정하고, 일반화 선형모델의 회귀분석 수행 - 종속변수가 가산자료(count data)일 때 주로 사용 - 포아송 분포의 특성상 평균과 분산이 같아야 한다는 제약조건 있음 - But, 현실 데..

[Machine Learning] XGBoost (Extreme Gradient Boosting) 📌 Boosting - 여러 개의 약한 Decision Tree를 조합해서 사용하는 Ensemble 기법 중 하나 - 약한 에측 모형들의 학습 에러에 가중치를 두고, 순차적으로 다음 학습 모델에 반영하여 강한 예측모형을 만드는 것 📌Gradient Boosting - 경사 하강법(gradient descent)을 사용해 잔여 오차를 최소화하는 것 - 잘못된 예측을 기반으로 조정하여 새로운 트리를 만듦 (랜덤 포레스트 알고리즘의 결점을 보완하는 매력적인 대안) - 새로운 트리는 올바르게 예측된 값에는 영향을 받지 않는다 - 오차에만 초점을 맞추는 ML 알고리즘 만드려면 정확한 최종 예측을 만들기 위해 오차를 계산하는 방법 필요 따라서, 모델의 예측과 실제 값 사이의 차이인 잔차(residual)를 활용 -..

[Machine learning] scikit-learn pipeline 공부하기!!

[Machine Learning] Data Leakage ✋ Data Leakage 란? : Train Data 외의 정보가 모델을 만드는데 사용될 때 발생 (우리가 모른다고 가정된 "정보가 누설"된 경우를 의미) 공모전에 참가할 때 받는 데이터 : train data (이미 알고 있는 정보) 공모전에 제출하는데 사용하는 데이터 : test data (모르는 정보) 👉 모르는 정보인 test data의 통계치가 test data 사이에서 반영될 수 없음 train data 를 가지고 test data 를 예측하는 것이 목표 👉 Data Leakage : Test Data의 개수나 분포 등이 변화할 때마다 Train / Test 를 진행할 때 영향을 끼치는 요소 ✋ Data Leakage 의 문제점 : 자신의 에측 모델을 개발할 때 문제점 발생 👉 실제로 쓸모없..

[Machine Learning] Hyperparameter Tuning ✋ Hyperparameter Tuning - 목적 : 훈련 평가 / 검증 평가 사이의 차이가 최소가 되도록 만드는 것 (Overfitting 방지) 👉 Hyperparameter 의 수가 너무 많기 때문에, 최적의 parameter 를 찾아주는 도구들을 써서 찾아낸다 ✋ 1) Grid Search : 대체 모델 구성(alternative model configrations) 을 탐색하는 일반적인 접근 방식은 그리드 검색 방법을 사용 👉 모델 하이퍼 파라미터에 넣을 수 있는 값들을 순차적으로 입력한 뒤에, 가장 높은 성능을 보이는 하이퍼 파라미터 값을 찾는 탐색 방법 🎈 관심있는 매개변수들을 대상으로 가능한 모든 조합을 시도하여 최적의 매개변수를 찾는 방법으로 매개변수를 튜닝하여 일반화 성능을 개선 ✋ ..

[Machine Learning] Feature Engineering ✋ Google colab 연동 / Data load ## GOOGLE COLAB 연동 from google.colab import drive drive.mount('/content/drive') # Mounted at /content/drive ## DATA LOAD import pandas as pd print('pandas version:', pd.__version__) wine = pd.read_csv('https://bit.ly/wine_csv_data') wine.head() alcoholsugarpHclass 09.41.93.510.0 19.82.63.200.0 29.82.33.260.0 39.81.93.160.0 49.41.93.510.0 👀 numpy - 수치 연산 # numpy - 수치..

이전 1 다음

티스토리툴바