λ³Έλ¬Έ λ°”λ‘œκ°€κΈ°

λ°˜μ‘ν˜•

전체 κΈ€

(34)
[Machine learning] scikit-learn pipeline κ³΅λΆ€ν•˜κΈ°!!
[Machine Learning] Data Leakage βœ‹ Data Leakage λž€? : Train Data μ™Έμ˜ 정보가 λͺ¨λΈμ„ λ§Œλ“œλŠ”λ° μ‚¬μš©λ  λ•Œ λ°œμƒ (μš°λ¦¬κ°€ λͺ¨λ₯Έλ‹€κ³  κ°€μ •λœ "정보가 λˆ„μ„€"된 경우λ₯Ό 의미) 곡λͺ¨μ „에 μ°Έκ°€ν•  λ•Œ λ°›λŠ” 데이터 : train data (이미 μ•Œκ³  μžˆλŠ” 정보) 곡λͺ¨μ „에 μ œμΆœν•˜λŠ”λ° μ‚¬μš©ν•˜λŠ” 데이터 : test data (λͺ¨λ₯΄λŠ” 정보) πŸ‘‰ λͺ¨λ₯΄λŠ” 정보인 test data의 ν†΅κ³„μΉ˜κ°€ test data μ‚¬μ΄μ—μ„œ 반영될 수 μ—†μŒ train data λ₯Ό κ°€μ§€κ³  test data λ₯Ό μ˜ˆμΈ‘ν•˜λŠ” 것이 λͺ©ν‘œ πŸ‘‰ Data Leakage : Test Data의 κ°œμˆ˜λ‚˜ 뢄포 등이 λ³€ν™”ν•  λ•Œλ§ˆλ‹€ Train / Test λ₯Ό μ§„ν–‰ν•  λ•Œ 영ν–₯을 λΌμΉ˜λŠ” μš”μ†Œ βœ‹ Data Leakage 의 문제점 : μžμ‹ μ˜ 에츑 λͺ¨λΈμ„ κ°œλ°œν•  λ•Œ 문제점 λ°œμƒ πŸ‘‰ μ‹€μ œλ‘œ μ“Έλͺ¨μ—†..
[Machine Learning] Hyperparameter Tuning βœ‹ Hyperparameter Tuning - λͺ©μ  : ν›ˆλ ¨ 평가 / 검증 평가 μ‚¬μ΄μ˜ 차이가 μ΅œμ†Œκ°€ λ˜λ„λ‘ λ§Œλ“œλŠ” 것 (Overfitting λ°©μ§€) πŸ‘‰ Hyperparameter 의 μˆ˜κ°€ λ„ˆλ¬΄ 많기 λ•Œλ¬Έμ—, 졜적의 parameter λ₯Ό μ°Ύμ•„μ£ΌλŠ” 도ꡬ듀을 μ¨μ„œ μ°Ύμ•„λ‚Έλ‹€ βœ‹ 1) Grid Search : λŒ€μ²΄ λͺ¨λΈ ꡬ성(alternative model configrations) 을 νƒμƒ‰ν•˜λŠ” 일반적인 μ ‘κ·Ό 방식은 κ·Έλ¦¬λ“œ 검색 방법을 μ‚¬μš© πŸ‘‰ λͺ¨λΈ ν•˜μ΄νΌ νŒŒλΌλ―Έν„°μ— 넣을 수 μžˆλŠ” 값듀을 순차적으둜 μž…λ ₯ν•œ 뒀에, κ°€μž₯ 높은 μ„±λŠ₯을 λ³΄μ΄λŠ” ν•˜μ΄νΌ νŒŒλΌλ―Έν„° 값을 μ°ΎλŠ” 탐색 방법 🎈 κ΄€μ‹¬μžˆλŠ” λ§€κ°œλ³€μˆ˜λ“€μ„ λŒ€μƒμœΌλ‘œ κ°€λŠ₯ν•œ λͺ¨λ“  쑰합을 μ‹œλ„ν•˜μ—¬ 졜적의 λ§€κ°œλ³€μˆ˜λ₯Ό μ°ΎλŠ” λ°©λ²•μœΌλ‘œ λ§€κ°œλ³€μˆ˜λ₯Ό νŠœλ‹ν•˜μ—¬ μΌλ°˜ν™” μ„±λŠ₯을 κ°œμ„  βœ‹ ..
[Machine Learning] Feature Engineering βœ‹ Google colab 연동 / Data load ## GOOGLE COLAB 연동 from google.colab import drive drive.mount('/content/drive') # Mounted at /content/drive ## DATA LOAD import pandas as pd print('pandas version:', pd.__version__) wine = pd.read_csv('https://bit.ly/wine_csv_data') wine.head() alcoholsugarpHclass 09.41.93.510.0 19.82.63.200.0 29.82.33.260.0 39.81.93.160.0 49.41.93.510.0 πŸ‘€ numpy - 수치 μ—°μ‚° # numpy - 수치..
[μ •λ³΄μ²˜λ¦¬κΈ°μ‚¬] μ‹€κΈ° _ 좜제 μ˜ˆμƒ κ°œλ… 전체 μš”μ  정리 4 βœ‹ 30. μ‚¬μš©μž μΈν„°νŽ˜μ΄μŠ€ (UI, User Interface) : μ‚¬μš©μžμ™€ μ‹œμŠ€ν…œ κ°„ μƒν˜Έμž‘μš©μ΄ μ›ν™œν•˜κ²Œ 이루어지도둝 λ„μ™€μ£ΌλŠ” μž₯μΉ˜λ‚˜ μ†Œν”„νŠΈμ›¨μ–΄λ₯Ό 의미 ex. 슀마트폰 ν„°μΉ˜ ν™”λ©΄ πŸ“ μ‚¬μš©μž κ²½ν—˜ (UX, User Experience) : μ œν’ˆκ³Ό μ‹œμŠ€ν…œ, μ„œλΉ„μŠ€ 등을 μ‚¬μš©μžκ°€ 직/κ°„μ ‘μ μœΌλ‘œ κ²½ν—˜ν•˜λ©΄μ„œ 느끼고 μƒκ°ν•˜λŠ” 총체적 κ²½ν—˜μ„ 의미 βœ‹ 31. μ‚¬μš©μž μΈν„°νŽ˜μ΄μŠ€ (UI) 의 κΈ°λ³Έ 원칙 πŸ‘‰ 직관성 / μœ νš¨μ„± / ν•™μŠ΅μ„± / μœ μ—°μ„± - 직관성 : λˆ„κ΅¬λ‚˜ μ‰½κ²Œ μ΄ν•΄ν•˜κ³  μ‚¬μš©ν•  수 μžˆμ–΄μ•Ό ν•œλ‹€. - μœ νš¨μ„± : μ‚¬μš©μžμ˜ λͺ©μ μ„ μ •ν™•ν•˜κ³  μ™„λ²½ν•˜κ²Œ 달성해야 ν•œλ‹€. - ν•™μŠ΅μ„± : λˆ„κ΅¬λ‚˜ μ‰½κ²Œ 배우고 읡힐 수 μžˆμ–΄μ•Ό ν•œλ‹€. - μœ μ—°μ„± : μ‚¬μš©μžμ˜ μš”κ΅¬μ‚¬ν•­μ„ μ΅œλŒ€ν•œ μˆ˜μš©ν•˜κ³  μ‹€μˆ˜λ₯Ό μ΅œμ†Œν™”ν•΄μ•Ό ν•œλ‹€. πŸ“’ UI (User ..
[μ •λ³΄μ²˜λ¦¬κΈ°μ‚¬] μ‹€κΈ° _ 좜제 μ˜ˆμƒ κ°œλ… 전체 μš”μ  정리 3 * 2020λ…„ 1~4회 기좜문제 및 ν•„κΈ° 문제 기반으둜 좜제 μ˜ˆμƒ κ°œλ… μ •λ¦¬ν•œ λ‚΄μš©μž…λ‹ˆλ‹€. βœ‹ 21. XML (eXtensible Markup Language) : μ›ΉλΈŒλΌμš°μ € κ°„ HTML 문법이 ν˜Έν™˜λ˜μ§€ μ•ŠλŠ” λ¬Έμ œμ™€ SGML의 λ³΅μž‘ν•¨μ„ ν•΄κ²°ν•˜κΈ° μœ„ν•΄ 개발된 λ‹€λͺ©μ  λ§ˆν¬μ—… μ–Έμ–΄ πŸ“’ λ‹€μŒ μ„€λͺ…에 λΆ€ν•©ν•˜λŠ” 것이 무엇인지 영문 μ•½μ–΄λ‘œ μ“°μ‹œμ˜€. HTML의 단점을 λ³΄μ™„ν•œ 인터넷 μ–Έμ–΄λ‘œ, SGML의 λ³΅μž‘ν•œ 단점을 κ°œμ„ ν•œ λ‹€λͺ©μ  λ§ˆν¬μ—… 언어이닀. μ›Ή μƒμ—μ„œ κ΅¬μ‘°ν™”λœ λ¬Έμ„œλ₯Ό μƒν˜Έκ΅ν™˜ κ°€λŠ₯ν•˜λ„λ‘ μ„€κ³„λœ μ›Ή ν‘œμ€€ λ¬Έμ„œ 포맷으둜 메타 데이터 μ •μ˜κ°€ λͺ…ν™•ν•˜λ‹€. μ‚¬μš©μžκ°€ μƒˆλ‘œμš΄ νƒœκ·Έμ™€ 속성을 μ •μ˜ν•  수 μžˆλŠ” ν™•μž₯성을 κ°€μ§„λ‹€. λ‹΅ : XML βœ‹ 22. JSON (JavaScript Object Notation) : 속성 - κ°’ 쌍..
[Python] matplotlib, seaborn λ§‰λŒ€κ·Έλž˜ν”„ 그리기 / κΎΈλ―ΈκΈ° 🎈 ꡬ글 λ“œλΌμ΄λΈŒ - colab 연동 from google.colab import drive drive.mount('/content/drive') 🎨 tips data 뢈러였기 import matplotlib.pyplot as plt import seaborn as sns import numpy as np tips = sns.load_dataset('tips') tips.head() ✌ μΆ• ν¬λ§·νŒ… # μΆ• ν¬λ§·νŒ… (ν•¨μˆ˜ μ§€μ •) from matplotlib.ticker import (MultipleLocator, AutoMinorLocator, FuncFormatter) def major_fomatter(x, pos): return "%.2f+$" % x formatter = FuncFormatter(maj..
[μ •λ³΄μ²˜λ¦¬κΈ°μ‚¬] μ‹€κΈ° _ 좜제 μ˜ˆμƒ κ°œλ… 전체 μš”μ  정리 2 * 2020λ…„ 1~4회 기좜문제 및 ν•„κΈ° 문제 기반으둜 좜제 μ˜ˆμƒ κ°œλ… μ •λ¦¬ν•œ λ‚΄μš©μž…λ‹ˆλ‹€. βœ‹ 11. λ°μ΄ν„°λ² μ΄μŠ€μ˜ 이상 (Anomaly) λ‹΅ : ν…Œμ΄λΈ”μ—μ„œ 일뢀 μ†μ„±λ“€μ˜ μ’…μ†μœΌλ‘œ 인해 λ°μ΄ν„°μ˜ 쀑볡이 λ°œμƒ 이 μ€‘λ³΅μœΌλ‘œ 인해 ν…Œμ΄λΈ” μ‘°μž‘ μ‹œ λ¬Έμ œκ°€ λ°œμƒν•˜λŠ” ν˜„μƒ βœ‹ 12. λ°μ΄ν„°λ² μ΄μŠ€μ˜ 이상 (Anomaly) 의 μ’…λ₯˜ λ‹΅ : μ‚½μž… 이상 / μ‚­μ œ 이상 / κ°±μ‹  이상 πŸ“ μ‚½μž… 이상 (Insertion Anomaly) : ν…Œμ΄λΈ”μ— 데이터λ₯Ό μ‚½μž…ν•  λ•Œ, μ˜λ„μ™€λŠ” 상관없이 μ›ν•˜μ§€ μ•ŠλŠ” κ°’λ“€λ‘œ 인해 μ‚½μž…ν•  수 μ—†κ²Œλ˜λŠ” ν˜„μƒ πŸ“ μ‚­μ œ 이상 (Deletion Anomaly) : ν…Œμ΄λΈ”μ—μ„œ ν•œ νŠœν”Œμ„ μ‚­μ œν•  λ•Œ, μ˜λ„μ™€λŠ” μƒκ΄€μ—†λŠ” 값듀도 ν•¨κ»˜ μ‚­μ œλ˜λŠ” ν˜„μƒ (연쇄 μ‚­μ œ λ°œμƒ) πŸ“ κ°±μ‹  이상 (Update Anomaly)..

λ°˜μ‘ν˜•