-
Choose machine learning modelAI부트캠프 2021. 3. 3. 23:12
Supervised learning machine learning model 만드는 과정
0. Data wrangling
- 모델을 만들기 전에 데이터의 형태를 사용하기 쉬운 형태로 변형시키는 것
- 여러개의 데이터셋을 합치거나 데이터 shape를 변형시키는 일련의 과정
- data 전처리와는 다른개념 (데이터 전처리는 value들을 모델에 학습시키기 적절한 형태로 변형시키는 것)
1. 예측할 target 정함
- 분류문제 : 불균형 class의 경우, class weight parameter 또는 oversampling/undersampling 사용
- 회귀 문제 : target 분포 살펴보고, skewed 일 경우 이상치제거와 로그변환 사용하여 성능 높임
*TransformedTargetRegressor : 로그변환 적용
2. 정보의 누수 (leakage)가 없는지 확인
- 예측시점에 사용할 수 없는 데이터가 포함되어 있는지
- 훈련데이터와 검증데이터가 완전히 구분되어 있는지
3. 문제에 적합한 평가지표 선택
- 타겟 클래스 비율이 70%이상 차이날 경우, 정확도만으로 판단이 어려움 (precision, recall, ROC curve, AUC 같이 사용)
'AI부트캠프' 카테고리의 다른 글
Virtual Environments(가상환경) 사용하기 (0) 2021.03.07 Boosting (0) 2021.03.03 Model Selection (0) 2021.03.03 Evaluation metrics for classification (0) 2021.03.03 Tree based model (0) 2021.03.03