데이터는 보통 3개의 그룹으로 나눈다.
1) Training data : 모델 학습
2) Validation data : 모델, 하이퍼파라미터 최적화/선택(Tune)
3) Test data : 모델 평가(Test only, no more tune)
일반적으로, 머신러닝은 train:test(7:3), 딥러닝은 train:validation:test(6:2:2)로 나눈다.
하지만, 데이터가 100,000 이상이라면, validation과 test set 비율을 낮추어 98:1:1, 99:0.5:0.5까지 늘려줄 수 있다.
Cross Validation
k-fold CV
1. train, test 데이터로 나눈다.
2. train 데이터를 k개의 부분으로 나눈다.
3. k개의 부분 중 1개는 validation set 역할을 하고, 나머지 k-1개는 train set 역할을 한다.
4. train data로 모델을 학습시키고, validation set으로 성능을 평가한다.
5. k번을 반복한 후, validation set으로 평가한 성능을 평균을 내어 보여준다.
'멋쟁이 사자처럼 AI SCHOOL 5기 > Today I Learned' 카테고리의 다른 글
[5주차 총정리] 지도학습(Supervised) 모델 시각화 (Linear Regression/Logistic Regression/kNN/SVM) (0) | 2022.04.13 |
---|---|
[5주차 총정리] Gradient Boosting Regression (+ Deviance graph, Feature importances) (0) | 2022.04.12 |
[5주차 총정리] Ensemble 기법 종류 (Boosting 알고리즘 중심으로) (0) | 2022.04.12 |
[5주차 총정리] scikit-learn 머신러닝 모델 학습 단계 Framework (0) | 2022.04.12 |
[4주차 총정리] Python 기반 SQL 프로그래밍(6) _Selenium+SQLite 실습 (0) | 2022.04.11 |