본문으로 바로가기

데이터는 보통 3개의 그룹으로 나눈다.

1) Training data : 모델 학습

2) Validation data : 모델, 하이퍼파라미터 최적화/선택(Tune)

3) Test data : 모델 평가(Test only, no more tune)

 

 

일반적으로, 머신러닝은 train:test(7:3), 딥러닝은 train:validation:test(6:2:2)로 나눈다.

하지만, 데이터가 100,000 이상이라면, validation과 test set 비율을 낮추어 98:1:1, 99:0.5:0.5까지 늘려줄 수 있다.

 

Cross Validation

k-fold CV

https://wjddyd66.github.io/r/K-Fold-Cross-Validation/

 

1. train, test 데이터로 나눈다.

2. train 데이터를 k개의 부분으로 나눈다.

3. k개의 부분 중 1개는 validation set 역할을 하고, 나머지 k-1개는 train set 역할을 한다.

4. train data로 모델을 학습시키고, validation set으로 성능을 평가한다.

5. k번을 반복한 후, validation set으로 평가한 성능을 평균을 내어 보여준다.