* 훈련 손실 Train Loss
모델이 훈련 데이터에 대해 예측한 값과 실제 값의 차이를 나타내는 지표
모델이 훈련 데이터에 얼마나 잘 맞추는지를 평가
- 훈련이 진행됨에 따라서 일반적으로 감소한다.
- 훈련 손실이 낮을수록 모델이 훈련 데이터에 잘 맞추고 있음을 의미한다.
* 검증 손실 Validation Loss
훈련 중 모델의 일반화 능력을 평가하기 위해서 사용되는 별도의 검증 데이터셋에 대한 손실값
모델이 보지 못한 데이터에 대해서 얼마나 잘 예측하는지를 평가
- 훈련 초기에는 감소하다가 과적합 OverFitting이 발생하면 다시 증가할 수 있음
- 훈련 손실과 검증 손실의 차이가 커지면 과적합을 의심해볼 수 있음
* 학습률 배수 Learning Rate Multiplier
기본 학습률에 곱해지는 값으로, 모델의 가중치 업데이트 속도를 조절
학습률 배수를 조정하여 모델이 새로운 데이터에 얼마나 빠르게 적응할지를 결정한다.
- 일반적으로 학습률 배수는 0.02에서 0.2 사이의 값을 사용하며, 최적의 값을 찾기 위해서 실험이 필요
- 배치 크기가 클수록 더 큰 학습률 배수가 효과적일 수 있음
* 배치크기 Batch Size
모델이 한번의 학습 단계에서 처리하는 데이터 샘플의 수
배치 크기는 학습의 안정성과 속도에 영향을 미친다.
- 일반적으로 16에서 512 사이의 2의 거듭제곱 값을 사용하며, 32는 좋은 초기값으로 간주된다.
- 배치크기가 클수록 학습이 빠르게 진행되지만, 과적합의 위험이 증가할 수 있다.
- 작은 배치크기는 일반화 능력을 향상시킬 수 있지만, 학습 속도가 느려질 수 있다.
* 에폭 수 Number of Epochs
모델이 전체 훈련 데이터를 몇 번 반복하여 학습할지를 나타냄
에폭 수는 모델이 데이터를 학습하는 정도를 결정한다.
- 에폭 수가 너무 적으면 모델이 충분히 학습하지 못해 성능이 낮아질 수 있다.
- 에폭 수가 너무 많으면 과적합이 발생할 수 있다.
- 적절한 에폭 수를 찾기 위해서는 검증 손실을 모니터링하여 조기 종료 기법을 활용할 수 있다.
* 요소들 간의 관계
학습률과 배치크기
- 배치크기를 늘리면 학습률을 비례적으로 증가시키는 것이 일반적이다. 이것은 큰 배치크기에서 학습의 안정성을 유지하면서도 빠른 수렴을 도모하기 위함이다.
에폭 수와 학습률
- 학습률이 높을수록 빠르게 수렴하지만, 너무 높으면 발산할 수 있으므로 에폭 수를 줄여야 할 수 있다. 반면에 낮은 학습률은 더 많은 에폭 수를 필요로 할 수 있다.