[7주차 총정리] Gradient Descent 활용한 신경망 학습 과정 (Neural Network Optimization)
Gradient Descent 활용한 신경망 학습 과정 1. Weight Initialization 모든 Parameter θ 초기화 - 초기화 시점의 작은 차이가 학습의 결과를 뒤바꿀 수 있으므로 보다 나은 초기화 방식을 모색하게 됨 - Perceptron의 Linear Combination 결과값 (Activation function의 입력값)이 너무 커지거나 작아지지 않도록 만들어주는 것이 핵심 - 발전된 초기화 방법들을 활용해 Vanishing gradient 또는 Exploding gradient 문제를 줄일 수 있다 1) Xavier Initialization (자비에 초기화) - 활성화 함수로 Sigmoid 함수나 tanh 함수를 사용할 때 권장 - 다수의 딥러닝 라이브러리들에 default..