회귀분석(Regression analysis)
- 둘 또는 그 이상의 변수간의 상관관계를 모델링하여 종속변수 y 의 값을, 독립변수들로 부터 예측하는 통계적 기법
최소제곱법(Least Square Method)
- 직선의 오차를 계산하는 방법 중 하나
비용함수(Cost Function)
- 손실(loss) : 실제값 - 예측값
- 비용(Cost) : 손실들의 합계
최적화 함수(Optimization Function)
경사 하강법(Gradient Descent Method)
- 최적화 방법 중 가장 기본적인 알고리즘
- Cost를 줄이는 방향으로 w를 수정해가면서 Cost가 0 인 w 를 찾아야함
- 현 위치에서 경사가 가장 급하게 하강하는 방향으로 w를 약간 이동하는 것을 반복함
Leaning rate
- w 변화량 크기를 결정하는 값
- leaning rate가 큰경우 : 해에 접근 속도가 빠르나, 정확히 수렴하지 못하고 발산 할 수 있음
- leaning rate가 작은경우 : 정확히 해에 접근이 가능하나, 반복횟수가 많아져 계산시간이 오래걸림
경사 하강법 vs 확률적 경사 하강법
- 학습데이터가 굉장히 많아진다면, 모든 데이터를 적용하여 w의 편미분 값을 구해야한다
- 연산량 👆, 초기 w 값에 따라 지역적 최소값(Local minima)에 빠지는 경우 발생
- 그래서 고안된 확률적 경사하강법(Stochastic Gradient Descent : SGD)
Stochastic Gradient Descent
- 전제 학습데이터를 사용하지 않고, 확률적으로 선택한 샘플의 일부만을 사용하는 방식
- 랜덤하게 추출된 일부 데이터만을 사용하고 이 데이터들에 대해 경사 하강법을 적용
- 학습속도👆, 오차율이 크고 GPU성능을 모두 활용하지 못함
minibatch gradient descent(미니배치 경사하강법)
- mini-batch : 전체 데이터를 작은 그룹으로 나누고, 작은 그룹 단위로 가중치를 갱신
- full-batch : 전체 학습데이터로 가중치 갱신
momentum(모멘텀)
- 가속도
- 확률적 경사하강법 + 관성
- 현재시간 변화랑 + 이전시간 변화량 을 고려하여 현재 다음 가중치를 갱신
Adam(아담)
- Adaptive Moment estimation
- 딥러닝 학습에서 가장 많이 이용되고 있는 최적화 알고리즘
- 고정된 학습율을 사용하지 않는다는 것이 큰 장점이다
- 각 변수마다 적합한 학습율을 자동으로 설정
- 변화가 많았던 변수는 optimum의 근처의 확률이 놓ㅍ기때문에 학습률을 작게(Leaning rate)
- 변화가 적었던 변수는 optimum에서 멀리 벗어나있을 확률이 높기 때문에 학습률을 크게(Leaning rate)
반응형
'Archive' 카테고리의 다른 글
플러터 기본 (0) | 2021.10.29 |
---|---|
인공신경망 (0) | 2021.10.28 |
Tensorflow 기초 (0) | 2021.10.28 |
딥러닝 기초 용어와 개념 (0) | 2021.10.27 |
Mac 환경변수 설정 하는 방법[zsh] (0) | 2021.10.21 |