Part1 SL Foundation (foundation supervised learning,지도학습)
- Machine learning : data로부터 내재된 패턴을 학습하는 과정
- Machine learning 문제
1. Binary Classfication
2. Multiclass Classification
3. Regression
- Supervised learning dataset
- 입력 x와 출력 y의 쌍으로 구성되어있음
- 이때 출력 y를 label,정답
- SP learning pipline
- training : 정답과 예측값의 error를 줄여가면서 학습
- test : model이 실제 환경에 적용되는 것을 의미를 하게됨 -> train에서 보지 못한 새로운 데이터 사용,
- Model generalization 중요 : 관찰하지 못한 data 에 대해서도 우수한 성능을 제공할 수 있어야함
- Generalization error 최소화하는 것이 중요한데,,, 그럼 어떻게 최소화할 수 있을가?
- SP learning은 training error, validation error, test error를 통해 줄일 수 있음
- Error?
- Error는 각 샘플별로 pointwise 로 계산
- 예시로 squared error와 binary error가 있음
- squared error : 정답 , model출력과 차이 제곱
- binary error : 로직 적용하여 0,1로 구분
- data samples에서 발생하는 모든 samples들의 error를 합쳐서 overall error계산
- 이러한 overalll error를 손실함수(cost function)/ loss function 이라고 함
- E_test : 실제 realword에서 적용할때 나타나는 error를 표현한 것이라고 볼 수 있음
- 우리의 목적은 E_test값이 0으로 근사하게하여, E_geration 값도 0에 근사하도록하게 하는 것임
- 그럼 어떻게 0으로 근사하게 함?
- 1. E_test가 E_train과 근사하게 함
- 만든 모델이 일반적인 성능이 지니도록 하게하는 과정
- 실패하게되면 : overfitting
- 해결책 : regularization, more data
- 2. E_train이 0으로 가까워지도록하게 함
- 실패하게되면 : underfitting
- 해결책? : optimization , more complex model
- model의 정확성 높이는 방법
- bias 낮추기
- model 일반성 높이기
- 1. E_test가 E_train과 근사하게 함
1) 편향이란?
편향이란, (노이즈가 다른) 여러 데이터셋을 바탕으로 추정값들의 중심(노란색의 중심)이 얼마나 실제 데이터의 중심(정답)과 떨어져 있는가를 의미하는 것이다. 편향이 작다는 뜻은 여러 데이터셋을 바탕으로 반복적으로 추정하는 과정을 통해 전체적인 오차를 줄일 수 있다는 뜻이다. 반면에, 편향이 크다는 것은 아무리 노력을 해도 정답을 맞출 가능성이 적다는 뜻이다.
2) 분산이란?
분산이란, (노이즈가 다른) 여러 데이터셋을 바탕으로 추정한 결과들이 그 결과들의 평균과 비교했을 때 얼마나 퍼져 있는가를 나타낸다. 분산이 작으면 노이즈가 변한다고 해서 함수의 추정값이 크게 바뀌지 않는다는 뜻이다. (f_hat(x)들끼리 모여있으니까!) 반면에 분산이 크면, 노이즈가 바뀔수록 개별적인 추정값들이 크게크게 바뀐다는 뜻이다.
3) 모델의 4가지 유형
편향과 분산 정도에 따라 학습 모델을 [그림 3]과 같이 4가지 유형으로 분류해 볼 수 있다.
[그림 3] 편향-분산의 의미 도식화2
1. 높은 편향, 높은 분산: 정확도가 떨어지는 가장 쓸모 없는 유형이다.
2. 낮은 편향, 높은 분산: 추정값들이 전체적으로 정답에 가깝지만 자기들끼리는 분산되어 있는 유형이다. (Decision Tree, ANN, SVM, k-NN with small k 등)
3. 높은 편향, 낮은 분산: 추정값들끼리는 모여있지만, 전체적으로 정답과 거리가 있는 유형이다. (Logistic Regression, LDA, k-NN with large k 등)
4. 낮은 편향, 낮은 분산: 추정값들끼리 모여있으면서 동시에 정답에 가까운 유형으로 가장 바람직하다.
- 최근 고차원 data증가에 비해 data수 확보 어려워 overfitting문제 발생 많음
- data 수늘리기 위한 방법
- regularization
- ensemble