Part1 SL Foundation (foundation supervised learning,지도학습)

LG AI(AImiers) 과정

Part1 SL Foundation (foundation supervised learning,지도학습)

풍요 평화 만땅 연구원 2023. 1. 2. 19:03

지도학습(회귀_분류)_강의자료_강제원교수님.pdf

7.06MB

- Machine learning : data로부터 내재된 패턴을 학습하는 과정

- Machine learning 문제

1. Binary Classfication

2. Multiclass Classification

3. Regression

- Supervised learning dataset

입력 x와 출력 y의 쌍으로 구성되어있음
이때 출력 y를 label,정답

- SP learning pipline

training : 정답과 예측값의 error를 줄여가면서 학습
test : model이 실제 환경에 적용되는 것을 의미를 하게됨 -> train에서 보지 못한 새로운 데이터 사용,

- Model generalization 중요 : 관찰하지 못한 data 에 대해서도 우수한 성능을 제공할 수 있어야함

- Generalization error 최소화하는 것이 중요한데,,, 그럼 어떻게 최소화할 수 있을가?

SP learning은 training error, validation error, test error를 통해 줄일 수 있음

- Error?

Error는 각 샘플별로 pointwise 로 계산
예시로 squared error와 binary error가 있음
- squared error : 정답 , model출력과 차이 제곱
- binary error : 로직 적용하여 0,1로 구분
data samples에서 발생하는 모든 samples들의 error를 합쳐서 overall error계산
- 이러한 overalll error를 손실함수(cost function)/ loss function 이라고 함
E_test : 실제 realword에서 적용할때 나타나는 error를 표현한 것이라고 볼 수 있음
우리의 목적은 E_test값이 0으로 근사하게하여, E_geration 값도 0에 근사하도록하게 하는 것임
그럼 어떻게 0으로 근사하게 함?
- 1. E_test가 E_train과 근사하게 함
  - 만든 모델이 일반적인 성능이 지니도록 하게하는 과정
  - 실패하게되면 : overfitting
  - 해결책 : regularization, more data
- 2. E_train이 0으로 가까워지도록하게 함
  - 실패하게되면 : underfitting
  - 해결책? : optimization , more complex model
- model의 정확성 높이는 방법
  - bias 낮추기
  - model 일반성 높이기

1) 편향이란?

편향이란, (노이즈가 다른) 여러 데이터셋을 바탕으로 추정값들의 중심(노란색의 중심)이 얼마나 실제 데이터의 중심(정답)과 떨어져 있는가를 의미하는 것이다. 편향이 작다는 뜻은 여러 데이터셋을 바탕으로 반복적으로 추정하는 과정을 통해 전체적인 오차를 줄일 수 있다는 뜻이다. 반면에, 편향이 크다는 것은 아무리 노력을 해도 정답을 맞출 가능성이 적다는 뜻이다.

2) 분산이란?

분산이란, (노이즈가 다른) 여러 데이터셋을 바탕으로 추정한 결과들이 그 결과들의 평균과 비교했을 때 얼마나 퍼져 있는가를 나타낸다. 분산이 작으면 노이즈가 변한다고 해서 함수의 추정값이 크게 바뀌지 않는다는 뜻이다. (f_hat(x)들끼리 모여있으니까!) 반면에 분산이 크면, 노이즈가 바뀔수록 개별적인 추정값들이 크게크게 바뀐다는 뜻이다.

3) 모델의 4가지 유형

편향과 분산 정도에 따라 학습 모델을 [그림 3]과 같이 4가지 유형으로 분류해 볼 수 있다.

[그림 3] 편향-분산의 의미 도식화2

1. 높은 편향, 높은 분산: 정확도가 떨어지는 가장 쓸모 없는 유형이다.

2. 낮은 편향, 높은 분산: 추정값들이 전체적으로 정답에 가깝지만 자기들끼리는 분산되어 있는 유형이다. (Decision Tree, ANN, SVM, k-NN with small k 등)

3. 높은 편향, 낮은 분산: 추정값들끼리는 모여있지만, 전체적으로 정답과 거리가 있는 유형이다. (Logistic Regression, LDA, k-NN with large k 등)

4. 낮은 편향, 낮은 분산: 추정값들끼리 모여있으면서 동시에 정답에 가까운 유형으로 가장 바람직하다.

- 최근 고차원 data증가에 비해 data수 확보 어려워 overfitting문제 발생 많음

- data 수늘리기 위한 방법

regularization
ensemble