서포트 벡터 머신(Support Vector Machine) _건물 에너지 사용 예측ML study

2022. 7. 6. 10:37AI study

1. 서포트 벡터 머신이란

- 서포트 벡터 머신(SVM: Support Vector Machine)분류 과제에 사용할 수 있는 강력한 머신러닝 지도학습 모델로써

- 결정 경계(Decision Boundary), 즉 분류를 위한 기준 선을 정의하는 모델임

- 분류되지 않는 새로운 점이 나타나면 경계의 어느쪽에 속하는지 확인해서 분류 과제를 수행할 수 있게 됨

- 즉 결정 경계라는 걸 어떻게 정의하고 계산하는지 이해하는게 중요하다는 뜻

- 만약 데이터에 2개의 속성(feature)만 있다면 결정 경계는 이렇게 간단한 선 형태가 됨

- 데이터가 3개일경우 경계선은 평면

2. 최적의 결정 경계(Decision Boundary)

-  결정 경계는 데이터 군으로부터 최대한 멀리 떨어지는 게 좋다

- 실제로 서포트 벡터 머신(Support Vector Machine)이라는 이름에서

  Support Vectors결정 경계와 가까이 있는 데이터 포인트들을 의미 -> 이 데이터들이 경계를 정의하는 결정적인 역할

 

3. 마진(Margin)

- 마진(Margin)은 결정 경계와 서포트 벡터 사이의 거리

- 가운데 실선이 하나 그어져있는데, 이게 바로 ‘결정 경계’

-  그 실선으로부터 검은 테두리가 있는 빨간점 1개, 파란점 2개까지 영역을 두고 점선을 그어 놓음 -> 점선으로부터 결정 경계까지의 거리가 바로 ‘마진(margin)’

- 최적의 결정 경계는 마진을 최대화함

- 위 그림에서는 x축과 y축 2개의 속성을 가진 데이터로 결정 경계를 그었는데, 총 3개의 데이터 포인트(서포트 벡터)가 필요 -> 즉 n개의 속성을 가진 데이터에는 최소 n+1개의 서포트 벡터가 존재한다는 걸 알 수 있음

- SVM 알고리즘의 장점

1. 대부분의 머신러닝 지도 학습 알고리즘은 학습 데이터 모두를 사용하여 모델을 학습

2.  SVM에서는 결정 경계를 정의하는 게 결국 서포트 벡터이기 때문에 데이터 포인트 중에서 서포트 벡터만 잘 골라내면 나머지 쓸 데 없는 수많은 데이터 포인트들을 무시할 수 있어 속도가 매우 빠름

 

 

※ scikit-learn 사용법

 

'AI study' 카테고리의 다른 글

ML 분류모델 평가(정밀도,재현율,f1-score등)  (0) 2022.07.07
Random Forest vs Extra Trees  (0) 2022.07.07
[영상 성능 분석]  (0) 2022.06.22
ASR(음성인식) 학습 _ 스터디 정리  (0) 2022.04.29
afreecaTv_ recommend  (0) 2022.04.27