인공지능,딥러닝,머신러닝 기초

[인공지능 개론] Data Augmentation

풍요 평화 만땅 연구원 2022. 10. 20. 14:55

- data augmentation 정의

: 갖고있는 데이터셋을 여러가지 방법으로 증강시켜(Augmentation) 학습 데이터셋의 규모를 키울 수 있음

- data augmentation의 방법

1. Mirroring

2. Random Cropping

3. Rotation

4. Shearing

5. Local wraping

등이 있음

- color shifting

1. RGB를 이용한 색변환 방법이 있음

- 실제로 RGB값이 특정 확률 분호에 따라 정해짐

- 왼쪽의 고양이는 y로 변하지 않음

- 색 변형을 통해 학습 알고리즘이 색의 변화에 더 잘 반응할 수 있게 해줌

- 색 변형하는 방법 중 하나로 PCA(주성분 분석)방법이 있음

 

Implementing distorions during training

- 데이터 확대를 구현하는 일반적인 방법은 이런 하나의 thread나 혹은 multi-thread로 데이터를 불러오고 변형을 구현해주고 그것을 다른 thread나 process 에 전달해준 뒤 학습을 실행할 수 있음

 

 

정리

- 데이터가 많아진다는 것은 overfitting을 줄일 수 있다는 것을 의미함

- 갖고 있는 데이터셋이 실제 상황에서의 입력값과 다를 경우, augmentation을 통해 실제 입력값과 비슷한 데이터 분포를 만들 수 있음

 

 

*data overfitting방법

- deep learning data : mini-batch, drop-out

- ensemble learning

- semi-supervised learning

- data augmentation