[인공지능 개론] Data Augmentation
- data augmentation 정의
: 갖고있는 데이터셋을 여러가지 방법으로 증강시켜(Augmentation) 학습 데이터셋의 규모를 키울 수 있음
- data augmentation의 방법
1. Mirroring
2. Random Cropping
3. Rotation
4. Shearing
5. Local wraping
등이 있음
- color shifting
1. RGB를 이용한 색변환 방법이 있음
- 실제로 RGB값이 특정 확률 분호에 따라 정해짐
- 왼쪽의 고양이는 y로 변하지 않음
- 색 변형을 통해 학습 알고리즘이 색의 변화에 더 잘 반응할 수 있게 해줌
- 색 변형하는 방법 중 하나로 PCA(주성분 분석)방법이 있음
Implementing distorions during training
- 데이터 확대를 구현하는 일반적인 방법은 이런 하나의 thread나 혹은 multi-thread로 데이터를 불러오고 변형을 구현해주고 그것을 다른 thread나 process 에 전달해준 뒤 학습을 실행할 수 있음
정리
- 데이터가 많아진다는 것은 overfitting을 줄일 수 있다는 것을 의미함
- 갖고 있는 데이터셋이 실제 상황에서의 입력값과 다를 경우, augmentation을 통해 실제 입력값과 비슷한 데이터 분포를 만들 수 있음
*data overfitting방법
- deep learning data : mini-batch, drop-out
- ensemble learning
- semi-supervised learning
- data augmentation