시계열 데이터 결측치 처리 기술 동향

2023. 2. 2. 17:40빅데이터 ,알고리즘이론

a. 결측치 데이터 종류

- 완전 무작위 결측(MCAR)

  • MCAR은 전체에 걸쳐 무작위하게 누락된 경우로 변수의 종류, 변수의 값과 상관없이 비슷한 분포 로 누락된 데이터를 의미
  • 통계적으 로 누락 패턴을 파악해 볼 수 있음

- 무작위 결측(MAR)

  • 어떤 특 정 변수에 대하여 데이터가 누락되는 경우를 의미
  • 결측값의 경우가 자료 내의 다른 변수와 관련이 있다
  • 설문 대상자가 뒷면이 있는지 모르고 설문을 진행하여 특정 변수들에 국한되어 누락된 경우가 해당

- 비무작위 결측(MNAR)

  • 누락되는 부분들이 무작위로 누락되는 것 이 아닌 누락된 변수의 값이 누락된 이유와 관련이 있는 경우
  • 대부분 결측 데이터는 MNAR인 경우가 많음
  • 예를 들어, 시계열 데이터 경우 측정 센서의 고장이나 네트워크 통신 문제 등으로 누락되는 ㄱ여우는 변수의 값이 누락된 이유와 관련 있기 때문에 MNAR에 해당함

* 결측치 데이터 종류 중에서 (1) MCAR와 (2) MAR의 경우는 무작위로 누락되어 있는 경우이기 때문에 결측값을 제거한 데이터를 이용하여 분석을 진행하는 것이 좋다. 반면, (3) MNAR의 경우는 결측값의 발생이 무분별하기 때문에 결측 값이 있는 데이터를 제거하고 분석을 진행할 경우, 모델이 편향적으로 학습될 수 있기 때문에 일 반화된 모델을 설계하는 것에 어려움이 존재한다. 따라서 이의 경우에는 단순한 결측치 제거가 아닌 상황에 맞는 결측치 보간 및 처리 방법이 매우 중요함

 

b. 시계열 데이터 결측치 처리 동향

1. 통계적 기법

2. 행렬 기반 기법

3. 회귀분석 기법

4. RNN 기반 기법

5. GAN 기반 기법

- GAN의 기본적인 원 리는 입력 데이터의 확률적 분포를 알아내고 학습 하여 데이터를 생성하는 것이 목적

- 시계열 결측치 처리를 위해서도 이와 같은 GAN 알고리즘이 사용할 수 있으며 생성자는 실제 데 이터의 일부 구성요소를 관찰하고 실제로 관찰된 데이터에 따라서 결측된 데이터를 대치함

- 구분자는 대치된 데이터와 실제 데이터가 맞는지 판별함

- 이때 구분자(D)에 벡터 형식으로 몇 가지 원본 샘플 데이터의 누락에 대한 부분 힌트 정보를 제공하고, 이 정보를 통해 G는 실제 데이터 분포에 따라서 생성하는 법을 학습

- GRUI-GAN[22]은 기존에 RNN기반 딥러닝 기 반 결측치 처리 방법 중 제안된 GRU-D 구조를 약 간 변형하여 GAN의 구조에 결합한 기술

 

*참고자료

https://ettrends.etri.re.kr/ettrends/191/0905191014/145-153_%EA%B9%80%EC%97%90%EB%8D%B4.pdf

 

'빅데이터 ,알고리즘이론' 카테고리의 다른 글

딥러닝에서 사용되는 여러 유형의 Convolution  (0) 2022.10.12
1. ARIMA모델  (0) 2020.11.20