빅데이터 ,알고리즘이론(3)
-
시계열 데이터 결측치 처리 기술 동향
a. 결측치 데이터 종류 - 완전 무작위 결측(MCAR) MCAR은 전체에 걸쳐 무작위하게 누락된 경우로 변수의 종류, 변수의 값과 상관없이 비슷한 분포 로 누락된 데이터를 의미 통계적으 로 누락 패턴을 파악해 볼 수 있음 - 무작위 결측(MAR) 어떤 특 정 변수에 대하여 데이터가 누락되는 경우를 의미 결측값의 경우가 자료 내의 다른 변수와 관련이 있다 설문 대상자가 뒷면이 있는지 모르고 설문을 진행하여 특정 변수들에 국한되어 누락된 경우가 해당 - 비무작위 결측(MNAR) 누락되는 부분들이 무작위로 누락되는 것 이 아닌 누락된 변수의 값이 누락된 이유와 관련이 있는 경우 대부분 결측 데이터는 MNAR인 경우가 많음 예를 들어, 시계열 데이터 경우 측정 센서의 고장이나 네트워크 통신 문제 등으로 누락되..
2023.02.02 -
딥러닝에서 사용되는 여러 유형의 Convolution
Convolutions Kernel Size : convolution의 시야(view)를 결정함, 보통 2 Stride : kernel의 step size Padding : Padding은 샘플 테두리를 어떻게 조절할지 결정(패딩된 convolution : input과 output차원 동일, 패딩되지 않는 convolution은 커널이 1보다 큰 경우 테두리 일부를 잘라버릴 수 있음) Input & Output Channels : Convolution layer는 Input 채널의 특정수(I)를 받아 output채널의 특정 수(O)로 계산함, 이런 계층에서 필요한 파라미터의 수는 I*O*K로 계산할 수 있음 Pooling(=sub sampling) why? 더 높은 정확도를 얻기 위해서는 필터가 많아야함..
2022.10.12 -
1. ARIMA모델
ARIMA(Autoregressive Integrated Moving Average) ARIMA는 Autoregressive Integrated Moving Average의 약자로, Autoregressive는 자기회귀모형을 의미하고, Moving Average는 이동평균모형을 의미한다. 즉, ARIMA는 자기회귀와 이동평균을 둘 다 고려하는 모형인데, ARMA와 ARIMA의 차이점은 ARIMA의 경우 시계열의 비정상성(Non-stationary)을 설명하기 위해 관측치간의 차분(Diffrance)을 사용한다는 차이점이 있다. ARMA와 ARIMA 외에도 ARIMAX 등의 방법도 있는데, 이는 본 포스트에서 살펴보지 않는다. AR: 자기회귀(Autoregression). 이전 관측값의 오차항이 이후 관측..
2020.11.20