전체 글(156)
-
F 1.python - numpy (array)기초 2020.11.22
-
1. ARIMA모델
ARIMA(Autoregressive Integrated Moving Average) ARIMA는 Autoregressive Integrated Moving Average의 약자로, Autoregressive는 자기회귀모형을 의미하고, Moving Average는 이동평균모형을 의미한다. 즉, ARIMA는 자기회귀와 이동평균을 둘 다 고려하는 모형인데, ARMA와 ARIMA의 차이점은 ARIMA의 경우 시계열의 비정상성(Non-stationary)을 설명하기 위해 관측치간의 차분(Diffrance)을 사용한다는 차이점이 있다. ARMA와 ARIMA 외에도 ARIMAX 등의 방법도 있는데, 이는 본 포스트에서 살펴보지 않는다. AR: 자기회귀(Autoregression). 이전 관측값의 오차항이 이후 관측..
2020.11.20 -
04. COVID-19분석 실습 : 전처리과정1
1.데이터 기초정보 살펴보기 -파일읽기 : pd.read_csv() 함수사용하여 => DataFrame으로 자동으로 가져온다 * import pandas as pd import numpy as np data=pd.read_csv("data/lending-~.csv",sep=",",dtype='unicode') 2.탐색 & 전처리 -먼저 각 컬럼들을 살펴보기 -NaN 값만 골라내고, 해당행을 제거해야한다 *df.dropna(how="any") : NaN을 포함하는 행들을 제거한 df를 가져올수있다 *any 는 행의 성분에 NaN이 하나라도 있으면 그 행을 제거 라는 뜻이다. *how인자에 "all"이 있다면, 행의 성분이 모두 NaN일때 제거한다는 뜻이다 -NaN대신 다른 값을 대입 : df.fillna(..
2020.11.18 -
02.파이썬 선형 회귀분석 (2)
회귀 분석 모델을 평가하고 성능을 높이는 법. 1. 예측모델이 어느 정도 성능인지 파악하기 R2 Score(결정계수) : 실제값, 예측값, 평균값 사이의 편차를 점수로 매긴 것 (값이 1에 가까울 수록 100%, 0에 가까울 수록 0%) RMSE Score(평균제곱근 오차) : Root Mean Square Error. print(model.score(X_train, y_train)) # train R2 score를 출력합니다. print(model.score(X_test, y_test)) # test R2 score를 출력합니다. 1에 가까울 수록 좋은거니까, 꽤 괜찮은것 같습니다. R2 =0.7 → 70%의 예측 정확성 y_predictions =..
2020.11.11 -
02.파이썬 선형 회귀분석 (1)
1.회귀분석이란? 선 주위에는 빨간 점들이 있는데, 이 점들을 이용해 파란 선의 함수를 예측하는 것이 회귀 분석입니다. 즉 회귀분석은 빨간 점들이 가지는 좌표 데이터를 기반으로 y=ax를 구하고, 향후 다른 빨간 점들이 어디에 위치할 것인지를 예측할 수 있는 분석 방법입니다. 2. 목표 : 어떤 속성이 연봉에 영향을 끼치는지 분석하고, 2017년 데이터를 학습하여 2018년 연봉을 예측하기. import pandas as pd import numpy as np import matplotlib.pyplot as plt import warnings warnings.filterwarnings("ignore") picher_file_path = '../data/picher_stats_2017.csv' piche..
2020.11.11 -
01.전처리 과정 - 데이터 스케일링
데이터 스케일링이란 데이터 전처리 과정의 하나입니다. 데이터 스케일링을 해주는 이유는 데이터의 값이 너무 크거나 혹은 작은 경우에 모델 알고리즘 학습과정에서 0으로 수렴하거나 무한으로 발산해버릴 수 있기 때문입니다. 1. What is Scaler? (1) StandardScaler 각 feature의 평균을 0, 분산을 1로 변경합니다. 모든 특성들이 같은 스케일을 갖게 됩니다. (2) RobustScaler 모든 특성들이 같은 크기를 갖는다는 점에서 StandardScaler와 비슷하지만, 평균과 분산 대신 median과 quartile을 사용합니다. RobustScaler는 이상치에 영향을 받지 않습니다. (3) MinMaxScaler 모든 feature가 0과 1사이에 위치하게 만듭니다. 데이터가..
2020.11.11