2023. 2. 12. 17:26ㆍLG AI(AImiers) 과정
1. train, test data describe
2. Data preprocessing
- Nan value 처리 :
1) 결측치 15% 이상인 열 제거
2) train data의 경우 Y_Class group >> Line, Product ID group >> 그룹별 중간값 적용
3) test data 경우 LIne group > Product ID group 후 그룹 중간값 적용
- 정규화 방안
3. Model development
3-1 . Line 별로 Y_Quality 예측
- train data features : "x_000"
- train data target : "Y_Quality"
- train data로 학습 후 test data 의 "x_000"(train data features)를 이용하여 "Y_Quality"예측
- 사용 모델 : SVR,XGBoost
3-2. 총 data(line 별 x) 로 Y_Class 예측 :1차 예측 한 Y_Quality를 이용하여 Y_Class예측
- 방법론
- A case : features (input data) 를 Y_Quality로만..
-
- train data features : "Y_Quality"
- train data target : "Y_Class"
- train data로 학습 후 1차에서 예측한 test data "Y_Quality"을 이용하여 "Y_Quality"예측
- B case : features (input data)를 기존 1차 features 에 Y_Quality를 추가하여 학습할 것인지...
- 사용 모델 : IR, KNN
4. 성능 분석
1) A case
- 1차 SVR + 2차 IR
: 성능 안좋음 >> 0.3...?
2) B case
- 1차 XGBoost Regression + 2차 KNN(n_neighbors=3)
***********
score 비교 >> B case(Xgboost_knn.csv) 높아짐!!
***********
- 제출파일
3) C case (line별 x)
- nan값 0으로 대체 DNN 으로 Y_quality예측
- 예측후 통계값으로 Y_class예측
'LG AI(AImiers) 과정' 카테고리의 다른 글
기록_2 (0) | 2023.02.17 |
---|---|
Casual Effect Identifiability (0) | 2023.01.26 |
Time-SeriesTransformer (TST) (0) | 2023.01.24 |
[part6. ensemble] (0) | 2023.01.14 |
part2. linear regression (0) | 2023.01.06 |