LG AImeris_DACON_Competition_note

2023. 2. 12. 17:26LG AI(AImiers) 과정

1. train, test data describe

train_describe
0.15MB
test_describe.csv
0.15MB

2. Data preprocessing

- Nan value 처리 :

1) 결측치 15% 이상인 열 제거

2) train data의 경우 Y_Class group >> Line, Product ID group >> 그룹별 중간값 적용

3) test data 경우 LIne group > Product ID group 후 그룹 중간값 적용

- 정규화 방안

 

3. Model development

3-1 . Line 별로 Y_Quality 예측

  • train data features : "x_000"
  • train data target : "Y_Quality"
  • train data로 학습 후 test data 의 "x_000"(train data features)를 이용하여 "Y_Quality"예측
  • 사용 모델 : SVR,XGBoost

3-2. 총 data(line 별 x) 로 Y_Class 예측 :1차 예측 한  Y_Quality를 이용하여 Y_Class예측

  1. 방법론
    • A case : features (input data) 를 Y_Quality로만..
      • train data features : "Y_Quality"
      • train data target : "Y_Class"
      • train data로 학습 후 1차에서 예측한 test data "Y_Quality"을 이용하여 "Y_Quality"예측
    • B case : features (input data)를 기존 1차 features 에 Y_Quality를 추가하여 학습할 것인지... 
  2. 사용 모델 : IR, KNN

4. 성능 분석

1) A case

- 1차 SVR + 2차 IR

: 성능 안좋음 >> 0.3...?

 

2) B case

- 1차 XGBoost Regression + 2차 KNN(n_neighbors=3)

 

***********

score 비교 >> B case(Xgboost_knn.csv) 높아짐!!

***********

 

- 제출파일

Xgboost_knn - Xgboost_knn.csv
0.00MB

 

3) C case (line별 x)

- nan값 0으로 대체 DNN 으로 Y_quality예측

- 예측후 통계값으로 Y_class예측

'LG AI(AImiers) 과정' 카테고리의 다른 글

기록_2  (0) 2023.02.17
Casual Effect Identifiability  (0) 2023.01.26
Time-SeriesTransformer (TST)  (0) 2023.01.24
[part6. ensemble]  (0) 2023.01.14
part2. linear regression  (0) 2023.01.06