[kaggle] Bike Sharing Demand: ML 성능 개선 3편 (머신러닝 결측치 처리)
·
Data Science/Kaggle
이번 포스팅은 캐글 Bike Sharing Demand(자전거 수요예측) 프로젝트의 마지막 포스팅이다. 저번 포스팅에서는 타겟을 count로 바꾸고, season과 month 중 더 유의미한 변수를 선택하는 등의 성능 개선을 통해 0.379까지 스코어를 올렸다! 이번 포스팅에서는 좀 더 스코어를 올리기 위해, windspeed 변수를 건드려볼 것이다. 이번에는 이 변수를 아예 제거하거나 0을 처리해주었을 때 스코어가 어떻게 변하는지를 알아보자! NOTE: 앞의 포스팅과 중복되는 코드가 많아 필요한 코드만 포스팅하였습니다. 전체 코드는 이 깃허브의 v.4, v.5 참고하세요! ✔Table of Contents ver.4 windspeed 변수 drop 이전 포스팅 결과에 따라, target은 count를,..
[kaggle] Bike Sharing Demand: ML 성능 개선 2편 (변수 선택)
·
Data Science/Kaggle
저번 포스팅에서 LGBM 모델을 하이퍼 파라미터 튜닝하여 얻은 스코어는 약 0.407이었다. 이번에는 이 score에서 성능을 더 끌어올리기 위해 내가 시도한 여러 가지 방법들에 대해 포스팅하였다. 과연 이 스코어는 얼마까지 좋아질 수 있을까? 🤔 참고로, 이번 포스팅은 저번 포스팅과 중복되는 코드가 많을 예정이기에, 달라진 부분들만 중점적으로 포스팅하려고 한다. 전체 코드가 궁금하신 분들께서는 깃허브에 ML v.2 부터 v.5까지 올라와 있으므로 참고하세요 :) ✔Table of Contents ver.2 count 변수를 타겟으로 앞의 LGBM 모델링은, casual에 대한 예측과 registered에 대한 예측을 따로 한 다음, 두 예측치를 합하여 count 예측치를 구했다. 이렇게 한 이유는 ED..
[kaggle] Bike Sharing Demand: ML 성능 개선 1편 (Ridge, Random Forest, LGBM)
·
Data Science/Kaggle
직전 포스팅에서는 베이스라인 모델로 선형 회귀(Linear Regression)를 사용해 k-fold를 진행하였고, 검증셋에 대한 RMSLE는 0.9~1 정도로 그렇게 좋은 성능은 얻어내지 못했다. 하지만! 베이스라인 모델이니까 어쩌면 당연하다. 이번에는 다양한 모델들(릿지 회귀, Random Forest, LGBM)을 사용해서 성능이 이전과 얼마나 달라졌는지를 확인하고, 최종 제출까지 해보았다. 참고로 전체 코드는 이 깃허브에서 확인하실 수 있습니다. (ML v.1 파일입니다!) ✔Table of Contents 3. Modeling (성능 개선 편) 캐글에서는 지표로 RMSLE 값을 사용한다고 하였으나, 사이킷런의 metric을 사용하는 관계로 편의를 위해 포스팅에선 MSLE값을 구하는 것으로 하였다..
머신러닝을 활용한 고객 이용 횟수 예측 - 모델링 / 파이썬 데이터 분석 실무 테크닉 100
·
Data Science/Analysis Study
이렇게 모델링을 위한 데이터 가공을 마쳤습니다. 이제는 모델링을 직접 해봅시다. ✔Table of Contents Tech 38. 선형회귀 모델링 모델 구축에 앞서, pred_data 전처리를 한번 더 합니다. 가입일자(start_date) 변수가 2018년 4월 이후인 데이터로만 데이터를 한정합니다. 왜냐하면 만들어둔 이용횟수 변수의 날짜가 모두 2018년 4월~2019년 3월이거든요. 너무 오래 전부터 있던 회원은 가입시기 데이터가 존재하지 않거나 이용횟수가 안정적일 가능성이 높기 때문에 비교적 신규인 회원들로만 데이터를 다시 만들어봅니다. print(pred_data.shape) pred_data = pred_data.loc[pred_data['start_date'] >= pd.to_datetime..
머신러닝을 활용한 고객 이용 횟수 예측 - 전처리 / 파이썬 데이터 분석 실무 테크닉 100
·
Data Science/Analysis Study
이전 포스팅에 바로 이어서, 이번에는 고객의 과거 데이터를 바탕으로 행동을 예측해봅시다. 여기서 해볼 에측은 회원의 과거 헬스장 이용 이력 데이터를 바탕으로, 다음 달의 이용 횟수가 몇 회가 될지를 예측해볼 것입니다. 이러한 예측을 위해 머신 러닝(Machine Learning, 기계학습)을 수행해볼 것인데, 여기서 사용하는 것은 지도학습 모델링입니다. 지도학습 모델링은 '정답 데이터'가 존재하는 모델링을 의미합니다. 여기서 이야기하는 정답 데이터는 종속변수(y, target)을 의미하며 이러한 정답 데이터가 없으면 비지도학습입니다. 과거 데이터를 학습 데이터(train set)로 하여 모델을 만들고, 검증 데이터(validation set)로 모델의 성능을 평가합니다. 마지막으로 정답을 모르는 테스트 ..
Everly.
'회귀' 태그의 글 목록