목록전처리 (4)
Yours Ever, Data Chronicles

저번 포스팅에서 EDA를 통해, Bike Sharing Demand 프로젝트에 사용된 데이터가 어떻게 되어 있고, 변수 간에 어떤 관계가 있었으며, 어떤 변수를 머신러닝에 사용할 것인지에 대해 검토하였다. 저번 포스팅에서 발견한 정보들을 간략히 정리해보면 다음과 같다. 수치형 변수 온도(temp, atemp), 습도(humidity), 풍향(windspeed): 각각 대여량(target)과 정비례, 반비례, 정비례 관계 특히 hour별로 봤을 때, casual일 때 대여량과 상관성이 높았다. 카테고리 변수 시간 변수로는 연도(year), 월(month), 시간(hour), 요일(dayofweek)이 유의미했다. 분기(season), 날씨(weather), 평일(workingday), 공휴일(holiday..

안녕하세요~ Everly입니다 😀 오늘부터는 [파이썬 데이터 분석 실무 테크닉 100] 책의 마지막 10장인 '자연어 처리' 부분 포스팅을 업로드합니다. 이 자연어 처리(NLP; Natural Language Processing) 기술은 텍스트(text) 데이터를 분석하는 것으로, 비정형 데이터를 분석하는 기술이라고 볼 수 있겠죠. 예를 들어 고객에게 설문조사를 실시하고, 여기서 필요한 정보만 뽑아낸다고 해봅시다. 설문조사를 한 고객 수가 적으면 일일이 확인해도 되겠지만, 이게 몇 천, 몇 만 명에게 했다고 한다면 사람의 눈으로 파악하기 힘들겠죠. 그리고 어차피 우리가 궁금한 것은 사람들이 공통적으로 말하고 있는 장점이나 단점 정도만 보면 될 테니까요! 이럴 때 사람이 아니라 NLP를 활용한 데이터 분석..

저번 포스팅에 이어, 조금의 전처리를 수행하고 고객 이탈을 예측하는 분류 모델링을 해봅니다. ✔Table of Contents Tech 44. 예측할 달의 재적 기간을 작성하자 앞선 포스팅에서 탈퇴회원과 지속회원의 데이터를 결합한 pred_data를 만들었습니다. 이 상태로 그대로 쓰기 전에 새로운 시계열 변수 '재적 기간'을 추가해봅니다. 재적기간(period) 변수는 [파이썬 데이터 분석 #4]에서 했던 것과 마찬가지로, 현재 연월에서 가입시기(start_date) 값을 빼서 만듭니다. period의 단위는 월(month) 입니다. pred_data['period'] = 0 #초기화 pred_data['now_date'] = pd.to_datetime(pred_data['연월'], format = '..

안녕하세요 Everly입니다 :) 지난 4장에서는 클러스터링(Clustering)을 통해 고객의 행동을 유형별로 나눴었죠. 그리고 고객의 과거 6개월 간의 데이터를 바탕으로, 바로 다음 1달 동안의 이용횟수를 선형 회귀(Linear Regression model)를 통해 예측해보았습니다. 이렇게 고객의 행동 패턴을 분석하고 예측할 수 있다면, 실무를 하는 데 있어 여러 활용도가 있을 것입니다. 고객 유형을 나눠 특정 군집에 행동을 유발할 마케팅을 해볼 수도 있고, 다음달 예상되는 이용횟수를 바탕으로 적합한 프로모션을 할 수도 있겠죠. 이를테면 헬스클럽에 수요일이 가장 적게 올 것이 예측되면 '수요일은 헬스데이!' 라는 프로모션을 만들 수도 있을 것입니다. 이렇게 머신러닝(Machine Learning)을..