목록EDA (8)
Yours Ever, Data Chronicles

저번 포스팅에 이어, 이번에는 나머지 범주형 변수들에 대해 EDA를 진행한다. ✔Table of Contents 4. nom_* 변수 EDA (feat. 통계의 함정) 이 변수는 명목형 변수로, 저번 포스팅에서 봤던 bin_* 변수는 고유값이 단 2개였지만 이 변수는 고유값이 여러개이다. 먼저 nom_* 변수를 담은 list2를 만들고, 각 변수별 고유값을 살펴보자. list2 = list() for i in range(0, 10): list2.append('nom_{0}'.format(i)) for ind, col in enumerate(train[list2]): print(col, '의 고유값은: ', train[col].unique()) 결과를 보면 굉장히 스크롤 압박이 심하다. nom_0 ~ no..

두번째로 해본 캐글 프로젝트는 범주형 데이터를 분석하는 프로젝트, Categorical Feature Encoding Challenge이다. 링크를 클릭하면 캐글에서 데이터셋을 다운받을 수 있다. 이 프로젝트에서 사용되는 데이터는 전부 범주형 데이터셋이다. 학습에 사용되는 피처들뿐만 아니라 target 변수까지 모두 범주형 데이터로 되어 있다. 그래서 이번 프로젝트 (특히 EDA 편)에서는 범주형 데이터를 어떻게 분석하는지를 자세히 다룰 것이다. (여담인데, 이 프로젝트 캐글 페이지에 고양이가 있는 이유는 범주형 데이터 분석(Categorical Data)를 줄여 cat-in-the-dat 이라고 이름을 만들었기 때문! 귀엽당...) 또한 이 프로젝트와 포스팅에서 사용된 코드는 나의 깃허브에서 다운받을 ..

저번 포스팅에선 [수치형 변수 및 범주형 변수와 대여량 간 관계]를 시각화해보았고, 시간과 날씨 데이터에 대해 알아보았다. 이번 포스팅에선 분기(season)와 workingday 및 holiday 변수들이 대여량과 어떤 관계가 있는지를 시각화해보았다. ✔Table of Contents 2) 범주형 변수와 대여량 간 관계(con't) 나머지 변수들인 season, workingday, holiday와 대여량 간 관계를 시각화한다. 2-3) season과 평균 대여량 간 관계 저번 포스팅에서도 말했지만, 캐글 데이터상으로는 season이 '계절' 로 나와 있으나, 사실상 '분기'로 봐야 한다고 했었다. barplot을 그려보면.. # 1,4사분기 포커스 fig, axs = plt.subplots(1,3, ..

첫 번째로 시작한 kaggle 프로젝트는 바로 'Bike Sharing Demand Project' 이다. 아주 유명한 데이터셋이라 많이 들어본 분들도 있으리라 생각한다. (무려 7년 전 데이터..!) 2022년 5월 25일부터 2022년 6월 9일까지 2주 동안 분석해보았다. 프로젝트 목표 [최종 목표] test 데이터의 대여량(count) 값을 예측하라! 1. train data를 바탕으로 사용자들의 사용 패턴을 파악한다. → (1) EDA 편 2. 앞서 알아본 패턴을 바탕으로, 적절한 모델을 설정하고 모델링을 통해 test data에 대해 예측한다. → (2) 머신러닝 편 이 포스팅은 데이터를 핸들링하는 EDA 편이며, 코드보단 설명 위주(왜 이렇게 분석했는지, 무엇을 얻었는지)의 포스팅이 될 예정..

앞선 2개의 포스팅을 통해, 데이터의 종류(수치형 데이터, 범주형 데이터)와 변수의 개수(1개 / 2개 이상)에 따라 어떤 그래프를 그려야 하는지, 각 그래프를 통해 어떤 관계를 파악할 수 있는지 알아보았다. 그런데 EDA를 하다보면 앞에서 그린 그래프처럼 한 번에 1개의 plot만 그리는 경우는 많지 않다. 비교를 위해 1개의 plot에 여러 가지 그래프를 한꺼번에 그리는 경우가 대부분이다. 다른 분들의 EDA 결과물을 참고할 때, 밑의 그림처럼 하나의 plot에 4개의 그래프가 나와 있는 경우를 많이 봤을 것이다. 이번 포스팅에서는 위의 그림처럼 하나의 plot에 여러 가지 그래프를 넣는 방법에 대해 알아본다. 이렇게 그릴 수 있는 방법은 plt.add_subplot(), plt.subplots(),..

파이썬 EDA를 하는 데 정말 중요한 주요 시각화 그래프에 대해 정리한다. 모든 그래프를 다루진 않으며, 많이 쓰이는 그래프를 중심으로만 정리하였다. 구체적으로는 데이터 종류(수치형, 범주형 데이터)에 따라, 변수 개수(1개, 2개 이상)에 따라 어떤 그래프를 그려야 할지를 정리하였다. 주피터 노트북 코드는 다음 깃허브에서 '1. [EDA guide] 주요 데이터 시각화' 파일을 공유해두었다 :) 이번 포스팅에서는 수치형 데이터(numerical data)를 시각화하는 방법을 다룬다. 참고로 시각화 라이브러리는 seaborn을 위주로 작성하였다. ✔Table of Contents 1. 데이터의 종류 먼저 데이터에는 크게 '수치형 데이터(numerical data)'와 '범주형 데이터(categorical..

저번 포스팅에 이어, 이번에는 이용이력(ul) 데이터를 가공하여 사전 분석을 실시한다. ✔Table of Contents Tech 25. 이용이력 데이터를 집계하자. 이용이력 데이터는 저번 포스팅에서 했던 고객 데이터와 다른 점이 무엇일까? 바로 고객 데이터와는 달리, 회원이 스포츠센터를 이용할 때마다 시간이 찍히기 때문에 시간적인 요소를 분석할 수 있다. 예를 들어 한 달 이용 횟수의 변화나, 회원이 스포츠센터를 정기적/비정기적으로 이용하는지 와 같은 것들이다. 우리는 우선, 스포츠센터를 이용하는 회원들이 월별 몇 회를 이용하는지 그 평균값, 중앙값, 최댓값, 최솟값을 구해보도록 하자. 이용이력(ul) 데이터는 고객데이터와는 달리 customer_id가 중복이 있기 때문에(이용할 때마다 찍히는 데이터이..

안녕하세요, Everly입니다 :) 저번 포스팅(파이썬 데이터 분석 #1장, #2장)을 통해, 현장에서 데이터 분석을 어떻게 시작하는지에 대해 기본적인 내용을 공부했습니다. 이번 포스팅부터는 데이터 분석을 본격적으로 시작해 보겠습니다. 데이터 분석 업무를 한다는 것은 결국 '결과를 내기 위한' 것입니다. 여기에는 2가지 측면이 있는데요, 하나는 통계를 사용한 사전 분석으로, EDA라고도 합니다. 데이터를 찬찬히 뜯어보고, 가공하는 데이터 핸들링(data handling)을 하는 과정입니다. 이 과정에서 현재의 상황이 어떤지를 데이터를 통해 자세히 알아볼 수 있죠. 또한 이러한 현황 파악을 통해 어떠한 알고리즘을 적용하면 좋을지도 알 수 있습니다. 나머지 하나는 앞서 한 사전 분석을 토대로, 머신 러닝 알..