목록파이썬데이터분석 (3)
Yours Ever, Data Chronicles

안녕하세요, Everly입니다 :) 저번 포스팅(파이썬 데이터 분석 #1장, #2장)을 통해, 현장에서 데이터 분석을 어떻게 시작하는지에 대해 기본적인 내용을 공부했습니다. 이번 포스팅부터는 데이터 분석을 본격적으로 시작해 보겠습니다. 데이터 분석 업무를 한다는 것은 결국 '결과를 내기 위한' 것입니다. 여기에는 2가지 측면이 있는데요, 하나는 통계를 사용한 사전 분석으로, EDA라고도 합니다. 데이터를 찬찬히 뜯어보고, 가공하는 데이터 핸들링(data handling)을 하는 과정입니다. 이 과정에서 현재의 상황이 어떤지를 데이터를 통해 자세히 알아볼 수 있죠. 또한 이러한 현황 파악을 통해 어떠한 알고리즘을 적용하면 좋을지도 알 수 있습니다. 나머지 하나는 앞서 한 사전 분석을 토대로, 머신 러닝 알..

저번 포스팅에서 이어서 '지저분한 데이터 가공하기'의 남은 부분을 공부해보자. 배우는 부분: 데이터 전처리 / 데이터 가공 / 엑셀 숫자 날짜로 변환 / 문자열 전처리 ✔Table of Contents Tech 16. 고객 이름 오류 수정하기 이번에는 'ko'라고 하는 데이터를 살펴보자. 이는 엑셀(xlsx) 데이터로, 많은 오류가 있다. ko.head() 보다시피 고객이름은 '김 현성'처럼 공백이 들어가 있으며, 등록일은 날짜타입으로 된 것도 있으나 숫자형태로 되어 있기도 하다. 이는 엑셀에서의 서식을 날짜가 아닌 다른 방식으로 지정했기 때문이다. 우선 고객 이름부터 수정해보도록 하자. 고객이름에는 공백이 두 번(" ") 들어있는 것도 있고, 한 번(" ") 들어있는 것도 있는데, 이러한 공백들을 모두..

저번 포스팅에서 다뤘던 쇼핑몰 데이터는 프로그램으로 알아서 데이터가 쌓이고 있어, 비교적 깨끗한 데이터였는데요. 하지만 이번 포스팅에서 다룰 데이터는 사람이 수기로 입력한 엑셀 데이터로, '지저분한 데이터'를 가공하는 방법을 포스팅해보겠습니다. 제가 회사에서 일했을 때의 데이터는 데이터베이스에서 내려받을 수 있는, 비교적 깔끔한 데이터였지만 아직까지 비즈니스 현장에서는 사람이 직접 손으로 입력한 데이터가 많습니다. 어떠한 데이터 형식으로 되어있든지간에, 개떡같은 데이터도 찰떡같이 분석하는 것이 데이터 사이언티스트라면 기본이겠죠? 이번 시간에 다룰 데이터는 가상의 대리점 데이터로, 매출현황과 고객정보가 들어있는 2개의 데이터를 제공받았습니다. - uriage.csv : 매출 이력 데이터, 상품 A~Z까지 ..