목록데이터분석 (26)
Yours Ever, Data Chronicles

이번 포스팅은 통계학과 출신으로서, 데이터에 관심을 갖게 된 계기와 데이터 직군을 준비하면서 고민했던 것들, 경험했던 것들 그리고 앞으로는 어떤 방향으로 나아갈지에 대한 내용을 담아보고자 합니다. 데이터 직군을 준비하시는 분들께 조금이나마 도움이 되었으면 하며, 저는 아직도 부족한 점이 많기에 참고용으로 봐주시면 좋을 것 같아요 :) 2018. 내가 데이터의 매력에 처음 빠져 버렸던 계기는 2018년으로 거슬러 올라간다. 당시 대학교 2학년이었던 나는 부동산학과에서 열렸던 GIS를 활용한 분석 수업을 들었는데, 기존에 사용하던 비효율적인 방법을 데이터를 활용하면 더 효율적이면서도 합리적으로 문제해결을 할 수 있다는 것에 신선함을 느꼈다. 그 때 '무인택배함이 위치할 가장 최적의 장소를 GIS를 활용해 도..

숫자를 돈으로 바꾸는 데이터 읽기의 기술 - 차현나 지음, 청림출판(2019) 이 책은 인턴 시절, 다른 인턴 분의 추천으로 동저자의 ‘데이터 쓰기의 기술’이라는 책을 읽어본 적이 있었는데, 이 책의 내용이 좋아서 같은 시리즈였던 ‘데이터 읽기의 기술’은 직접 구매하여 읽어보았다. 이 책은 '데이터 분석'을 아예 모르는 사람들보다는 한번쯤 들어 보았고, 간단한 분석이라도 한번 해본 사람들에게 추천하는 책이다. 왜냐하면 분석을 하면 할수록 생기는 어려움 중 하나인 '배경 지식(암묵지)'에 관한 내용 위주로 들어 있기 때문이다. 데이터 분석을 아예 모르고 처음 접하는 사람들은 데이터 분석은 기술만 있으면 된다고 생각한다. 이를테면 Python, R 등으로 코딩을 잘 해야 하고 머신러닝 몇 개 정도 해보면 곧..

저번 포스팅에 이어, 이번에는 이용이력(ul) 데이터를 가공하여 사전 분석을 실시한다. ✔Table of Contents Tech 25. 이용이력 데이터를 집계하자. 이용이력 데이터는 저번 포스팅에서 했던 고객 데이터와 다른 점이 무엇일까? 바로 고객 데이터와는 달리, 회원이 스포츠센터를 이용할 때마다 시간이 찍히기 때문에 시간적인 요소를 분석할 수 있다. 예를 들어 한 달 이용 횟수의 변화나, 회원이 스포츠센터를 정기적/비정기적으로 이용하는지 와 같은 것들이다. 우리는 우선, 스포츠센터를 이용하는 회원들이 월별 몇 회를 이용하는지 그 평균값, 중앙값, 최댓값, 최솟값을 구해보도록 하자. 이용이력(ul) 데이터는 고객데이터와는 달리 customer_id가 중복이 있기 때문에(이용할 때마다 찍히는 데이터이..

저번 포스팅에서 이어서 '지저분한 데이터 가공하기'의 남은 부분을 공부해보자. 배우는 부분: 데이터 전처리 / 데이터 가공 / 엑셀 숫자 날짜로 변환 / 문자열 전처리 ✔Table of Contents Tech 16. 고객 이름 오류 수정하기 이번에는 'ko'라고 하는 데이터를 살펴보자. 이는 엑셀(xlsx) 데이터로, 많은 오류가 있다. ko.head() 보다시피 고객이름은 '김 현성'처럼 공백이 들어가 있으며, 등록일은 날짜타입으로 된 것도 있으나 숫자형태로 되어 있기도 하다. 이는 엑셀에서의 서식을 날짜가 아닌 다른 방식으로 지정했기 때문이다. 우선 고객 이름부터 수정해보도록 하자. 고객이름에는 공백이 두 번(" ") 들어있는 것도 있고, 한 번(" ") 들어있는 것도 있는데, 이러한 공백들을 모두..

저번 포스팅에 이어서 이번에는 본격적으로 쇼핑몰 데이터의 주문 수를 기준으로 분석해 보겠습니다. 저번 포스팅에선 주어진 데이터가 있을 때, 어떻게 데이터들을 결합시키고 필요한 열을 만드는지를 위주로 보았습니다. 이번엔 만든 "join_data"를 가지고, 본격적인 분석을 시작해 보겠습니다! 앞서, 의뢰가 들어온 쇼핑몰에서는 현재 전체 매출액만 알고 있을 뿐, 데이터와 관련한 정보는 하나도 아는 것이 없었습니다. 우리는 이 데이터를 바탕으로 인사이트를 찾아야 하는데, 분석에 앞서 스스로 "질문해보는 것"이 아주 중요합니다. (궁금한 게 있어야 분석을 할 수 있으니까요!) 어떤 점이 궁금한가요? 궁금한 게 마땅히 떠오르지 않는다면, 먼저 데이터의 현 상황부터 파악해 봅시다! ✔Table of Contents..

오늘부터는 『파이썬 데이터 분석 실무 테크닉 100』 책을 한 챕터씩 공부해보려고 한다. (책 자세히 보기) 이 책은 100가지 예제를 통해, 파이썬으로 데이터를 가공- 머신러닝 - 이미지/자연어 처리를 하는 방법까지를 다루고 있다. 나는 주로 데이터 분석 공부를 이러한 책을 통해 배우고 있는데, 인턴을 하면서 느꼈던 것은 "실무를 위한" 공부를 해야 한다는 것이었다.(이론만 알아서는 절대 안된다!) 파이썬 기초 수준의 공부를 했다면(기초 책으로는 『Do it! Jump to Python』 이나 『Do it! Pandas 입문』 편을 추천한다.) 그 다음으로는 실무에서 데이터 분석을 어떻게 하고 있는지를 알아야 한다. 그런 점에서 이 책은 실제로 실무에서 하는 그러한 예제들을 다루고 있어, 데이터 분석을..