목록전체 글 (176)
Yours Ever, Data Chronicles
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/U4giO/btrq12qOAXB/tgKe9OrbF2KBRZmVU2E4k0/img.png)
저번 포스팅에 이어, 이번에는 이용이력(ul) 데이터를 가공하여 사전 분석을 실시한다. ✔Table of Contents Tech 25. 이용이력 데이터를 집계하자. 이용이력 데이터는 저번 포스팅에서 했던 고객 데이터와 다른 점이 무엇일까? 바로 고객 데이터와는 달리, 회원이 스포츠센터를 이용할 때마다 시간이 찍히기 때문에 시간적인 요소를 분석할 수 있다. 예를 들어 한 달 이용 횟수의 변화나, 회원이 스포츠센터를 정기적/비정기적으로 이용하는지 와 같은 것들이다. 우리는 우선, 스포츠센터를 이용하는 회원들이 월별 몇 회를 이용하는지 그 평균값, 중앙값, 최댓값, 최솟값을 구해보도록 하자. 이용이력(ul) 데이터는 고객데이터와는 달리 customer_id가 중복이 있기 때문에(이용할 때마다 찍히는 데이터이..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/dhWXAM/btrqQfscqL7/WrsUAJhBXmVWTvvIrR6XDK/img.png)
안녕하세요, Everly입니다 :) 저번 포스팅(파이썬 데이터 분석 #1장, #2장)을 통해, 현장에서 데이터 분석을 어떻게 시작하는지에 대해 기본적인 내용을 공부했습니다. 이번 포스팅부터는 데이터 분석을 본격적으로 시작해 보겠습니다. 데이터 분석 업무를 한다는 것은 결국 '결과를 내기 위한' 것입니다. 여기에는 2가지 측면이 있는데요, 하나는 통계를 사용한 사전 분석으로, EDA라고도 합니다. 데이터를 찬찬히 뜯어보고, 가공하는 데이터 핸들링(data handling)을 하는 과정입니다. 이 과정에서 현재의 상황이 어떤지를 데이터를 통해 자세히 알아볼 수 있죠. 또한 이러한 현황 파악을 통해 어떠한 알고리즘을 적용하면 좋을지도 알 수 있습니다. 나머지 하나는 앞서 한 사전 분석을 토대로, 머신 러닝 알..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/oGjsQ/btrqT1fDzlE/kehC6ZIopScA9Z2YEZDf0k/img.jpg)
사람은 무엇으로 사는가 — 톨스토이 단편선 ① 레프 니콜라예비치 톨스토이 지음, 더클래식 정말 유명한 책인 톨스토이의 '사람은 무엇으로 사는가'. 간단한 단편 소설들을 묶은 책이라 약 3일 정도만에 다 읽었다. 부담 없는 내용에 술술 읽히는 소설이었다. 이 소설을 읽게 된 계기는 마음이 힘들 때, 내가 왜 살아야 하는지 모르겠을 때 읽으면 좋다고 해서 읽게 되었다. 나는 지금 내 인생의 뭐랄까.. 변곡점에 서 있는 느낌이다. 특히 학교와 직장이라는 울타리 없이 처음 지내보는 시간이기에 더 그랬다. 그래서 한창 인생의 의미는 무엇일까, 무조건 쉴틈없이 돈을 많이 벌면서 사는 삶이 가치있을까 하는 고민을 많이 했던 것 같다. 특히 쉴틈없이 달려온 일상 때문에 번아웃도 많이 온 상태였기 때문에. 책의 내용 중..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bmhXcz/btrq0SobKfd/5Us2Rt5QMF6A8Lvo3eRPJk/img.jpg)
감사의 힘(Thank-you Power) - 데보라 노빌, 위즈덤하우스(2007) 이 책은 이전에 계절학기로 심리학 교양을 들었을 때, 교수님께서 추천해주셨던 책이다. ‘감사’를 많이 느끼는 사람은 행복해진다는 말씀을 해주신 적이 있는데, 사실 그 때는 그게 왜 중요하지? 라고 생각을 했고, 인생이 행복해지려면 감사가 아니라 다른 많은 것들—이를테면 돈, 사랑하는 사람이라고 생각했다—이 필요한 것이 아닌가 싶어서, 그냥 허울 좋은 소리일 뿐이라고 생각했다. 하지만 최근에는 학교도 졸업하고 인턴도 끝나서, 학교와 직장 둘 중 아무 곳에도 속해 있지 않은 현재의 위치와 상황 때문에 많은 스트레스를 받고 있었고, 특히 작년은(2021년) 많은 시간을 불평불만을 하며 살았기 때문에 내 처지를 비관했고 나 스스로..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/OOerE/btrqOgQCLOJ/Yvh7lsN3164KlulxDCK4Ck/img.jpg)
안녕하세요! Everly입니다 🙂 오늘은 첫 저의 컬러 증명사진을 찍고 왔는데요ㅎㅎ 사실 사진찍기에 익숙하지 않은 저이다보니, 꼭 필요한 증명사진인 여권사진, 주민등록증사진 같은것들만 일반적인 사진관에 가서 간단히 찍은 게 다였어요. 마지막으로 찍은건 무려 2020년 겨울이었다는..ㅎ 그런데 요즘은 증명사진도 컬러 증명사진이 유행이죠! 저도 이력서에 부착할 취업사진을 위해 망원역에 위치한 '뮤트룸' 스튜디오에 다녀왔습니다. 우선 저는 취업사진이라 해도 그냥 일반적인 그런 밋밋한 정장입고 찍은.. 게 싫더라구요 🥲 어차피 단정하게만 보이면 되는 거! 예쁘게 찍고 싶었습니다ㅎㅎ (그리고 사실 기업 입장에서 사진은 많이 중요한 요소도 아니기 때문에..) 그래서 먼저 프로필 사진을 찍는 스튜디오를 알아봤는데, ..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/c5B4aR/btrqIryUQLW/BkLpROkKv6ELrHOM5k8me1/img.png)
저번 포스팅에서 이어서 '지저분한 데이터 가공하기'의 남은 부분을 공부해보자. 배우는 부분: 데이터 전처리 / 데이터 가공 / 엑셀 숫자 날짜로 변환 / 문자열 전처리 ✔Table of Contents Tech 16. 고객 이름 오류 수정하기 이번에는 'ko'라고 하는 데이터를 살펴보자. 이는 엑셀(xlsx) 데이터로, 많은 오류가 있다. ko.head() 보다시피 고객이름은 '김 현성'처럼 공백이 들어가 있으며, 등록일은 날짜타입으로 된 것도 있으나 숫자형태로 되어 있기도 하다. 이는 엑셀에서의 서식을 날짜가 아닌 다른 방식으로 지정했기 때문이다. 우선 고객 이름부터 수정해보도록 하자. 고객이름에는 공백이 두 번(" ") 들어있는 것도 있고, 한 번(" ") 들어있는 것도 있는데, 이러한 공백들을 모두..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/AvMfD/btrqFjudPI3/6EJ8KkIj8T9NicETM5HOWk/img.png)
저번 포스팅에서 다뤘던 쇼핑몰 데이터는 프로그램으로 알아서 데이터가 쌓이고 있어, 비교적 깨끗한 데이터였는데요. 하지만 이번 포스팅에서 다룰 데이터는 사람이 수기로 입력한 엑셀 데이터로, '지저분한 데이터'를 가공하는 방법을 포스팅해보겠습니다. 제가 회사에서 일했을 때의 데이터는 데이터베이스에서 내려받을 수 있는, 비교적 깔끔한 데이터였지만 아직까지 비즈니스 현장에서는 사람이 직접 손으로 입력한 데이터가 많습니다. 어떠한 데이터 형식으로 되어있든지간에, 개떡같은 데이터도 찰떡같이 분석하는 것이 데이터 사이언티스트라면 기본이겠죠? 이번 시간에 다룰 데이터는 가상의 대리점 데이터로, 매출현황과 고객정보가 들어있는 2개의 데이터를 제공받았습니다. - uriage.csv : 매출 이력 데이터, 상품 A~Z까지 ..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/RdsZH/btrqAVltxEy/qQA2gL1iCeiLFvfF0eSTEK/img.png)
저번 포스팅에 이어서 이번에는 본격적으로 쇼핑몰 데이터의 주문 수를 기준으로 분석해 보겠습니다. 저번 포스팅에선 주어진 데이터가 있을 때, 어떻게 데이터들을 결합시키고 필요한 열을 만드는지를 위주로 보았습니다. 이번엔 만든 "join_data"를 가지고, 본격적인 분석을 시작해 보겠습니다! 앞서, 의뢰가 들어온 쇼핑몰에서는 현재 전체 매출액만 알고 있을 뿐, 데이터와 관련한 정보는 하나도 아는 것이 없었습니다. 우리는 이 데이터를 바탕으로 인사이트를 찾아야 하는데, 분석에 앞서 스스로 "질문해보는 것"이 아주 중요합니다. (궁금한 게 있어야 분석을 할 수 있으니까요!) 어떤 점이 궁금한가요? 궁금한 게 마땅히 떠오르지 않는다면, 먼저 데이터의 현 상황부터 파악해 봅시다! ✔Table of Contents..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/drKyXq/btrqAT827a6/vWaIbLtpYC71jRV8Ul85o0/img.png)
오늘부터는 『파이썬 데이터 분석 실무 테크닉 100』 책을 한 챕터씩 공부해보려고 한다. (책 자세히 보기) 이 책은 100가지 예제를 통해, 파이썬으로 데이터를 가공- 머신러닝 - 이미지/자연어 처리를 하는 방법까지를 다루고 있다. 나는 주로 데이터 분석 공부를 이러한 책을 통해 배우고 있는데, 인턴을 하면서 느꼈던 것은 "실무를 위한" 공부를 해야 한다는 것이었다.(이론만 알아서는 절대 안된다!) 파이썬 기초 수준의 공부를 했다면(기초 책으로는 『Do it! Jump to Python』 이나 『Do it! Pandas 입문』 편을 추천한다.) 그 다음으로는 실무에서 데이터 분석을 어떻게 하고 있는지를 알아야 한다. 그런 점에서 이 책은 실제로 실무에서 하는 그러한 예제들을 다루고 있어, 데이터 분석을..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/kCSvR/btrp94SmsfT/D54c9pHE394iQHmL5ak33K/img.jpg)
웰씽킹(Wealthinking): 부를 창조하는 생각의 뿌리 - 켈리 최 지음, 다산북스(2021) 유튜브의 순기능 중 하나는 많은 존경스러운 분들의 컨텐츠를 무료로 접할 수 있다는 점이다. 작년 12월부터는 자산 관리에 관심이 급격히 커졌다. 원래는 미라클 모닝 컨텐츠만 보던 나였는데 『투자가로 살아라』라는 책을 추천받아 읽어보게 되었고, 또 20대 후반에 집을 산 사람들의 스토리를 보면서 자연스럽게 투자 라는 것에 관심을 갖게 되었다. (사실 예적금 개념밖에 모르고 빚을 만들면 안된다는 그런 생각을 가진 나에겐 많은 발전이었다.) 그러다 켈리 최 님의 유튜브를 보게 되었고, 신간인 '웰씽킹'을 내셨다고 해서 바로 사서 읽어 보았다. 저자 켈리 최 님은 정말 가난한 시골 농가에서 자라 고등학교도 가지 ..