목록Data Science (60)
Yours Ever, Data Chronicles

데이터 분석은 그저 공부만 하는 것보다는, 실전 데이터를 바탕으로 적용해보는 것이 훨씬 좋다는 조언을 듣고 [Kaggle] 카테고리를 개설하였다. 앞으로 이 카테고리에는 내가 분석한 kaggle project를 종종 올릴 예정이며, 아직 내가 캐글 초보자이기 때문에 유명한 프로젝트들(이미 종료된 프로젝트들)을 위주로 분석해볼 생각이다. 아무래도 내가 혼자서 하다가 성능이 아주 안좋아지거나 할 수 있어서, 일단 혼자서 모두 해보고, 성능이 안 좋다면 다른 참여자들이 공유한 코드를 활용해 보완할 예정이다. 그리고 왜 내가 혼자 한 것이 성능이 안 좋았는지도 고민해보고.. ㅎ.ㅎ 그리고 좀 익숙해지면, 현재 열리고 있는 캐글 프로젝트에 참여한 것도 포스팅하려고 한다 :) 활용 언어는 파이썬(Python)을 사..

이 책은 서점에서 책을 구경하다 우연히 발견한 보물 같은 책이다. 이전에 블로그에서도 여러 번 언급했었지만, 이제 막 데이터 분석을 공부하기 시작한 사람이 아닌, 데이터 분석 업무를 해봤거나 혹은 데이터 분석의 어려움과 관련한 책과 글을 읽어본 사람이라면 데이터 분석의 어려운 점은 기술적인 부분이 아님을 알 것이다. 나는 처음에 이런 것을 모르고, “난 코딩/분석 공부도 많이 했고, 통계학을 전공했으니 데이터 분석 일은 뭐든 할 수 있어!” 라는 오만한(?) 생각을 갖고 있다가 큰 좌절을 겪은 경험이 있다. 내가 알지 못했던 것들이자, 해결법을 몰랐던 것들을 항목화해서 써보자면 이런 것들이었다. 데이터를 딱 보고 이에 맞는 효과적인 분석을 하려면 어떻게 해야 하는 걸까? 어디서 그런 정보를 얻는 걸까? ..

안녕하세요, Everly입니다. 오늘 포스팅은 제가 작년 6개월 동안 데이터 분석 인턴으로서 회사에서 어떤 업무를 해보았는지에 관한 이야기입니다. 이 글을 읽으실 분들은 대부분 '데이터 분석'에 관심이 많고, 데이터 분석가 또는 데이터 사이언티스트를 목표로 인턴을 준비할 분들이라 생각합니다. 데이터 분석 인턴은 어떤 업무를 하는지 저의 경험을 나누어드리려 합니다 :) 저는 데이터 직군을 준비한다면 꼭 인턴을 해보길 추천하는 편인데, 그 이유는 데이터 분석을 실무에서 하는 것과 혼자서 배우는(또는 학교에서 배우는) 것과는 많은 차이가 있기 때문입니다. 특히 저는 스타트업 인턴을 추천하는데, 스타트업 인턴은 타 기업과는 달리 인턴이라도 정규직처럼 자신이 하는 업무를 세부적으로 배울 수 있다는 장점이 있습니다..

안녕하세요, Everly입니다 :) 오늘은 [파이썬 데이터 분석 실무 테크닉 100] 책의 가장 마지막 부분입니다. 저번 포스팅에서 원핫 인코딩을 활용해 문장을 숫자로 수치화했습니다. 이렇게 수치화한 데이터를 활용하여 유사한 문장을 찾아보겠습니다. ✔Table of Contents Tech 100. 비슷한 설문응답을 찾아보자. (코사인 유사도, cosine similarity) 마지막 100번째 테크닉입니다! 거의 다 왔습니다 😉 바로 직전 테크닉인 Tech 99에선 각 인덱스 문장에 들어있는 단어들로 단어가 포함되면 1, 아니면 0으로 나타내는 데이터프레임 'all_word' 를 만들었는데요. 여기서 특정 문장 A와 비슷한 문장 B를 찾아봅시다. 여기서 사용하는 것은 코사인 유사도(cosine simi..

저번 포스팅에서는 sur 데이터의 comment(의견) 컬럼을 konlpy를 활용해 형태소 분석해보았습니다. 그래서 자주 나온 명사를 살펴보았는데, 사실 이 단어가 긍정적인지, 부정적인지 모른다는 문제가 있었죠? 오늘은 이 단어와 고객만족도를 함께 살펴보고, 텍스트 데이터를 수치화하는 방법까지 알아보겠습니다 :) ✔Table of Contents Tech 98. 자주 나오는 단어와 고객 만족도 간 관계를 알아보자. (groupby agg) sur.head() sur 데이터에서 comment와 satisfaction만 따로 뽑아봅니다. 여기서 comment는 앞의 포스팅에서 한 것처럼, 명사만 뽑겠습니다. 물론 stopwords인 '더', '수', '좀' 도 제거합니다. 앞의 포스팅에서 쓴 코드를 살짝만 ..

저번 포스팅에 이어서, 이번엔 konlpy를 활용한 형태소 분석을 진행합니다. ※ 형태소 분석이란? 문장을 단어로 분할하는 기술로, 대표적인 한국어 형태소 분석 라이브러리로는 konlpy가 있다. konlpy 라이브러리가 없으신 분들은 pip install을 통해 다운을 받고 분석을 진행해봅시다. ✔Table of Contents Tech 94. 문장 분해하기 먼저 konlpy의 Twitter를 import하여, 어떤 예제 텍스트를 품사 단위로 분해해보겠습니다. #예제: text라는 문장을 품사 단위로 분해하기 from konlpy.tag import Twitter twt = Twitter() text = '형태소분석으로 문장을 분해해보자' tagging = twt.pos(text) tagging #단어..

안녕하세요~ Everly입니다 😀 오늘부터는 [파이썬 데이터 분석 실무 테크닉 100] 책의 마지막 10장인 '자연어 처리' 부분 포스팅을 업로드합니다. 이 자연어 처리(NLP; Natural Language Processing) 기술은 텍스트(text) 데이터를 분석하는 것으로, 비정형 데이터를 분석하는 기술이라고 볼 수 있겠죠. 예를 들어 고객에게 설문조사를 실시하고, 여기서 필요한 정보만 뽑아낸다고 해봅시다. 설문조사를 한 고객 수가 적으면 일일이 확인해도 되겠지만, 이게 몇 천, 몇 만 명에게 했다고 한다면 사람의 눈으로 파악하기 힘들겠죠. 그리고 어차피 우리가 궁금한 것은 사람들이 공통적으로 말하고 있는 장점이나 단점 정도만 보면 될 테니까요! 이럴 때 사람이 아니라 NLP를 활용한 데이터 분석..

안녕하세요, Everly입니다. 오늘은 [파이썬 데이터 분석 실무 테크닉 100] 의 "이미지 인식 기술" 마지막 포스팅입니다. 바로 전 포스팅에서 HOG의 SVMDetector 모델을 활용하여 동영상으로부터 사람을 인식하여, 사람 수를 세보았는데요! HOG 모델이 노이즈, 즉 오차가 많은 모델이라 정확한 결과가 나오지 못했습니다. 그래서 이번 장에서는 이런 노이즈를 제거해보고 '이미지 인식 기술' 포스팅을 마무리하겠습니다. ✔Table of Contents Tech 90. 이동평균을 계산해 HOG 노이즈를 제거하자. 노이즈가 생기는 이유는 이런 이유 때문입니다. 1. 계산해야 할 사람을 계산하지 않아서 2. 계산안해도 될 것을 사람으로 계산해서 그래서 시간의 평균(이동평균)을 계산하는 방법을 통해, 갑..

저번 포스팅까지는 이미지 데이터로부터 사람 인식 기술을 배웠다면, 이번 포스팅부터는 동영상 데이터로부터 사람을 인식하는 기술을 공부해봅니다. 사람 인식 기술은 앞의 포스팅에서 사용한 HOG 특징량을 사용하는 모델을 사용하며, 이번 포스팅을 통해 동영상에서 자동으로 몇 명의 사람이 있는지를 인식할 수 있고, 동영상의 중요 정보만 압축한 타임랩스 영상을 만들 수 있습니다. ✔Table of Contents Tech 87. 중요한 정보만 압축한 타임랩스 영상을 만들어보자 장시간의 정보를 담은 긴 영상을 모두 눈으로 확인하는 것은 시간이 오래 걸립니다. 이 때 '타임랩스' 기능을 사용하면 좋습니다. 타임랩스란 일정 기간의 프레임 중에서, 1프레임만 꺼내는 '빠르게 재생하기' 기법입니다. 전반적인 경향을 빠르게 ..

저번 포스팅에서는 얼굴 인식에 사용되는 2가지 모델(HOG 특징량의 SVMDetector, CascadeClassifier) 을 사용하여, 이미지 파일을 불러오고 여기의 사람 얼굴을 인식한 후 네모박스로 처리해보았습니다. 굉장히 신기했죠? 이번 포스팅은 사람 얼굴을 인식하는 것에서 더 나아가, 이 얼굴의 랜드마크를 뽑아보고 & 이 얼굴이 어느 쪽을 보고 있는지를 검출해봅니다. dlib이라는 라이브러리를 활용합니다. dlib은 얼굴을 눈, 코, 입, 윤곽의 특징점(랜드마크)를 뽑아주고, 이를 계산하여 사람이 얼굴을 어느 쪽으로 돌리고 있는지와 같은 세세한 정보를 검출할 수 있습니다. 이번 포스팅을 따라가기 위해서는 dlib 라이브러리 설치가 필수인데요. 아나콘다 프롬프트를 열고 다음을 실행합니다. pip ..