파이썬 자연어 처리(NLP) - 코사인 유사도를 활용해 유사한 문장 찾기 & 책 마무리
·
Data Science/Analysis Study
안녕하세요, Everly입니다 :) 오늘은 [파이썬 데이터 분석 실무 테크닉 100] 책의 가장 마지막 부분입니다. 저번 포스팅에서 원핫 인코딩을 활용해 문장을 숫자로 수치화했습니다. 이렇게 수치화한 데이터를 활용하여 유사한 문장을 찾아보겠습니다. ✔Table of Contents Tech 100. 비슷한 설문응답을 찾아보자. (코사인 유사도, cosine similarity) 마지막 100번째 테크닉입니다! 거의 다 왔습니다 😉 바로 직전 테크닉인 Tech 99에선 각 인덱스 문장에 들어있는 단어들로 단어가 포함되면 1, 아니면 0으로 나타내는 데이터프레임 'all_word' 를 만들었는데요. 여기서 특정 문장 A와 비슷한 문장 B를 찾아봅시다. 여기서 사용하는 것은 코사인 유사도(cosine simi..
파이썬 자연어 처리(NLP) - 문장 수치화하기(One-hot Encoding) / 파이썬 데이터 분석 실무 테크닉 100
·
Data Science/Analysis Study
저번 포스팅에서는 sur 데이터의 comment(의견) 컬럼을 konlpy를 활용해 형태소 분석해보았습니다. 그래서 자주 나온 명사를 살펴보았는데, 사실 이 단어가 긍정적인지, 부정적인지 모른다는 문제가 있었죠? 오늘은 이 단어와 고객만족도를 함께 살펴보고, 텍스트 데이터를 수치화하는 방법까지 알아보겠습니다 :) ✔Table of Contents Tech 98. 자주 나오는 단어와 고객 만족도 간 관계를 알아보자. (groupby agg) sur.head() sur 데이터에서 comment와 satisfaction만 따로 뽑아봅니다. 여기서 comment는 앞의 포스팅에서 한 것처럼, 명사만 뽑겠습니다. 물론 stopwords인 '더', '수', '좀' 도 제거합니다. 앞의 포스팅에서 쓴 코드를 살짝만 ..
파이썬 자연어 처리(NLP) - konlpy를 활용한 형태소 분석 / 파이썬 데이터 분석 실무 테크닉 100
·
Data Science/Analysis Study
저번 포스팅에 이어서, 이번엔 konlpy를 활용한 형태소 분석을 진행합니다. ※ 형태소 분석이란? 문장을 단어로 분할하는 기술로, 대표적인 한국어 형태소 분석 라이브러리로는 konlpy가 있다. konlpy 라이브러리가 없으신 분들은 pip install을 통해 다운을 받고 분석을 진행해봅시다. ✔Table of Contents Tech 94. 문장 분해하기 먼저 konlpy의 Twitter를 import하여, 어떤 예제 텍스트를 품사 단위로 분해해보겠습니다. #예제: text라는 문장을 품사 단위로 분해하기 from konlpy.tag import Twitter twt = Twitter() text = '형태소분석으로 문장을 분해해보자' tagging = twt.pos(text) tagging #단어..
파이썬 자연어 처리(NLP) - 텍스트 데이터 전처리 / 파이썬 데이터 분석 실무 테크닉 100
·
Data Science/Analysis Study
안녕하세요~ Everly입니다 😀 오늘부터는 [파이썬 데이터 분석 실무 테크닉 100] 책의 마지막 10장인 '자연어 처리' 부분 포스팅을 업로드합니다. 이 자연어 처리(NLP; Natural Language Processing) 기술은 텍스트(text) 데이터를 분석하는 것으로, 비정형 데이터를 분석하는 기술이라고 볼 수 있겠죠. 예를 들어 고객에게 설문조사를 실시하고, 여기서 필요한 정보만 뽑아낸다고 해봅시다. 설문조사를 한 고객 수가 적으면 일일이 확인해도 되겠지만, 이게 몇 천, 몇 만 명에게 했다고 한다면 사람의 눈으로 파악하기 힘들겠죠. 그리고 어차피 우리가 궁금한 것은 사람들이 공통적으로 말하고 있는 장점이나 단점 정도만 보면 될 테니까요! 이럴 때 사람이 아니라 NLP를 활용한 데이터 분석..
Everly.
'nlp' 태그의 글 목록