파이썬 자연어 처리(NLP) - 코사인 유사도를 활용해 유사한 문장 찾기 & 책 마무리
·
Data Science/Analysis Study
안녕하세요, Everly입니다 :) 오늘은 [파이썬 데이터 분석 실무 테크닉 100] 책의 가장 마지막 부분입니다. 저번 포스팅에서 원핫 인코딩을 활용해 문장을 숫자로 수치화했습니다. 이렇게 수치화한 데이터를 활용하여 유사한 문장을 찾아보겠습니다. ✔Table of Contents Tech 100. 비슷한 설문응답을 찾아보자. (코사인 유사도, cosine similarity) 마지막 100번째 테크닉입니다! 거의 다 왔습니다 😉 바로 직전 테크닉인 Tech 99에선 각 인덱스 문장에 들어있는 단어들로 단어가 포함되면 1, 아니면 0으로 나타내는 데이터프레임 'all_word' 를 만들었는데요. 여기서 특정 문장 A와 비슷한 문장 B를 찾아봅시다. 여기서 사용하는 것은 코사인 유사도(cosine simi..