[2주차 총정리] 자연어처리(NLP) _ 2. Text Similarity Analysis (TF-IDF, Cosine Similarity 이론 및 실습)
Text Similarity Analysis (텍스트 유사도 분석) _ 이론 1) TF-IDF : Term Frequency - Inverse Document Frequency - 어떤 특정 단어가 문서나 말뭉치에서 어떤 중요도 가지는지 나타내는 지표 - 단어 갯수 그대로 count하는 CountVectorizer와 달리, TfidfVectorizer는 많은 문서에 공통적으로 들어있는 단어의 경우 문서 구별 능력이 떨어진다고 보아 가중치를 축소한다. - 즉, Common Word에 더 작은 가중치를 곱해주고, Rare Word에 더 높은 가중치를 곱해준다. - 계산 과정은 아래 그림을 보면 잘 나와있다. 2) Cosine Similarity : 거리 계산 방법 중 하나 - 두 벡터 사이 각도의 코사인값을..