'CosineSimilarity' 태그의 글 목록

[2주차 총정리] 자연어처리(NLP) _ 2. Text Similarity Analysis (TF-IDF, Cosine Similarity 이론 및 실습)

Text Similarity Analysis (텍스트 유사도 분석) _ 이론 1) TF-IDF : Term Frequency - Inverse Document Frequency - 어떤 특정 단어가 문서나 말뭉치에서 어떤 중요도 가지는지 나타내는 지표 - 단어 갯수 그대로 count하는 CountVectorizer와 달리, TfidfVectorizer는 많은 문서에 공통적으로 들어있는 단어의 경우 문서 구별 능력이 떨어진다고 보아 가중치를 축소한다. - 즉, Common Word에 더 작은 가중치를 곱해주고, Rare Word에 더 높은 가중치를 곱해준다. - 계산 과정은 아래 그림을 보면 잘 나와있다. 2) Cosine Similarity : 거리 계산 방법 중 하나 - 두 벡터 사이 각도의 코사인값을..

멋쟁이 사자처럼 AI SCHOOL 5기/Today I Learned 2022. 3. 26. 01:25

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

올라프의 [데이터 사이언스] 공부 일기

CosineSimilarity 검색 결과

[2주차 총정리] 자연어처리(NLP) _ 2. Text Similarity Analysis (TF-IDF, Cosine Similarity 이론 및 실습)

티스토리툴바