[자연어 처리] 정보 검색 / TF-IDF
1) TF-IDF란 Term Frequency - Inverse Document Frequency 의 약자로 하나의 문서에서 키워드를 추출하는 방법이다. 키워드를 추출하면 문서의 전체 내용을 단어들로 요약할 수 있다. 2) 왜 필요해? 자연어를 처리하기 위해선 컴퓨터가 이해할 수 있도록 숫자로의 변환과정이 필요하다. 비교적 유연한 문장의 구조를 그대로 변환하는 것보단, 문장에 포함된 단어들을 기준으로 하는 것이 훨씬 유리할 것이다. 문장에는 불용어(the, a, in, on 등) 같은 필요하지 않는 내용들도 모두 포함하고 있기 때문이다. 따라서, 키워드를 추출해야 그 문장을 잘 설명할 수 있는 숫자로 변환할 수 있다. 3) 어떻게 키워드를 추출해? TF : 해당 문서의 특정 단어의 빈도 DF : 그 단어..
2024.04.16