웹페이지의 랭킹을 매기는 TF-IDF 법
이번 포스팅에서는 키워드 중요성의 차이를 고려하여 여러 단어로 검색시 정확도를 향상시키는 TF-IDF에 대해 설명합니다.
키워드의 출현도를 나타내는 TF와 중요도를 나타내는 IDF
TF-IDF 법은 문자 그대로 TF (term frequency)라는 지표와 IDF (inverse document frequency)라는 지표의 두 가지 지표를 이용한 알고리즘입니다. TF와 IDF 쌍방의 지표를 이용하는 것으로 키워드에 대한 개별 웹페이지의 채점을 할 수 있게 됩니다.
TF (term frequency)
TF란 웹페이지내에서 키워드가 얼마나 많이 사용되고 있는지를 나타내는 지표입니다. 키워드를 많이 포함한 웹페이지일수록 해당 키워드에 대해 자세히 설명하고있는 것이라고 생각하는 것입니다.
IDF (inverse document frequency)
IDF란 그 키워드가 얼마나 많은 수의 웹페이지에서 사용되고 있는가를 나타내는 지표입니다. 많은 웹페이지에서 사용되는 키워드보다 적은 웹페이지에서 사용되고 있는 키워드 쪽이 그 페이지의 특징을 잘 나타내는 것으로 생각하는 것입니다.
복수 키워드에 의한 검색의 정확도를 높이기
여러 키워드를 AND로 검색할 경우, 검색 엔진은 각각 일치하는 단어를 모두 포함한 웹페이지를 추출하고 각각의 단어에 대한 적합도를 별도로 산출하고 집계하여 표시의 순위를 결정합니다. 이 때 단순히 개별 단어의 순위를 집계하는 것만으로는 좋은 결과를 얻을 수 없습니다. 왜냐하면 그 개별 단어 사이에 중요성의 차이가 있기 때문입니다. 예를 들어 A라는 단어와 B라는 단어로 검색했다고 합니다. 만일 WWW 전체의 웹페이지 중에서 A를 포함하는 것이 100이고 B를 포함하는 것이 1000이며, 양쪽을 포함하는 것이 50 있다고 합니다. 단순히 순위만으로 판단하면 [A에 10 위 · B에 11 위]라고 하는 웹페이지와 [A에 대해 11 위 · B에 10 위]라고 하는 웹페이지는 동급으로 취급해야 것입니다.
그러나 A의 전체에 대한 순위와 B의 전체에 대한 순서를 상대적으로 생각해 보겠습니다. [A와 B]라고 하는 내용에 대해서 보다 상세히 설명하고 있는 것은 [A에 대해 10 위 · B 대해 11 위]쪽일 것입니다. 각 키워드의 분모가 다르기 때문입니다. 이것은 A와 B의 키워드를 각각 [선술집]과 [신바시,일본의 유명한 비니네스 거리로 선술집이 많이 밀집된 거리]로 옮겨 보면 이해하기 쉬울 것이다.
TF-IDF 법을 이용한 알고리즘은 A와 B 각각의 단어 자신의 중요성 = 순위의 중량이 가진 차이를 고려하여 [A에 10 위 · B에 11 위]를 [A 에 11 위 · B에 10 위 ] 보다 상위에 표시합니다.
TF-IDF방법에 관한 다른 자료
TF-IDF 방법에 대한 자세한 알고리즘은 다른 사이트를 참조하십시오.
조영규의 블로그 : TF-IDF(Term Frequency-Inverse Document Frequency
(http://www.jpo.go.jp/shiryou/s_sonota/hyoujun_gijutsu/search_engine/b/b51.htm)
tf-idf – Wikipedia
(https://Ko.wikipedia.org/wiki/Tf-idf)