HITS(Hypertext induced Topic Selection) 알고리즘이란

HITS(Hypertext induced Topic Selection) 알고리즘이란

HITS란(Hypertext Induced Topic Selection)의 약자로, 피참조도(Authority Score)와 높은 평가를 받은 웹페이지로부터의 참조도(Hub Score)를 통해 중요도가 높은 웹페이지를 추출하는 알고리즘입니다.


링크 구조에서 중요도가 높은 웹페이지를 추출

웹페이지의 링크 관계는 각각의 웹페이지의 중요도를 측정하는 지표로 활용할 수 있는 것으로, 피링크에만 중점을 둔 것이 Link popularity입니다만, 실제로는 페이지 간 링크 관계에는 다음의 두 가지 측면이 있습니다.

  • 피링크는 평가를 받고 있다는 것을 나타낸다.
  • 페이지가 건 링크는 다른 것을 평가하고 있다는 것을 나타낸다.

어떤 테마에 관해서 중요한 웹페이지로부터 많은 링크를 받는 웹페이지는 그 테마에 관한 중요한 웹페이지라고 간주됩니다. 그와 동시에, 어떤 테마에 대해서 중요한 웹페이지에 수많은 링크를 붙이는 웹페이지도 그 테마의 중요한 정보원으로 간주됩니다.

토픽에 중점을 둔 HITS 알고리즘

웹 상의 각 웹페이지 링크 구조를 위와 같이 양면으로 분석함으로써, 어떤 테마에 있어서 우수한 참조 관계를 찾아내 중요도가 높은 웹페이지를 추출할 수 있습니다. 이것을 HITS(Hypertext Induced Topic Selection)알고리즘이라고 부릅니다. 이 HITS를 도입함으로써, 단순히 키워드에 대한 적합도가 높기만 한 페이지가 아니라 실제로 많은 사람들로부터 높은 평가를 받고 있는 웹페이지에 높은 점수를 매길 수 있게 됩니다. HITS 알고리즘(또는 그것에 가까운 Scoring 방법) 은, Yahoo!를 시작으로 Google과 Bing 등, 중요한 모든 검색 엔진에 도입되어 있다고 볼 수 있습니다.

Authority와 Hub

HITS 알고리즘의 특징적인 개념이 「Authority」와「Hub」입니다. 이것을 간단하게 설명하면, 다음과 같이 말할 수 있습니다.

Authority
중요한 정보를 제공 하고 있는 페이지. 우수한 Authority일수록, 우수한 Hub에서 피링크를 많이 받고 있다.

Hub
중요한 정보를 제공 하고 있는 페이지에 링크를 보내고 있는 페이지. 우수한 Hub일수록 우수한 Authority에 링크를 하고 있다.

Authority Score와 Hub Score

각각의 웹페이지의 Authority Score는 그 웹페이지를 참조하는 웹페이지의 Hub Score를 합산한 것이 됩니다.

Authority Score
그 페이지에 링크 되고 있는 각 페이지의 Hub Score의 합계

Hub Score
그 페이지가 링크 되고 있는 각 페이지의 Authority Score의 합계

또한 HITS에서는 한 번의 계산이 아닌, 반복적인 계산에 의해, 각 웹페이지의 Authority Score와 Hub Score를 계산합니다. 그렇기 때문에 같은 테마를 취급하는 많은 웹페이지 간의 링크는 Authority Score와 Hub Score를 동시에 높이는 결과로 이어집니다. 단, 검색 엔진은 단순히 많은 링크를 모으기만 한 링크 수집의 평가를 필요 이상으로 높아지지 않게 하기 위해, Hub Score보다는 Authority Score를 Scoring 할 때의 지표를 더 중요하게 생각합니다. 그렇기 때문에, HITS를 차용하는 검색 엔진은 수 많은 양질의 사이트로 링크를 설치하는 것에 더해서, 수 많은 피링크를 받고 있는 웹페이지를 보다 높게 평가하는 경향이 있습니다.

HITS 알고리즘에 대응하는 최적화

Authority Score는 관련된 페이지나 사이트로부터의 피링크에 의존하기 때문에, 이것을 상승 시키는 방법은 피링크 구축, 혹은 관련된 테마를 가진 페이지로부터의 피링크를 구축하는 것만이 해결책이 될 수 있습니다. 한편, Hub Score는 Authority Score가 높은 사이트로의 링크를 보내 상승시킬 수 있기 때문에 웹 마스터가 손쉽게 상승 시킬 수 있습니다. 관련된 테마를 가진 우수한 사이트에는 적극적으로 링크함과 동시에, 우수하지 않은 사이트로의 링크를 피함으로써, Hub Score를 높일 수 있습니다.

 

Comments

comments


1 thought on “HITS(Hypertext induced Topic Selection) 알고리즘이란”

답글 남기기

이메일 주소는 공개되지 않습니다.

3 × 3 =