크롤러의 순회 URL리스트 작성과 우선수집

크롤러의 순회 URL리스트 작성과 우선수집

검색 엔진의 크롤러는 웹페이지에 기술된 링크를 따라서 WWW상의 다양한 웹페이지를 순회합니다. 그 순회 URL리스트는 링크 해석에 따라 작성되고 우선순위가 매겨집니다.


순회 URL 리스트 생성

크롤러는 다음으로 순회할 웹페이지 URL을 취득하기 위해서 현재 머물고 있는 웹페이지 내 링크 내용을 분석합니다. HTML 소스상의 a 요소에 기술된 URL를 취득해서 순회 리스트를 작성해 순차적으로 크롤링해 나갑니다. a 요소가 아닌 JavaScript나 Adobe Flash를 사용한 링크도 순회 URL 리스트에 추가되는 경우가 많아졌습니다만, 이점에 대해서는 아직 완전하다고 말하기 어려운 상황입니다. (2010년4월 현재 기준) 보다 정확하게 크롤을 노린다면 a요소와 href 속성을 이용한 일반적인 하이퍼링크를 사용하는 것이 좋을 것입니다.

크롤링의 효율을 유지하기 위한 우선 수집

우선 수집이란 불필요한 순회의 반복이나 유용성이 적은 페이지의 순회를 줄이기 위해서 링크에 대해서 우선 순위를 정하는 크롤링을 말합니다. 검색엔진 크롤러는 웹페이지 내 링크를 따라 웹 이곳 저곳을 자동적으로 순회합니다. 그러나 CMS로 자동 생성된 웹사이트 등에서 다른 몇종류의 URL로 같은 콘텐츠가 중복해서 존재하고 있는듯한 일이 빈번히 일어나고 있습니다. 이와 같은 경우에서 순회리스트에서 중복된 URL를 제외해도 같은 콘텐츠가 몇번이나 순회하게 됩니다.

이런 중복 콘텐츠가 많이 존재하는 것 같은 경우에는 검색엔진 시스템에 필요없는 부하와 리소스를 발생하는 것만 아니라 크롤링되는 서버 측에도 불필요한 부하가 걸립니다. 이런 불필요한 부하와 리소스를 막는 의미에서 링크에 대한 순회의 우선 순위를 정해 놓을 필요가 있습니다. 또한 가능한 한 유용한 콘텐츠를 많이 크롤한다는 의미에서도 우선 수집의 구조는 중요한 역할을 하고 있습니다. 유용성이 낮다고 보여지는 콘텐츠의 크롤을 제한한는 것으로 보다 유용성이 높은 컨텐츠를 크롤하는 만큼의 리소스에 여유가 생기기 때문입니다.

순회의 우선 순위 결정방법

순회의 우선 순위 결정방법에는 주로 다음과 같은 방법을 들수 있습니다. 어떤 방법도 단독으로 이용되지는 않고, 검색엔진마다 각각 다양한 방법으로 고도로 조합된 방법을 사용하고 있습니다.

페이지 이동 횟수

기점으로 하는 웹페이지로부터의 이동 횟수(페이지를 이동하는 횟수)를 정해두고, 지정된 횟수만큼 링크를 따라간 시점에서 크롤링을 종료하는 방식입니다. 같은 웹 페이지를 여러 번 반복해서 따라갈 수 있어도, 수차례의 반복으로 크롤링을 마칠 수 있어서 무한 루프에 빠질 가능성이 없어집니다.

링크 인기도 기준

많은 웹 페이지에서 링크되고 있는 웹페이지는 정보의 중요성이 높다고 생각할 수 있습니다. 그 때문에 피링크 수가 많은 웹페이지를 우선적으로 돌고, 피링크 수가 적은 엡페이지는 되도록 돌지 않는 방법으로 불필요한 크롤링을 줄일 수 있습니다. 실제로는 단순한 피링크 수뿐만 아니라 링크 인기도 기준으로 사용하고 있습니다.

사용자에 의한 순회 신청 및 XML Sitemaps

검색엔진은 사용자에 의한 순회 신청을 받아들이는 것 외에 현재는 많은 검색 엔진 XML Sitemaps에 대응하고 있으며, 사이트 내의 URL 목록을 검색엔진에 보낼 수 있게 되어 있습니다. 그러나 이들은 어디까지나 순회 대상 후보로 접수되는 것뿐, 반드시 크롤링되는 것을 보증하는 것은 아닙니다. 보다 확실하게 사이트를 탐색하기 위해서는 우선 수집의 기준을 만족해야 합니다. 특히 링크 인기도는 중요하고, 피링크가 전혀 없는 페이지나 사이트는 크롤링되기 어렵다는 점에는 주의가 필요합니다.

 

Comments

comments


댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

18 − 3 =