크롤의 움직임과 UA명

크롤의 움직임과 UA명

인터넷 이곳 저곳을 순회하면서 웹페이지의 내용을 수집하는 프로그램 즉, 크롤러(스파이더, 봇, 로봇이라고도 합니다)의 움직임과 주요 UA명에 대해서 설명하겠습니다.


웹 상에서 자동으로 돌며 정보를 수집하는 크롤러

크롤러(스파이더)란, 검색엔진이 웹페이지의 내용을 수집하기 위해 이용하는 프로그램을 말합니다. 검색엔진은 등록 신청된 URL를 기본으로 웹페이지내에 포함된 링크정보(href속성값으로 지정된 URL)을 쫓으면서 WWW상의 여러 종류의 웹페이지 정보를 수집합니다. 정보를 수집한다는 것은 검색엔진에 있어서 중요한 역할을 하기 때문에 각각 검색 엔진 벤더는 다른 벤더보다 정도가 높은 정보 수집을 행하도록 독자적인 다양한 크롤러를 개발하고 웹 상을 돌게 하고 있습니다.

크롤러의 동작 제어

사이트마다 특정 페이지나 디렉토리를 크롤시키고 싶지 않은 경우도 있습니다. 테스트 운영 페이지나 내용이 아직 들어있지 않은 페이지 등이 있는 경우에는 이것들을 크롤시키지 않기 위한 크롤 제어가 필요합니다. 또한 같은 콘텐츠의 복수의 URL로부터 액세스 할 수 있는 경우나 콘텐츠 중복된 페이지(주로 CMS에 의해 동적으로 생성된 것 등)가 있는 경우에 대해서는 Microformats의 rel=”canonical”을 사용해서 URL의 정규화를 할 필요가 있습니다.

검색 엔진이 이용하는 주요 크롤의 UA명

일본어에 대응하고 있는 주요 검색 엔진은 크롤러의 UA와 그 상세내용을 아래와 같이 정리했습니다.
(상단:서버로 돌아가는 UA명/하단: 상세”*”은 임의의 영숫자)

Googlebot/* (+http://www.googlebot.com/bot.html)

Google크롤러입니다. 확인할 수 있는 호스트명・IP는 다음과 같습니다.

rawler*.googlebot.com(216.239.46.* , 64.68.*.*)
crawler*.googlebot.com(64.68.*.*)

Googlebot-Image/* (+http://www.googlebot.com/bot.html)

Google의 이미지 수집용 크롤러입니다.

crawl*.googlebot.com(64.68.8*.*)

Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)

Google의 AdSense용 크롤러입니다. 확인할 수 있는 호스트명・IP는 다음과 같습니다.

crawl*.googlebot.com(64.68.8*.*)

Mozilla/* (Slurp/*; slurp@inktomi.com; http://www.inktomi.com/slurp.html)

Inktom의 크롤러입니다. 확인할 수 있는 호스트명・IP는 다음과 같습니다.

*.inktomisearch.com(66.196.*.*)

indexpert/*

FreshEye의 크롤러입니다. 확인할 수 있는 호스트명・IP는 다음과 같습니다.

robot.fresheye.com(211.13.222.*)

InfoSeek Sidewinder/*

InfoSeek의 크롤러입니다. 확인할 수 있는 호스트명・IP는 다음과 같습니다.

211.13.222.*

*.infoseek.co.jp(210.155.159.* , 202.33.250.* , 그외 다수)

Mozilla/3.0 (aruyo/*;http://www.aaacafe.ne.jp/ ;support@aaacafe.ne.jp)

AAA!CAFÉ의 크롤러입니다. 확인 할수 있는 호스트명・IP는 다음과 같습니다. h*.p253.iij4u.or.jp(210.130.253.*)

FAST-WebCrawler/* (atw-crawler at fast dot no; http://fast.no/support/crawler.asp)

FAST의 크롤러입니다. 확인 할수 있는 호스트명・IP는 다음과 같습니다.

*.sac2.fastsearch.net(66.77.73.*)

Scooter/*

altavista의 크롤러입니다. 확인 할수 있는 호스트명・IP는 다음과 같습니다. *.buildrack*.sv.av.com(216.39.48.*)

Cowbot-*

Naver의 크롤러입니다. 확인 할수 있는 호스트명・IP는 다음과 같습니다.

61.78.61.*
220.73.165.*
218.145.25.*

 

Comments

comments


답글 남기기

이메일 주소는 공개되지 않습니다.

15 − 5 =