HTML Parse와 구조해석
HTML Parse란 HTML 문법 규칙에 따른 문자열을, 해당 문법을 바탕으로 단어의 의미나 구조를 분석하는 것을 의미합니다. 이렇게 HTML Parse를 행하는 프로그램을 일컬어 HTML Parser라고 말합니다.
HTML Parser에 의한 HTML 구조의 파악
검색엔진은 웹페이지 내 쓰여진 정보를 근거로 크롤링을 합니다. 그를 위해서는 웹페이지에 기술한 HTML소스를 분석할 필요가 있습니다. 이 HTML의 분석 작업을 HTML Parse라고 하며, 그것을 행하는 프로그램이 HTML Parser입니다. HTML Parser란 HTML 문법 규칙을 바탕으로 웹페이지의 내용을 해석하고, 의미와 구조를 분석하는 프로그램입니다. 검색 엔진은 HTML Parser의 의해서 분류된 정보를 기초로 페이지에 게재된 내용과 구조를 이해합니다.
문법규칙에 준한 페이지의 해석
HTML Parser는 HTML의 문법을 이해하고, 웹페이지내의 기술된 정보를 적절하게 분류합니다. 예를 들면 이렇습니다.
<a href=”URI”>text</a> 라고 지정된 정보는 하이퍼링크로,
<img src=”URI” alt=”name” /> 라고 지정된 정보는 이미지로 분류합니다.
HTML Parser는 소스대로 해석합니다. 따라서 비주얼한 웹브라우저의 표시 상태와는 관계 없이 정보를 취득합니다. 예를 들어, 스타일 시트에서 화면 레이아웃을 크게 바꾸거나 이미지를 사용하거나 해도 소스 상 기술 순서에 따라 해석하고 단순히 이미지가 있다고 인식할 뿐입니다.
문법에러로 해석해 문제가 발생할 가능성
HTML Parser는 HTML 문법에 따라 해석 작업을 수행하므로, HTML로 너무 불규칙하게 문법 오류가 있을 경우에는 바르게 정보를 분석 할 수 없을 가능성이 있습니다. 태그 닫음을 까먹는 등의 경미한 오류라면 HTML 태그 분석 도구에서 확인하실 수 있습니다. 아울러 정상적인 크롤링을 진행시키기 위해서는 가능한 한 오류가 적은 정확한 HTML 코딩이 중요합니다. 많은 브라우저가 다소의 HTML 오류를 보정하서 화면을 렌더링 해주는 것과 마찬가지로 크롤러 Parser도 약간의 오류에 관대하지만, 제작자가 정확함을 의식하는 두는 것이 중요합니다.