인덱서의 역할과 중간처리

인덱서의 역할과 중간처리

인덱서의 역할이란 그 다음의 다양한 처리를 용이하게 하고, 고급 검색 처리를 가능하게 하기 위한 작업을 행하는 것입니다. 인덱서는 데이터에 중간 처리를 실시, 프로그램의 처리 속도를 높여 데이터베이스 용량을 절약합니다.


고급 검색 처리 이전 중간 처리를 수행하는 인덱서

인덱서는 크롤러가 순회하여 수집한 웹페이지 내 문서를 인덱스에 저장하는 역할을 가지고 있습니다. 인덱서는 이때 검색 알고리즘이 취급하기 쉬운 데이터 형식에 문서를 교환합니다. 사전에 중간 처리를 해 두는 것으로 바로 문서를 취급하는 것과 비교해 차후의 여러가지 처리가 쉽고 고도의 처리를 가능하게 합니다.

인덱서는 다양한 프로그램을 이용해서 문서에 대해 다음의 분석 작업을 합니다.

  1. 페이지 분석, 링크 분석을 하고 검색 알고리즘이 채점 시 사용하기 쉽도록 상태를 지표화합니다.
  2. 페이지 분석을 행하고, HTML소스 중 검색에 필요 없는(스크립트 기술 부분 등) 부분을 명확하게 합니다.
  3. 형태소 분석 등을 통해 문장을 단어로 잘라내고 페이지 내 각각의 단어가 문서 속 어느 위치에 존재하는지 그 위치 정보를 명확하게 합니다.

문서의 데이터화 및 인덱스 저장

인덱서는 문서의 분석 결과를 토대로하여 정보 블록 (단어 · HTML 요소 등)마다 그 위치 나 성질 중요성을 데이터화합니다. 그리고 데이터를 파일로 정리하여 인덱스에 저장합니다. 이 때 인덱서는 데이터를 중간 코드 된 [전치 파일]의 형태로 인덱스에 저장합니다. 데이터를 중간 코드화해두는 것으로, 프로그램의 처리 속도를 높여 데이터베이스 용량을 절약 할 수 있습니다.

처리를 용이하게하는 중간 파일 (전치 파일)

전치 파일이란 웹페이지의 문서에 포함 된 정보 블록 (단어 · HTML 요소 등)마다 그 위치와 성질을 중간 코드로 기록한 것입니다. 인덱스의 모든 내용을 중간 코드로 구성 할 수 있으며, 프로그램의 처리 속도를 높여 데이터베이스 용량을 절약합니다. 전치 파일은 문서파일, 전치목록, 사전파일의 3 개의 구조로 이루어져 있습니다.

문서파일

형태소 분석 등으로 단어로 나눠진 문서에 대하여 그 나눠진 문자열마다 독특한 식별 코드를 입힌 파일입니다.

 

전치목록

“문서파일”에 입힌 식별 코드를 문서의 기술 순으로 정렬한 다음, 각각의 문자열에 대응하는 전체 시스템에서 정해져있는 단어의 식별 코드를 표기한 목록입니다. 단어의 식별 코드뿐만 아니라 HTML 요소의 종류와 그 웹페이지의 링크 인기 값 등 모든 속성을 부여하는 경우가 있습니다.

 

사전 파일

검색 알고리즘에서 취급하는 단어마다 해당 [전치목록]의 소재와 그 속에서의 위치 정보, 성질 (HTML 요소의 종류와 링크 인기값 등)를 코드화해서 정리 한 것입니다.

검색할 때 먼저 [사전 파일]의 내용에서 해당 단어가 포함 된 페이지를 찾습니다. 그다음 [전치목록]의 정보를 단서로 개별 단어를 줍기 시작과 함께 점수 처리를 실시해 문서 파일을 조립하고 고쳐서 결과를 표시합니다.

데이터베이스에 따라 [전치목록]을 [전치파일]로 간주하고, [문서파일] 및 [사전 파일]은 다른 것으로 생각하는 경우도 있습니다.

 

Comments

comments


답글 남기기

이메일 주소는 공개되지 않습니다.

4 × 5 =