검색엔진의 인덱스 업데이트

검색엔진의 인덱스 업데이트

웹 상의 정보는 항상 변화하고 있기 때문에 검색엔진은 항상 인덱스의 정보를 새로 고쳐 나갈 필요가 있습니다. 현재 주요 검색엔진은 순차 갱신과 일괄 업데이트를 병용한 인덱스 업데이트를 실시하는 것으로 정보의 최신도를 유지하고 있습니다.


전체 내용을 한 번에 업데이트하는 인덱스 일괄 업데이트형

인덱스 일괄 업데이트형은 인덱스 전체 내용을 한 번에 새로운 상태로 바꾸는 방식입니다. 방법으로는 가동 중인 파일과는 별도로 갱신용 파일의 준비를 진행시켜 갱신용 파일이 완성된 시점에서 실행중인 것과 교체합니다. 인덱스 일괄 업데이트형에서는 정보의 갱신에 필요한 작업은 파일 전체를 바꾸는 것 뿐입니다. 그때문에 데이터 업데이트시 각각 정보의 위치나 기존 정보와 충돌을 걱정할 필요가 없습니다. 데이터베이스로서는 가장 정보 관리가 쉽고, 실수가 생기지 않는 방법입니다.

갱신정보를 즉시 반영하는 인덱스 순차 갱신형

인덱스 순차 갱신형이란 인덱스 전체에 새로 수집된 정보 만 수시로 갱신하는 방식입니다. 방법으로는 개별 Web 페이지의 새로운 인덱스 파일이 만들어지는 대로 그 부분을 추가하거나 오래된 것으로 교체해 갑니다. 인덱스 순차 갱신형은 갱신 시점에서 그 페이지 최신의 정보가 게재되게 됩니다. 또한 중요한 페이지의 내용만을 자주 업데이트 할 수 있으며, 정보의 신선도를 항상 높게 유지할 수 있습니다.

인덱스 순차 갱신형에서는 데이터베이스의 내용을 유지하면서 갱신 작업을 실시하므로, 개별 정보의 위치를 잘못 교체해 버리거나 기존 정보와 충돌이 발생 될 위험성이 있습니다. 따라서 고도의 정보관리기능을 가진 데이터베이스를 구축해야만 합니다.

처리 능력의 향상을 가져온 병용으로 이행

1990년대 까지는 웹 상의 검색 엔진의 거의 대부분은 인덱스 갱신에 일괄 갱신형을 이용했습니다. 다음과 같은 이유 때문입니다.

크롤러의 처리 능력도 인덱서의 처리 능력도 낮았지기때문에 크롤과 인덱스 갱신을 빈번히 행하기 어려웠었습니다.

고도의 분산처리를 하고 있기 때문에 인덱스 업데이트는 한꺼번에 한 시기에 행하는 편이 실수를 막을 수 있었습니다.

링크 인기도와 같은 페이지간의 관련성 계산을 정확하게 하기에는 인덱스 갱신을 하기 위해서 어느 정도의 시간을 필요로 했습니다.

그러나 2000년대 중반에 분산 처리의 효율성과 속도가 크게 증가된 결과, 점차 증가 및 대량 업데이트를 병존시킨 운영이 가능하게 되고 2 종류의 업데이트 방법을 병용하는 것이 보통이 되었습니다. 이에 따라 현재는 링크 인기도 등의 고급 계산에 의한 정확도를 유지하면서 신선도 높은 정보도 수시 추가해 나갈 수 있도록 되어있습니다.

 

Comments

comments


댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

four × four =