N-Gram 인덱스 방식

N-Gram 인덱스 방식

N-Gram 인덱스 방식은 정해진 문자 수 단위로 문장을 잘라, [단어를 포함한 문자열]로 인덱스하는 방식입니다.


[단어를 포함한 문자열]로 인덱스하기

N-Gram 인덱스 방식은 정해진 길이의 단위로 문장을 잘라, [단어를 포함한 문자열]로 인덱스하는 방식입니다. 웹 검색 엔진에서는 소수지만 사이트 내 검색 소프트웨어에서 이 방식을 차용하고 있는 것도 있습니다. 이 방식에서는 문서의 머리에서 길이 N의 문자열을 한 만큼의 순서대로 잘라 그 문자열의 전부라고 기재된 파일이나 위치를 인덱스에 기록해 갑니다 (길이 N은 가나문자나 한자 등 문자의 종류에 따라 적절한 값을 선택할수 있는 경우가 있습니다).

 

예를 들어, [검색 엔진의 구조]를 N = 4로 취득하면

검색엔진
색엔진의
엔진의구
진의구조

라고하는 문자열을 취할 수 있습니다. 그후 검색시에 검색, 엔진, [검색][엔진][구조] 등의 단어를 포함한 문자열이 있는 장소를 찾는 것으로, 어떤 파일의 어디에 어떤 단어가 포함되어 있는가를 정확하게 알수 있습니다.

N-Gram 인덱스 방식의 이점

N-Gram인덱스 방식에는 다음과 같은 장점이 있습니다.

알고리즘이 단순하다

N-Gram인덱스 방식에는 인덱스 및 검색 알고리즘이 단순하다는 이점이 있습니다. 고속 처리되는 것에 단어 인덱스 방식와 같은 복잡한 문서 분석을 하지 않기 때문에 어떤 언어에도 같은 알고리즘으로 대응 할 수 있습니다.

검색누락이 발생하지 않는다

N-Gram인덱스 방식에는 원래 문서에 포함되어 있는 문자라면 어떤 단어라도 검색이 되고, 검색 누락이 생기지 않는다는 이점이 있습니다. 예를 들어, 중지 단어를 포함한 검색 단어는 보통 단어 인덱스 방식에서는 검색할 수 없지만, N-Gram 색인 방식으로 검색이 가능합니다.

N-Gram 인덱스 방식의 단점

N-Gram 색인 방식에는 다음과 같은 단점이 있습니다.

검색 노이즈가 크다

N-Gram 인덱스 방식은 검색 시 커다란 소음을 발생한다는 결점이 있습니다. 검색 노이즈란 검색자가 의도하지 않은 웹 페이지가 검색 결과에 섞여 버리는 상태입니다. 이것은 단어 사전을 기반으로 단어 인덱스와 달리 단어가 문장에서 어떻게 다루어지고 있는지를 자세히 알 수 없기 때문에 문장의 내용을 생각한 채점을 할 수 없기 때문입니다.

데이터베이스 용량(인덱스 크기)이 커진다

N-Gram 인덱스 방식에는 데이터베이스 용량이 커진다는 결점이 있습니다. (전체 문자수 × N)의 양의 문자 정보를 유지해야하며, 단어 인덱스 방식에 비해 몇 배의 테이터양을 취급 할 필요가 있습니다. 특히 인덱스 크기가 커진다는 결점 때문에 웹 전체를 대상으로 하는 검색 엔진에서 N-Gram 인덱스 방식이 사용되지 않게 되어 버렸습니다.

 

Comments

comments


답글 남기기

이메일 주소는 공개되지 않습니다.

6 − 2 =