단어 인덱스 방식

단어 인덱스 방식

단어 인덱스를 위해서는 인덱서가 보유한 단어 사전을 바탕으로 문장을 단어로 나누고 행하는 방식이 많은 검색엔진에서 활용되고 있습니다. 문장을 단어로 나누어 인덱스함으로써 개별 단어의 위치를 정확하게 알수 있는 데이터를 만들 수 있으며, 각각의 단어가 가진 의미를 데이터에 부여할 수 있기 때문에, 문장의 내용을 근거로 한 검색 처리를 실현할 수 있습니다.


자연 언어 처리와 띄어쓰기

띄어쓰기는 단어마다 공백이나 문장 부호를 넣어 문장을 써가는 글 작성 방법입니다. 그렇게 기술해 나가는 것으로, 프로그램을 이용하여 쉽게 문장을 개별 단어로 분해할 수 있습니다. 영문을 비롯한 유럽 언어의 대부분은 처음부터 단어와 단어 사이에 공백이나 문장 부호를 두고 작성되어 있습니다. 예를 들어 [This is a pen.]과 같이 개별 단어는 공백으로 구분됩니다. 한편 일본어의 기술(記述)로는 단어와 단어가 공백 없이 연결되기 때문에 띄어쓰기를 바탕으로 한 문장의 처리는 프로그램에서 일본어의 자연 언어 취급에 있어 가장 기초적인 기술입니다. 일본어는 말이 연속으로 기술되는 [쓰기]의 문장입니다. 따라서 띄어쓰기와 같은 단순한 처리로 단어를 분해 할 수 없습니다. 그래서 일본어 해석에서는 먼저 형태소 분석 등의 사전 처리를 통해 문장을 띄어쓰기된 상태로 만들고나서 처리합니다.

자연문장을 단어로 나누는 형태소 분석

형태소 분석은 사전을 바탕으로 자연 문장을 분석하여 품사 별로 단어로 나누는 기술입니다. 일본어처럼 ‘띄어쓰기’가 되지 않는 문장은 형태소 분석을 함으로 띄어쓰기된 영어권 문서와 같은 처리를 할 수 있습니다. 형태소 분석은 일본어 문서를 처리하는데 있어 내용을 근거로 한 검색 결과를 제공하기 위해 필수적인 기술입니다. 형태소 분석 한 후 글을 개별 단어로 나누는 것으로 처음으로 문서에있는 각각의 단어가 어떻게 다루어지고 있는지를 분석 할 수 있습니다. 단 형태소 분석의 결과는 사전에 의존하기 때문에 균일하지 않습니다. 그때문에 확실하게 문장의 뜻을 반영한 검색을 실현하는 것은 일본어에서는 여전히 어려운 상태에 있습니다.

 

형태소란 말 속에서 변화하지 않는 최소 단위를 뜻합니다. 형태소는 단어에 가까운 것이지만, 일본어에서는 어미의 변화가 있기 때문에 실제로는 더 세분화됩니다. 예를 들어, [来られないようだが]는 다음과 같이 형태소로 나눌 수 있습니다.

「来られないようだが」의 형태소 분석

 형태소 .  읽는 법 .  기본형 . 품사의 종류 활용형 접속형
来る 동사-자립 가행カ변・온다来ル 미연レル접속
られ ラレ れる 동사-접미 1단 미연ナイ접속
ない ナイ ない 조동사 특수・ナイ 기본형
よう ヨウ よう 명사-비자립-조동사어간
조동사 특수・ダ 기본형
조사-접속조사

단어의 집합으로 인덱스

단어 인덱스 방식에서는 형태소로 분해된 단어를 바탕으로 전체 문서에서 사용 된 단어의 총 수와 각각의 단어가 출현한 곳, 출현율, 단어의 순서와 단어 사이의 위치 관계 등을 수치화해 전치파일로서 인덱스에 저장합니다. 이러한 처리를 해두는 것으로, 검색 정확도와 검색 속도를 향상시킬 수 있게 됩니다.

Comments

comments


답글 남기기

이메일 주소는 공개되지 않습니다.

1 × 5 =