퍼지 검색과 맞춤법 교정

퍼지 검색과 맞춤법 교정

퍼지 검색은 입력된 검색 키워드가 정확하지 않아도 사용자의 요구를 예상하고 적절한 단어를 찾는 검색 방식으로 표기의 흔들림과 유의어 · 동의어를 보완합니다. 또한 맞춤법 교정은 사용자의 입력 실수를 지적하고 보다 정확도 높은 검색을 제공합니다.


퍼지 검색 및 맞춤법 교정이란

검색엔진은 사용자가 입력하는 검색어를 바탕으로 정보를 찾고, 기본적으로는 사용자가 입력한 검색 키워드를 확실하게 포함한 웹페이지만을 검색합니다. 그러나 사용자가 입력한 키워드가 항상 정확하지 않고 표기의 흔들림이나 동의어 유의어 변환 오류, 오타 및 입력 오류 등이 섞이면 정확도가 떨어집니다. 그러한 사용자 측의 실수나 표기 잘못에 대응하고 확실한 정보 검색을 위한 쿼리 프로세스가 퍼지 검색 및 맞춤법 보정입니다. 이에 따라 정확한 키워드가 아니어도 유연하게 검색하게 되고 사용자는 보다 더 일상적으로 사용하는 최소 단어 입력만으로 적절한 검색 결과를 얻을 수 있게 됩니다.

입력 키워드의 동의어 · 유의어에 의한 검색

일본어뿐만 아니라 각국의 언어에는 많은 동의어 관련어가 존재합니다. 또한 완전히 똑같은 단어로 표기가 다른 경우도 있습니다. 예를 들어 [검색検索 엔진]과 [검색Search 엔진]의 두 단어는 동일한 의미를 가지고 있습니다만, 검색 알고리즘에는 다른 단어로 인식되어 버립니다. 이 같은 동의어와 표기의 차이 등을 흡수하는 것이 유의어 사전을 도입한 퍼지 검색 시스템입니다. 유의어 사전을 이용하는 것으로 예를 들어 [검색検索 엔진]이라고 검색해도 [검색Search 엔진]의 검색 결과도 함께 반환하는 것이 가능하게 됩니다. 유의어 사전의 도입으로 검색은 보다 사용자의 의도와 가까워지기 때문에 검색의 편리성은 비약적으로 높아집니다.

또한 유의어 사전이란 사용자가 의도하는 키워드와 동일한 검색을 하기 위한 동의어 · 유의어 사전을 말합니다. 자연문 분석이라고 하는 방식으로 전문 검색형 데이터베이스, 로봇형 검색 엔진을 받아들인 때에 유의어 사전을 도입 한 검색 알고리즘은 향후 중요한 기술이 될 것으로 생각되고 있습니다.

검색엔진에서 유의어 사전의 실제 예

시소러스는 아직 발전 중인 기술이지만, 서서히 검색 엔진에 장착되고 있습니다.

영숫자 표기 불안정 대응

영숫자의 표기 등에 대해서는 현재 많은 검색 엔진이 유의어 사전 처리를 하고 있습니다. 예를 들어, Yahoo! 또는 Google에서 [A(일본어 전각입력)]와 [A(일본어 반각입력)], [1(일본어 전각입력)] [1(일본어 반각입력)]과 같은 영숫자 전반각의 차이가 있어도 모두 같은 문자로 검색합니다. 또한 [A] [a]와 같은 로마자의 대문자 · 소문자도 동일하게 검색합니다.

단어의 표기 불안정 대응

Google등의 검색 엔진에서는 영어에서 동사의 활용이나 복수형 등을 사전에서 흡수해, 과거형과 현재형 단수와 복수 등을 같은 단어로 검색합니다. 이를 통해 영문에서의 검색은 비약적으로 간단하게 되었습니다.

카타카나 표기의 불안정 대응

카타카나 단어의 표기 등에 대해서도 현재 많은 검색 엔진이 유의어 사전 처리를 행하고 있습니다. 예를 들어, Yahoo !,과 Google은 “가상ヴァーチャル” “가상バーチャル”, “다이아몬드ダイヤモンド” “다이아몬드ダイアモンド”등은 어디에서 검색해도 같은 결과를 표시합니다.

일본어 표기 불안정 대응

goo가 2003 년 12 월부터 도입한 보다 고도의 유의어 사전을 이용한 쿼리 처리에서는 한자읽기의 차이 · 읽기의 차이 · 약어 등을 수정해서 검색합니다. 이와 같은 방법은 다른 주요 검색 엔진에도 수시로 도입되어 현재는 표기 불안정 (「이사 引っ越し)와 「이사 引越」등」)에 대해서 사용자는 특별히 아무것도 생각할 필요가 없습니다.

올바른 키워드로 검색을 돕는 맞춤법 교정

맞춤법 교정은 검색 정확도를 높이기 위해 사용자가 입력한 검색어의 철자를 보정하는 기술입니다. 사용자가 입력한 키워드에 오타가 있는 경우나 사용자가 제대로 키워드를 파악하고 있지 않은 경우에는 검색 엔진은 사용자가 구하는 정보와 다른 정보를 찾아 버리게 됩니다. 이 때, 사용자 측의 부주의로 인한 실수를 검색 엔진이 보정하는 것으로 실수 없는 검색을 할 수 있습니다. 맞춤법 교정은 아직 개발중인 기술이지만, 서서히 검색 엔진에 장착되고 있습니다.

Google에 의한 단어 맞춤법 검사

Google에서는 단어의 맞춤법 검사 기능을 실현하고 있습니다. 입력된 키워드를 사전에 비추어 만약 해당 단어가 없으면 가장 그것에 가깝다고 생각되는 철자를 사용자에게 다시 제시합니다. 예를 들어, ‘searc engine”이라고 입력하면 검색결과 목록의 맨위에 “혹시 : search engine “(영어사이트에서는 “Did you mean : search engine”)로 표시되어 검색 한 키워드가 잘못되지 않았는지 여부를 사용자에게 되묻습니다.

비슷한 기능은 다른 주요 검색 엔진에도 구현되어가고 있으며, 일본어 대응 등도 진척되고 있습니다. 적당한 맞춤법과 변환으로 검색해도 올바른 표기가 후보로 나타나므로 검색어를 결정하기 위해 검색하는 등 이런 사용자의 수고는 크게 감소하게 되었습니다.

 

Comments

comments


답글 남기기

이메일 주소는 공개되지 않습니다.

4 + 3 =