검색 결과 내 Clustering을 통한 컨텐츠 노출

검색 결과 내 Clustering을 통한 컨텐츠 노출
검색 결과를 간결하게 표시하기 위해서 검색엔진이 같은 도메인 ・ 서브도메인의 Web페이지를 그룹화해서 Indent를 표시하는 Clustering에 대해서 설명합니다.   같은 도메인・서브도메인의 Web 페이지를 그룹화 검색결과의 Clustering표시란 검색 결과를 간결하게 표시하기 위해서 같은 도메인・서브도메인의 Web페이지를 그룹화하여 Indent하는(들여쓰는) 표시 방식입니다. 예를 들면 Google에서는 하나의 도메인・서브도메인 내에 속하는 웹페이지를 같은 검색 결과 페이지 내에 복수로 표시할 경우 그것들을 두 ...

HITS(Hypertext induced Topic Selection) 알고리즘이란

HITS(Hypertext induced Topic Selection) 알고리즘이란
HITS란(Hypertext Induced Topic Selection)의 약자로, 피참조도(Authority Score)와 높은 평가를 받은 Web 페이지로부터의 참조도(Hub Score)를 통해 중요도가 높은 Web 페이지를 추출하는 알고리즘입니다. 링크 구조에서 중요도가 높은 Web 페이지를 추출 Web페이지의 링크 관계는 각각의 Web 페이지의 중요도를 측정하는 지표로써 활용할 수 있는 것으로, 피링크에만 중점을 둔 것이 Link popularity입니다만, 실제로는 페이지 간 링크 관계에는 다음의 두 가지 ...

웹사이트의 참조 중요도(Link Popularity)란?

웹사이트의 참조 중요도(Link Popularity)란?
Link popularity(참조 중요도)란, 피링크의 질과 양을 바탕으로 Web 페이지의 중요성을 판단하는 알고리즘으로, 대표적으로는 Google의 PageRank이 있습니다. 링크를 한 종류의 지지투표로 간주해 보자 Link popularity는 링크를 한 종류의 지지투표로 간주하여, 질이 높은 많은 링크를 모으는 사이트는 높은 지지를 받고 있다고 가정하고 그것이 검색결과 리스트 중에서 높은 순위를 차지한다는 알고리즘입니다. Link popularity의 계산에서는 피링크의 수뿐 아니라 질도 ...

웹페이지의 랭킹을 매기는 TF-IDF 법

웹페이지의 랭킹을 매기는 TF-IDF 법
이번 포스팅에서는 키워드의 중요성의 차이를 고려하여 여러 단어로 검색시 정확도를 향상시키는 TF-IDF에 대해 설명합니다. 키워드의 출현도를 나타내는 TF와 중요도를 나타내는 IDF TF-IDF 법은 문자 그대로 TF (term frequency)라는 지표와 IDF (inverse document frequency)라는 지표의 두 가지 지표를 이용한 알고리즘입니다. TF와 IDF 쌍방의 지표를 이용하는 것으로 키워드에 대한 개별 Web 페이지의 채점을 할 수 있게 됩니다. ...

N-Gram 인덱스 방식

N-Gram 인덱스 방식
N-Gram 인덱스 방식은 정해진 문자수 단위로 문장을 잘라, [단어를 포함한 문자열]로 인덱스하는 방식입니다.   [단어를 포함한 문자열]로 인덱스하기 N-Gram 인덱스 방식은 정해진 길이의 단위로 문장을 잘라, [단어를 포함한 문자열]로 인덱스하는 방식입니다. Web 검색 엔진에서는 소수지만 사이트 내 검색 소프트웨어에서 이 방식을 채용하고 있는 것도 있습니다. 이 방식에서는 문서의 머리에서 길이 N의 문자열을 한 만큼의 순서대로 잘라 ...

검색엔진의 부울 연산과 각종 검색식

검색엔진의 부울 연산과 각종 검색식
AND, OR, NOT으로 대표되는 부울 연산은 두 개 이상의 데이터 비교를 실시하는 것으로 프로그램 이론 중에서 가장 기본적인 알고리즘의 하나입니다. 따라서 검색 엔진과 같은 데이터베이스에 있어서도 조건구문 처리의 기초가 되고 있습니다. 또한 이외의 특수한 검색식도 존재합니다. 데이터와 입력항목의 비교 방법을 결정하는 부울 연산 AND, OR, NOT으로 대표되는 부울 연산은 두 개 이상의 데이터 비교를 실시하는 ...

디렉토리 검색 서비스

디렉토리 검색 서비스
디렉토리란 분류항목 선택에 의해서 목적에 맞는 Web 사이트의 목록을 얻을 수 있는 검색 서비스입니다. 분류학적 트리 구조를 이용한 분류에 따라 Web에서 사이트에 색인을 붙인 링크집과 같은 구조를 가지고 있습니다. 분류항목의 선택에 따라 검색을 행하는 디렉토리 디렉토리란 Web 사이트를 사람의 손으로 정보를 속성별로 분류 · 계층화한 링크 목록을 말합니다. 분류학적 나무구조를 이용한 도서관의 인터넷 버전과 같은 ...

검색엔진의 메타 검색이란

검색엔진의 메타 검색이란
메타검색은  1번의 키워드 입력으로 여러 검색 서비스를 통해 검색을 대행해 주는 일종의 횡단 검색 서비스입니다.   다른 검색 서비스의 검색 기능을 이용하는 메타검색 메타검색은 1곳의 키워드 입력으로 여러 검색 서비스에 의한 검색을 대행하는 Web 사이트입니다. 메타검색은 검색엔진이나 디렉토리와는 달라서 독자의 데이터베이스를 가지고 있지 않습니다. 사용자로부터 요구된 검색 키워드를 여러 검색엔진에 보내고 그 결과를 가공 편집하여 ...

로봇형 검색엔진의 의미

로봇형 검색엔진의 의미
일반적으로 단순히 검색엔진이라 부르는 경우는 이 [로봇형 검색엔진]를 의미하며 사용자가 원하는 키워드와 일치하는 내용을 가진 Web 페이지를 찾아내는 검색 서비스입니다.   인덱스 전체에 대한 전문(全文) 검색을 하는 검색엔진 로봇형 검색엔진(단순히 [검색엔진]이라고 하면 이것을 말합니다)이란 사용자가 원하는 키워드와 일치하는 내용을 가진 Web 페이지를 찾아내는 검색 서비스입니다. 현재 가장 주류의 검색 서비스입니다. 검색엔진은 작성한 인덱스(데이터베이스)에 격납된 Web 페이지 ...

퍼지 검색과 맞춤법 교정

퍼지 검색과 맞춤법 교정
퍼지 검색은 입력된 검색 키워드가 정확하지 않아도 사용자의 요구를 예상하고 적절한 단어를 찾는 검색 방식으로 표기의 흔들림과 유의어 · 동의어를 보완합니다. 또한 맞춤법 교정은 사용자의 입력 실수를 지적하고 보다 정확도 높은 검색을 제공합니다.   퍼지 검색 및 맞춤법 교정이란 검색 엔진은 사용자가 입력하는 검색어를 바탕으로 정보를 찾고, 기본적으로는 사용자가 입력한 검색 키워드를 확실하게 포함한 Web ...