키워드 출현빈도란, 검색 키워드가 얼마나 포함 할 수 있는가의 비율에 따라 키워드와 웹페이지의 연관성을 판단하는 것입니다. 이것을 최적화해 검색 순위의 향상을 노릴 수 있습니다. 키워드가 차지하는 비율에 따라 적합도를 산출 특정 어휘가 높은 비율로 포함 된 문서는 비율이 낮은 문서에 비해서 그 어휘와의 연관성이 깊은 문서라고 할 수 있습니다. 따라서, 검색 엔진은 기본적으로 키워드 출현빈도가 ...
클릭 인기도란 검색 결과에 대한 유저의 클릭 수를 검색 순위의 평가에 사용하는 Scoring 알고리즘입니다. 유저의 클릭률로부터 적합도를 산출하기 검색 엔진이 키워드와 웹페이지의 적합도를 재는 지표의 한 가지로, 클릭 인기도(Click Popularity)에 의한 가중치가 있습니다. 검색 결과에 대한 유저의 클릭 수 또는 클릭률을 검색 순위의 평가에 사용하는 Scoring 알고리즘입니다. 클릭 인기도는 검색 결과 화면에 표시되는 대부분의 URL 중에서 ...
HITS란(Hypertext Induced Topic Selection)의 약자로, 피참조도(Authority Score)와 높은 평가를 받은 웹페이지로부터의 참조도(Hub Score)를 통해 중요도가 높은 웹페이지를 추출하는 알고리즘입니다. 링크 구조에서 중요도가 높은 웹페이지를 추출 웹페이지의 링크 관계는 각각의 웹페이지의 중요도를 측정하는 지표로 활용할 수 있는 것으로, 피링크에만 중점을 둔 것이 Link popularity입니다만, 실제로는 페이지 간 링크 관계에는 다음의 두 가지 측면이 있습니다. 피링크는 평가를 ...
Link popularity(참조 중요도)란, 피링크의 질과 양을 바탕으로 웹페이지의 중요성을 판단하는 알고리즘으로, 대표적으로는 Google의 PageRank이 있습니다. 링크를 한 종류의 지지 투표로 간주해 보자 Link popularity는 링크를 한 종류의 지지 투표로 간주하여, 질이 높은 많은 링크를 모으는 사이트는 높은 지지를 받고 있다고 가정하고 그것이 검색결과 리스트 중에서 높은 순위를 차지한다는 알고리즘입니다. Link popularity의 계산에서는 피링크의 수뿐 아니라 ...
이번 포스팅에서는 키워드 중요성의 차이를 고려하여 여러 단어로 검색시 정확도를 향상시키는 TF-IDF에 대해 설명합니다. 키워드의 출현도를 나타내는 TF와 중요도를 나타내는 IDF TF-IDF 법은 문자 그대로 TF (term frequency)라는 지표와 IDF (inverse document frequency)라는 지표의 두 가지 지표를 이용한 알고리즘입니다. TF와 IDF 쌍방의 지표를 이용하는 것으로 키워드에 대한 개별 웹페이지의 채점을 할 수 있게 됩니다. TF ...
N-Gram 인덱스 방식은 정해진 문자 수 단위로 문장을 잘라, [단어를 포함한 문자열]로 인덱스하는 방식입니다. [단어를 포함한 문자열]로 인덱스하기 N-Gram 인덱스 방식은 정해진 길이의 단위로 문장을 잘라, [단어를 포함한 문자열]로 인덱스하는 방식입니다. 웹 검색 엔진에서는 소수지만 사이트 내 검색 소프트웨어에서 이 방식을 차용하고 있는 것도 있습니다. 이 방식에서는 문서의 머리에서 길이 N의 문자열을 한 만큼의 순서대로 잘라 ...
AND, OR, NOT으로 대표되는 부울 연산은 두 개 이상의 데이터 비교를 실시하는 것으로 프로그램 이론 중에서 가장 기본적인 알고리즘의 하나입니다. 따라서 검색엔진과 같은 데이터베이스에 있어서도 조건구문 처리의 기초가 되고 있습니다. 또한 이외의 특수한 검색식도 존재합니다. 데이터와 입력 항목의 비교 방법을 결정하는 부울 연산 AND, OR, NOT으로 대표되는 부울 연산은 두 개 이상의 데이터 비교를 실시하는 ...
디렉토리란 분류 항목 선택에 의해서 목적에 맞는 웹사이트의 목록을 얻을 수 있는 검색 서비스입니다. 분류학적 트리 구조를 이용한 분류에 따라 웹에서 사이트에 색인을 붙인 링크집과 같은 구조를 가지고 있습니다. 분류 항목의 선택에 따라 검색을 행하는 디렉토리 디렉토리란 웹사이트 정보를 속성별로 분류 · 계층화한 링크 목록을 말합니다. 분류학적 트리 구조를 이용한 도서관의 인터넷 버전과 같은 서비스로, ...
메타 검색은 1번의 키워드 입력으로 여러 검색 서비스를 통해 검색을 대행해 주는 일종의 횡단 검색 서비스입니다. 다른 검색 서비스의 검색 기능을 이용하는 메타 검색 메타 검색은 1곳의 키워드 입력으로 여러 검색 서비스에 의한 검색을 대행하는 웹사이트입니다. 메타 검색은 검색엔진이나 디렉토리와는 달라서 독자의 데이터베이스를 가지고 있지 않습니다. 사용자로부터 요구된 검색 키워드를 여러 검색엔진에 보내고 그 결과를 ...
일반적으로 단순히 검색엔진이라 부르는 경우는 이 [로봇형 검색엔진]를 의미하며 사용자가 원하는 키워드와 일치하는 내용을 가진 웹페이지를 찾아내는 검색 서비스입니다. 인덱스 전체에 대한 전문(全文) 검색을 하는 검색엔진 로봇형 검색엔진(단순히 [검색엔진]이라고 하면 이것을 말합니다)이란 사용자가 원하는 키워드와 일치하는 내용을 포함한 웹페이지를 찾아내는 검색 서비스입니다. 현재 가장 주류의 검색 서비스죠. 검색엔진은 작성한 인덱스(데이터베이스)에 격납된 웹페이지 전문을 대상으로 키워드와 ...