키워드 근접도의 최적화

키워드 근접도의 최적화
키워드 근접도란, 검색 키워드끼리 작성 된 거리에 따라 키워드와 웹페이지의 연관성을 판단하는 것입니다. 이것을 최적화해 검색 순위의 향상을 노릴 수 있습니다. 키워드 근접도란 대부분의 검색 엔진은 검색 시의 키워드가 여러 단어로 구성되어 있을 경우, 형태소 해석에 따라 단어 별로 나눠서 and 검색을 하게 되는데 이것만으로는 검색 유저가 의도 하지 않은 웹 페이지가 상위에 표시될 가능성이 ...

키워드 돌출도의 최적화

키워드 돌출도의 최적화
키워드 돌출도란, 키워드가 어느 위치에 쓰여져 있느냐에 따라, 키워드와 웹페이지 간의 연관성을 판단하는 것입니다. 이것을 최적화 하면, 검색 순위의 향상을 노릴 수 있습니다. 키워드가 쓰여진 위치로 적합도를 계산한다 검색 엔진이 키워드와 웹페이지의 적합도를 측정하는 지표 중 하나로, 키워드 돌출도라는 것이 있습니다. 키워드가 어느 위치에 쓰여져 있느냐에 따라 웹페이지의 중요성을 판단하는 것입니다. 웹페이지를 구성하는 HTML소스 중에서 앞에 ...

키워드 출현빈도의 최적화

키워드 출현빈도의 최적화
키워드 출현빈도란, 검색 키워드가 얼마나 포함 할 수 있는가의 비율에 따라 키워드와 웹페이지의 연관성을 판단하는 것입니다. 이것을 최적화해 검색 순위의 향상을 노릴 수 있습니다. 키워드가 차지하는 비율에 따라 적합도를 산출 특정 어휘가 높은 비율로 포함 된 문서는 비율이 낮은 문서에 비해서 그 어휘와의 연관성이 깊은 문서라고 할 수 있습니다. 따라서, 검색 엔진은 기본적으로 키워드 출현빈도가 ...

CTR의 향상과 클릭 인기도의 최적화

CTR의 향상과 클릭 인기도의 최적화
클릭 인기도란 검색 결과에 대한 유저의 클릭 수를 검색 순위의 평가에 사용하는 Scoring 알고리즘입니다. 유저의 클릭률로부터 적합도를 산출하기 검색 엔진이 키워드와 웹페이지의 적합도를 재는 지표의 한 가지로, 클릭 인기도(Click Popularity)에 의한 가중치가 있습니다. 검색 결과에 대한 유저의 클릭 수 또는 클릭률을 검색 순위의 평가에 사용하는 Scoring 알고리즘입니다. 클릭 인기도는 검색 결과 화면에 표시되는 대부분의 URL 중에서 ...

HITS(Hypertext induced Topic Selection) 알고리즘이란

HITS(Hypertext induced Topic Selection) 알고리즘이란
HITS란(Hypertext Induced Topic Selection)의 약자로, 피참조도(Authority Score)와 높은 평가를 받은 웹페이지로부터의 참조도(Hub Score)를 통해 중요도가 높은 웹페이지를 추출하는 알고리즘입니다. 링크 구조에서 중요도가 높은 웹페이지를 추출 웹페이지의 링크 관계는 각각의 웹페이지의 중요도를 측정하는 지표로 활용할 수 있는 것으로, 피링크에만 중점을 둔 것이 Link popularity입니다만, 실제로는 페이지 간 링크 관계에는 다음의 두 가지 측면이 있습니다. 피링크는 평가를 ...

웹사이트의 참조 중요도(Link Popularity)란?

웹사이트의 참조 중요도(Link Popularity)란?
Link popularity(참조 중요도)란, 피링크의 질과 양을 바탕으로 웹페이지의 중요성을 판단하는 알고리즘으로, 대표적으로는 Google의 PageRank이 있습니다. 링크를 한 종류의 지지 투표로 간주해 보자 Link popularity는 링크를 한 종류의 지지 투표로 간주하여, 질이 높은 많은 링크를 모으는 사이트는 높은 지지를 받고 있다고 가정하고 그것이 검색결과 리스트 중에서 높은 순위를 차지한다는 알고리즘입니다. Link popularity의 계산에서는 피링크의 수뿐 아니라 ...

웹페이지의 랭킹을 매기는 TF-IDF 법

웹페이지의 랭킹을 매기는 TF-IDF 법
이번 포스팅에서는 키워드 중요성의 차이를 고려하여 여러 단어로 검색시 정확도를 향상시키는 TF-IDF에 대해 설명합니다. 키워드의 출현도를 나타내는 TF와 중요도를 나타내는 IDF TF-IDF 법은 문자 그대로 TF (term frequency)라는 지표와 IDF (inverse document frequency)라는 지표의 두 가지 지표를 이용한 알고리즘입니다. TF와 IDF 쌍방의 지표를 이용하는 것으로 키워드에 대한 개별 웹페이지의 채점을 할 수 있게 됩니다. TF ...

N-Gram 인덱스 방식

N-Gram 인덱스 방식
N-Gram 인덱스 방식은 정해진 문자 수 단위로 문장을 잘라, [단어를 포함한 문자열]로 인덱스하는 방식입니다. [단어를 포함한 문자열]로 인덱스하기 N-Gram 인덱스 방식은 정해진 길이의 단위로 문장을 잘라, [단어를 포함한 문자열]로 인덱스하는 방식입니다. 웹 검색 엔진에서는 소수지만 사이트 내 검색 소프트웨어에서 이 방식을 차용하고 있는 것도 있습니다. 이 방식에서는 문서의 머리에서 길이 N의 문자열을 한 만큼의 순서대로 잘라 ...

검색엔진의 부울 연산과 각종 검색식

검색엔진의 부울 연산과 각종 검색식
AND, OR, NOT으로 대표되는 부울 연산은 두 개 이상의 데이터 비교를 실시하는 것으로 프로그램 이론 중에서 가장 기본적인 알고리즘의 하나입니다. 따라서 검색엔진과 같은 데이터베이스에 있어서도 조건구문 처리의 기초가 되고 있습니다. 또한 이외의 특수한 검색식도 존재합니다. 데이터와 입력 항목의 비교 방법을 결정하는 부울 연산 AND, OR, NOT으로 대표되는 부울 연산은 두 개 이상의 데이터 비교를 실시하는 ...

디렉토리 검색 서비스

디렉토리 검색 서비스
디렉토리란 분류 항목 선택에 의해서 목적에 맞는 웹사이트의 목록을 얻을 수 있는 검색 서비스입니다. 분류학적 트리 구조를 이용한 분류에 따라 웹에서 사이트에 색인을 붙인 링크집과 같은 구조를 가지고 있습니다. 분류 항목의 선택에 따라 검색을 행하는 디렉토리 디렉토리란 웹사이트 정보를 속성별로 분류 · 계층화한 링크 목록을 말합니다. 분류학적 트리 구조를 이용한 도서관의 인터넷 버전과 같은 서비스로, ...