검색엔진의 원리 - 미스터 SEO

검색 결과 내 Clustering을 통한 콘텐츠 노출

어센트코리아 — Tue, 07 Jun 2016 05:49:20 +0000

검색 결과를 간결하게 표시하기 위해서 검색엔진이 같은 도메인 ·서브도메인의 웹페이지를 그룹화해서 들여쓰는 Clustering에 대해서 설명합니다.

같은 도메인・서브 도메인의 웹페이지를 그룹화

검색결과의 Clustering표시란 검색 결과를 간결하게 표시하기 위해서 같은 도메인・서브도메인 웹페이지를 그룹화하여 들여쓰는 Indent 표시 방식입니다. 예를 들면 Google에서는 하나의 도메인・서브도메인 내에 속하는 웹페이지를 같은 검색 결과 페이지 내에 복수로 표시할 경우 그것들을 두 가지 또는 세 가지로 정리하여 두 번째 이후부터 접는 방식으로 Indent를 표시합니다.

한 가지 예시로, Google에서 「NTT동일본 + flets」으로 검색 해 봅시다. Flets.com 내의 웹페이지가 복수 표시 되어, 두 번째 이후부터 Indent가 표시(오른쪽에 한 단락 차이를 두고 표시)될 것입니다. 그 아래에는 「+ flets.com 의 그 이외 검색 결과를 표시한다」라는 text link가 표시 되어 있을 것입니다. 그 링크에 들어가면 검색 결과에 표시되지 않았던 flets.com 내에 포함된 웹페이지를 한 눈에 볼 수 있도록 합니다. 이것은 실제로는 수도없이 히트했을 flets.com 내의 페이지 안에서 가장 Scoring 수치가 높은 웹페이지와 그 다음으로 Scoring 수치가 높은 웹페이지만을 표시하고 그 이외의 다른 건 접어서 표시(Clustering)하고 있었다는 것을 알 수 있습니다.

폭넓은 정보 소스로부터 검색 결과를 한 화면에 표시

이 기능에 따라, 제한된 검색 결과 화면을 단일 사이트로부터의 검색 결과로 가득 채우지 않고 폭 넓은 소스로부터의 검색 결과를 제시할 수 있게 됩니다. 앞선 예시에서는 Clustering을 하지 않고, 본래 랭킹대로 표시하면 검색 결과의 최초 페이지에 flets.com 내의 웹페이지가 복수로 나열됩니다. 하나의 도메인 ・ 서브도메인 = 하나의 웹사이트라고 생각했을 때, 같은 내용이 포함되어 있는 동일 사이트의 URL이 여러 개 나열 되어 있으면 유저가 다른 유용한 웹사이트를 찾기가 힘들어집니다. 검색 엔진은 그러한 유저의 부담을 줄이고, 다양한 소스로부터의 정보를 검색 결과에 표시하기 위해, Clustering을 하고 있습니다.

무료 블로그나 쇼핑몰은 주의

같은 도메인 ・ 서브도메인 내의 페이지가 Clustering 된다는 것은 서비스 프로바이더 내의 홈페이지 area나 디렉토리 단위로 User space가 할당 되는 무료 블로그, 무료 서버, 쇼핑몰 등에 설치된 웹사이트에 있어서는 큰 문제입니다. 이러한 웹사이트들은, 다른 웹사이트와 같은 도메인 ・ 서브도메인을 사용하는 서버의 디렉토리에 설치됩니다. 그렇기 때문에 검색 엔진에 복수의 웹사이트가 같은 웹사이트의 각각의 페이지로 간주되어 키워드로 적합도가 높은 2 ・ 3의 페이지를 제외하고 모두 Clustering 되어 버리는 것입니다.

웹사이트를 제작할 때, 그것이 반드시 검색 되어야만 하는 것일 경우 독자적인 도메인 취득은 빼놓을 수 없는 작업이라고 할 수 있습니다.

The post 검색 결과 내 Clustering을 통한 콘텐츠 노출 appeared first on 미스터 SEO.

HITS(Hypertext induced Topic Selection) 알고리즘이란

어센트코리아 — Mon, 16 May 2016 04:45:29 +0000

HITS란（Hypertext Induced Topic Selection）의 약자로, 피참조도（Authority Score）와 높은 평가를 받은 웹페이지로부터의 참조도（Hub Score)를 통해 중요도가 높은 웹페이지를 추출하는 알고리즘입니다.

링크 구조에서 중요도가 높은 웹페이지를 추출

웹페이지의 링크 관계는 각각의 웹페이지의 중요도를 측정하는 지표로 활용할 수 있는 것으로, 피링크에만 중점을 둔 것이 Link popularity입니다만, 실제로는 페이지 간 링크 관계에는 다음의 두 가지 측면이 있습니다.

피링크는 평가를 받고 있다는 것을 나타낸다.

페이지가 건 링크는 다른 것을 평가하고 있다는 것을 나타낸다.

어떤 테마에 관해서 중요한 웹페이지로부터 많은 링크를 받는 웹페이지는 그 테마에 관한 중요한 웹페이지라고 간주됩니다. 그와 동시에, 어떤 테마에 대해서 중요한 웹페이지에 수많은 링크를 붙이는 웹페이지도 그 테마의 중요한 정보원으로 간주됩니다.

토픽에 중점을 둔 HITS 알고리즘

웹 상의 각 웹페이지 링크 구조를 위와 같이 양면으로 분석함으로써, 어떤 테마에 있어서 우수한 참조 관계를 찾아내 중요도가 높은 웹페이지를 추출할 수 있습니다. 이것을 HITS（Hypertext Induced Topic Selection）알고리즘이라고 부릅니다. 이 HITS를 도입함으로써, 단순히 키워드에 대한 적합도가 높기만 한 페이지가 아니라 실제로 많은 사람들로부터 높은 평가를 받고 있는 웹페이지에 높은 점수를 매길 수 있게 됩니다. HITS 알고리즘（또는 그것에 가까운 Scoring 방법） 은, Yahoo!를 시작으로 Google과 Bing 등, 중요한 모든 검색 엔진에 도입되어 있다고 볼 수 있습니다.

Authority와 Hub

HITS 알고리즘의 특징적인 개념이 「Authority」와「Hub」입니다. 이것을 간단하게 설명하면, 다음과 같이 말할 수 있습니다.

Authority
중요한 정보를 제공 하고 있는 페이지. 우수한 Authority일수록, 우수한 Hub에서 피링크를 많이 받고 있다.

Hub
중요한 정보를 제공 하고 있는 페이지에 링크를 보내고 있는 페이지. 우수한 Hub일수록 우수한 Authority에 링크를 하고 있다.

Authority Score와 Hub Score

각각의 웹페이지의 Authority Score는 그 웹페이지를 참조하는 웹페이지의 Hub Score를 합산한 것이 됩니다.

Authority Score
그 페이지에 링크 되고 있는 각 페이지의 Hub Score의 합계

Hub Score
그 페이지가 링크 되고 있는 각 페이지의 Authority Score의 합계

또한 HITS에서는 한 번의 계산이 아닌, 반복적인 계산에 의해, 각 웹페이지의 Authority Score와 Hub Score를 계산합니다. 그렇기 때문에 같은 테마를 취급하는 많은 웹페이지 간의 링크는 Authority Score와 Hub Score를 동시에 높이는 결과로 이어집니다. 단, 검색 엔진은 단순히 많은 링크를 모으기만 한 링크 수집의 평가를 필요 이상으로 높아지지 않게 하기 위해, Hub Score보다는 Authority Score를 Scoring 할 때의 지표를 더 중요하게 생각합니다. 그렇기 때문에, HITS를 차용하는 검색 엔진은 수 많은 양질의 사이트로 링크를 설치하는 것에 더해서, 수 많은 피링크를 받고 있는 웹페이지를 보다 높게 평가하는 경향이 있습니다.

HITS 알고리즘에 대응하는 최적화

Authority Score는 관련된 페이지나 사이트로부터의 피링크에 의존하기 때문에, 이것을 상승 시키는 방법은 피링크 구축, 혹은 관련된 테마를 가진 페이지로부터의 피링크를 구축하는 것만이 해결책이 될 수 있습니다. 한편, Hub Score는 Authority Score가 높은 사이트로의 링크를 보내 상승시킬 수 있기 때문에 웹 마스터가 손쉽게 상승 시킬 수 있습니다. 관련된 테마를 가진 우수한 사이트에는 적극적으로 링크함과 동시에, 우수하지 않은 사이트로의 링크를 피함으로써, Hub Score를 높일 수 있습니다.

The post HITS(Hypertext induced Topic Selection) 알고리즘이란 appeared first on 미스터 SEO.

웹사이트의 참조 중요도(Link Popularity)란?

어센트코리아 — Mon, 16 May 2016 04:35:16 +0000

Link popularity（참조 중요도）란, 피링크의 질과 양을 바탕으로 웹페이지의 중요성을 판단하는 알고리즘으로, 대표적으로는 Google의 PageRank이 있습니다.

링크를 한 종류의 지지 투표로 간주해 보자

Link popularity는 링크를 한 종류의 지지 투표로 간주하여, 질이 높은 많은 링크를 모으는 사이트는 높은 지지를 받고 있다고 가정하고 그것이 검색결과 리스트 중에서 높은 순위를 차지한다는 알고리즘입니다. Link popularity의 계산에서는 피링크의 수뿐 아니라 질도 고려합니다. 피링크가 많은 웹페이지로부터의 링크일수, 중요도가 높다고 간주되는 것입니다.

수많은 참조를 받고 있는（피링크를 받고 있는） 페이지는 신뢰성이 높다.

신뢰도가 높은 페이지로부터의 참조를 받고 있는（피링크를 받고 있는）페이지는 신뢰도가 더욱 높다

이것은 전 세계의 웹 마스터에게 「좋은 사이트는 어디입니까?」 라고 물어본 결과에 가장 가까운 것을 기계적으로 추출하려는 시도이자, 매우 우수한 평가방법입니다. Link popularity는 도큐멘트가 인터넷 상에서의 상대적인 얼마나 더 중요한지를 나타내는 지표로써 상당히 스마트한 것이기 때문에, 앞으로도 검색 엔진의 중요한 검색 알고리즘의 하나로 자리잡아갈 것이라고 생각되고 있습니다.

PageRank 는 Link popularity의 설치 예

Link popularity를 이용한 기술로는 Google의 PageRank가 상당히 유명합니다. Google의 PageRank에서는 피링크의 양과 질에 따라 웹페이지의 중요도를 측정합니다. 과거의 Google 사이트에서는 「Google 인기의 비밀」 로써 다음과 같은 것이 쓰여져 있습니다.

PageRank는, 웹의 방대한 링크 구조를 사용하여 그 기능을 수행합니다. 페이지 A부터 페이지 B로의 링크를 페이지 A에 의한 페이지B로의 지지 투표로 간주하여, Google은 이 투표 수에 의해 그 페이지의 중요성을 판단합니다. 하지만 Google은 단순히 투표수, 즉 링크 수를 볼 뿐 아니라 투표를 한 페이지에 대해서도 분석합니다. 「중요도」가 높은 페이지가 한 투표는 보다 높은 평가를 받고, 그 투표를 받은 페이지를 「중요한 것」으로 보는 것입니다.

Link popularity는 페이지 고유의 순위 선정

참조 중요도만을 지표로 하는 단순한 Link popularity는 단순히 페이지 고유의 중요도를 측정하는 것으로, 반드시 쿼리와의 일치도를 나타내는 것은 아닙니다. 따라서 지금의 검색 엔진에서는, 단순히 Link popularity에만 무게를 두지 않고 보다 진화된 Link popularity를 사용하고 있습니다. 앞서 말한 「Google 인기의 비밀」은 이미 삭제되었지만, 그와 동시에 삭제된 문장에 다음과 같은 것이 있었습니다.

PageRank는 Google에서 페이지의 중요도를 나타내는 종합적인 지표이고, 각 검색에 영향을 끼치지는 않습니다. 오히려 PageRankTM는 복잡한 알고리즘에 따른 링크 구조의 분석을 바탕으로 한, 각 웹페이지 그 자체의 특성입니다.

다시 말해, PageRank는 각각의 페이지에 부여 된 페이지 고유의 순위 선정이고, 검색 키워드가 아니더라도 기능이 존재한다는 것을 의미하고 있습니다. 이것이야말로 많은 SEO업계 사람들이 「적어도 Tool Bar에 표시 되는 PageRank는 랭킹과 깊은 관계가 없다」고 말하는 이유입니다.

쿼리에 의해 변동되는 지표로의 이행

지금은 어떻게 Link popularity가 사용되고 있는가라는 것에 대한 관심이 있는 것이 당연하지만, 검색 결과의 랭킹에서는 페이지 고유의 순위 선정보다도 쿼리에 의해 변화하는 지표가 주류가 되어 있고, 구체적으로는 다음의 두 가지가 잘 알려져 있습니다.

테마 테크놀로지

HITS 알고리즘

Link popularity나 그것을 향상시키기 위한 피링크 구축의 중요성에 대한 변화는 없습니다. 하지만, 검색 결과의 순위를 정하는 것은 위와 같은 검색 키워드에 의해 변화하는 지표에 보다 큰 무게를 두고 있다는 것에 주의해야 합니다.당연한 것이기도 하지만, 페이지 고유의 Link popularity의 중요성이 낮아지고 있는 것은 아닙니다. 예를 들어 크롤러 순회처의 결정으로는 중요한 역할을 하고 있고, Anchor Text Match는 랭킹에 대해서도 중요한 요소 중 하나입니다. 적어도 피링크 구축의 중요성은 앞으로도 계속해서 높아질 것입니다.

The post 웹사이트의 참조 중요도(Link Popularity)란? appeared first on 미스터 SEO.

웹페이지의 랭킹을 매기는 TF-IDF 법

어센트코리아 — Mon, 16 May 2016 01:55:21 +0000

이번 포스팅에서는 키워드 중요성의 차이를 고려하여 여러 단어로 검색시 정확도를 향상시키는 TF-IDF에 대해 설명합니다.

키워드의 출현도를 나타내는 TF와 중요도를 나타내는 IDF

TF-IDF 법은 문자 그대로 TF (term frequency)라는 지표와 IDF (inverse document frequency)라는 지표의 두 가지 지표를 이용한 알고리즘입니다. TF와 IDF 쌍방의 지표를 이용하는 것으로 키워드에 대한 개별 웹페이지의 채점을 할 수 있게 됩니다.

TF (term frequency)

TF란 웹페이지내에서 키워드가 얼마나 많이 사용되고 있는지를 나타내는 지표입니다. 키워드를 많이 포함한 웹페이지일수록 해당 키워드에 대해 자세히 설명하고있는 것이라고 생각하는 것입니다.

IDF (inverse document frequency)

IDF란 그 키워드가 얼마나 많은 수의 웹페이지에서 사용되고 있는가를 나타내는 지표입니다. 많은 웹페이지에서 사용되는 키워드보다 적은 웹페이지에서 사용되고 있는 키워드 쪽이 그 페이지의 특징을 잘 나타내는 것으로 생각하는 것입니다.

복수 키워드에 의한 검색의 정확도를 높이기

여러 키워드를 AND로 검색할 경우, 검색 엔진은 각각 일치하는 단어를 모두 포함한 웹페이지를 추출하고 각각의 단어에 대한 적합도를 별도로 산출하고 집계하여 표시의 순위를 결정합니다. 이 때 단순히 개별 단어의 순위를 집계하는 것만으로는 좋은 결과를 얻을 수 없습니다. 왜냐하면 그 개별 단어 사이에 중요성의 차이가 있기 때문입니다. 예를 들어 A라는 단어와 B라는 단어로 검색했다고 합니다. 만일 WWW 전체의 웹페이지 중에서 A를 포함하는 것이 100이고 B를 포함하는 것이 1000이며, 양쪽을 포함하는 것이 50 있다고 합니다. 단순히 순위만으로 판단하면 [A에 10 위 · B에 11 위]라고 하는 웹페이지와 [A에 대해 11 위 · B에 10 위]라고 하는 웹페이지는 동급으로 취급해야 것입니다.

그러나 A의 전체에 대한 순위와 B의 전체에 대한 순서를 상대적으로 생각해 보겠습니다. [A와 B]라고 하는 내용에 대해서 보다 상세히 설명하고 있는 것은 [A에 대해 10 위 · B 대해 11 위]쪽일 것입니다. 각 키워드의 분모가 다르기 때문입니다. 이것은 A와 B의 키워드를 각각 [선술집]과 [신바시,일본의 유명한 비니네스 거리로 선술집이 많이 밀집된 거리]로 옮겨 보면 이해하기 쉬울 것이다.

TF-IDF 법을 이용한 알고리즘은 A와 B 각각의 단어 자신의 중요성 = 순위의 중량이 가진 차이를 고려하여 [A에 10 위 · B에 11 위]를 [A 에 11 위 · B에 10 위 ] 보다 상위에 표시합니다.

TF-IDF방법에 관한 다른 자료

TF-IDF 방법에 대한 자세한 알고리즘은 다른 사이트를 참조하십시오.

조영규의 블로그 : TF-IDF(Term Frequency-Inverse Document Frequency
(http://www.jpo.go.jp/shiryou/s_sonota/hyoujun_gijutsu/search_engine/b/b51.htm)

tf-idf – Wikipedia
(https://Ko.wikipedia.org/wiki/Tf-idf)

The post 웹페이지의 랭킹을 매기는 TF-IDF 법 appeared first on 미스터 SEO.

N-Gram 인덱스 방식

어센트코리아 — Mon, 16 May 2016 01:09:11 +0000

N-Gram 인덱스 방식은 정해진 문자 수 단위로 문장을 잘라, [단어를 포함한 문자열]로 인덱스하는 방식입니다.

[단어를 포함한 문자열]로 인덱스하기

N-Gram 인덱스 방식은 정해진 길이의 단위로 문장을 잘라, [단어를 포함한 문자열]로 인덱스하는 방식입니다. 웹 검색 엔진에서는 소수지만 사이트 내 검색 소프트웨어에서 이 방식을 차용하고 있는 것도 있습니다. 이 방식에서는 문서의 머리에서 길이 N의 문자열을 한 만큼의 순서대로 잘라 그 문자열의 전부라고 기재된 파일이나 위치를 인덱스에 기록해 갑니다 (길이 N은 가나문자나 한자 등 문자의 종류에 따라 적절한 값을 선택할수 있는 경우가 있습니다).

예를 들어, [검색 엔진의 구조]를 N = 4로 취득하면

검색엔진
색엔진의
엔진의구
진의구조

라고하는 문자열을 취할 수 있습니다. 그후 검색시에 검색, 엔진, [검색][엔진][구조] 등의 단어를 포함한 문자열이 있는 장소를 찾는 것으로, 어떤 파일의 어디에 어떤 단어가 포함되어 있는가를 정확하게 알수 있습니다.

N-Gram 인덱스 방식의 이점

N-Gram인덱스 방식에는 다음과 같은 장점이 있습니다.

알고리즘이 단순하다

N-Gram인덱스 방식에는 인덱스 및 검색 알고리즘이 단순하다는 이점이 있습니다. 고속 처리되는 것에 단어 인덱스 방식와 같은 복잡한 문서 분석을 하지 않기 때문에 어떤 언어에도 같은 알고리즘으로 대응 할 수 있습니다.

검색누락이 발생하지 않는다

N-Gram인덱스 방식에는 원래 문서에 포함되어 있는 문자라면 어떤 단어라도 검색이 되고, 검색 누락이 생기지 않는다는 이점이 있습니다. 예를 들어, 중지 단어를 포함한 검색 단어는 보통 단어 인덱스 방식에서는 검색할 수 없지만, N-Gram 색인 방식으로 검색이 가능합니다.

N-Gram 인덱스 방식의 단점

N-Gram 색인 방식에는 다음과 같은 단점이 있습니다.

검색 노이즈가 크다

N-Gram 인덱스 방식은 검색 시 커다란 소음을 발생한다는 결점이 있습니다. 검색 노이즈란 검색자가 의도하지 않은 웹 페이지가 검색 결과에 섞여 버리는 상태입니다. 이것은 단어 사전을 기반으로 단어 인덱스와 달리 단어가 문장에서 어떻게 다루어지고 있는지를 자세히 알 수 없기 때문에 문장의 내용을 생각한 채점을 할 수 없기 때문입니다.

데이터베이스 용량(인덱스 크기)이 커진다

N-Gram 인덱스 방식에는 데이터베이스 용량이 커진다는 결점이 있습니다. (전체 문자수 × N)의 양의 문자 정보를 유지해야하며, 단어 인덱스 방식에 비해 몇 배의 테이터양을 취급 할 필요가 있습니다. 특히 인덱스 크기가 커진다는 결점 때문에 웹 전체를 대상으로 하는 검색 엔진에서 N-Gram 인덱스 방식이 사용되지 않게 되어 버렸습니다.

The post N-Gram 인덱스 방식 appeared first on 미스터 SEO.

검색엔진의 부울 연산과 각종 검색식

어센트코리아 — Mon, 16 May 2016 01:04:58 +0000

AND, OR, NOT으로 대표되는 부울 연산은 두 개 이상의 데이터 비교를 실시하는 것으로 프로그램 이론 중에서 가장 기본적인 알고리즘의 하나입니다. 따라서 검색엔진과 같은 데이터베이스에 있어서도 조건구문 처리의 기초가 되고 있습니다. 또한 이외의 특수한 검색식도 존재합니다.

데이터와 입력 항목의 비교 방법을 결정하는 부울 연산

AND, OR, NOT으로 대표되는 부울 연산은 두 개 이상의 데이터 비교를 실시하는 것으로, 프로그램 이론 중 가장 기본적인 알고리즘의 하나입니다. 따라서 검색 엔진과 같은 데이터베이스에 있어서도 조건 처리의 기초가 되고 있습니다. 이러한 조건을 포함한 검색 쿼리를 “검색식”이라고 합니다. 검색식이란 사용자를 위해 준비된 검색처리 조건식을 말합니다. 조건식은 검색 엔진의 숙명적인 단점인 검색 노이즈를 사용자의 손으로 배제하는 것으로, 대부분의 검색 엔진에서는 검색식을 차용하여 사용자에 의한 검색 조건의 지정을 가능하게 하고 있습니다.

검색 엔진에 의한 전문 검색에서는 검색 키워드와 일치하는 단어를 포함한 웹페이지를 찾고 결과를 표시합니다. 이 때, 키워드의 종류에 따라 매우 많은 웹페이지가 표시됩니다. 너무 많은 웹페이지가 표시되는 경우 사용자는 필요로 하는 정보가 게재 되어 있는 웹페이지를 골라내는 것이 곤란하게 됩니다. 검색식을 이용해 검색 조건을 추려내는 것으로, 목적 외의 웹페이지를 검색 결과에서 배제할 수 있습니다.

검색 엔진에서 사용할 수 있는 주요 검색식

검색 엔진에서 이용할 수 있는 검색식에는 주로 다음과 같은 것이 있습니다. 단, 검색 엔진에서 사용할 수 있는 검색식의 종류와 기술 방법은 다릅니다.

AND 검색

AND 검색은 검색 양식에 기술되는 모든 키워드와 일치하는 단어를 포함한 웹페이지를 검색합니다. 3개 이상의 단어를 지정하는 것도 가능하고, 많은 키워드를 기술해서 검색 결과를 추려낼 수 있습니다. 기본적으로는 간격을 두고 각각의 키워드를 설명하는 것만으로 처리되지만, 검색 엔진에 따라서는 단어 사이에 “and” 또는 “+”라는 연산자를 입력합니다.

NOT 검색

NOT 검색은 주요 키워드와 일치하는 단어를 포함한 웹페이지 중에서 특정 키워드에 일치하는 단어가 포함된 웹페이지만을 빼고 검색합니다. 3개 이상의 키워드를 지정하는 것도 가능하고 많은 키워드를 기술하여 검색 결과를 추릴 수 있습니다. 식으로는 검색 결과로부터 제외하고자 하는 키워드의 직전에 “not”연산자나 빼기 기호 “-”등의 식을 붙여 기술합니다. 예를 들어 Google에서 “올림픽”을 포함하며 “겨울”을 포함하지 않는 웹페이지를 검색하려면 “올림픽 – 동계”라고 입력합니다.

OR 검색

OR 검색은 여러 검색 키워드 중 하나와 일치하는 단어를 포함한 웹페이지를 검색합니다. 많은 키워드를 기술하여 검색 결과를 좁힐 수 있습니다. 검색식으로는 키워드와 키워드 사이에 “or”연산자를 입력합니다. 예를 들어, “건강 or 식사”는 “건강” 또는 “식사”라는 키워드를 검색합니다.

구문 검색

구문 검색은 2 개 이상의 단어로 이루어진 복합어를 그대로 모양의 키워드로 검색하는 방법입니다. 식으로는 따옴표 “문구”를 사용하여 “문구” 대로의 모양으로 단어가 나열되어 있는 웹페이지만 검색합니다.

기타

와일드 카드 “*”등을 이용하여 행하는 부분 일치 검색과 검색 키워드를 정규 표현으로 지정하는 정규 표현 검색, AND OR NOT 검색을 동시에 수행하는 복합 검색 등이 있습니다.

특수한 검색식과 연결 쿼리

검색 엔진별로 특수한 검색을 가능하게 하는 특별한 검색식을 준비하고 있는 것도 있습니다. 예를 들어 Google은 “link : URL”라고 하는 검색식을 이용하면 해당 URL에 대한 링크되어있는웹페이지를 표시 할 수 있습니다. 이러한 특수 검색 쿼리는 4종류의 검색 목적 중 “연결 검색 쿼리 (Connectivity queries)”라고 불리는 것입니다.

Google를 예로 하면 다음과 같은 것들이 있습니다.

site : 도메인명

site : Mrseo.kr

해당 도메인내의 페이지를 검색

cache : URL

cache : Mrseo.kr

페이지의 캐시를 표시

link : URL

link : Mrseo.kr

대상에 링크하고 있는 페이지 표시

related : URL

related : Mrseo.kr

대상 페이지와 유사한 페이지를 표시

info : URL

info : Mrseo.kr

페이지에 대한 각종 정보를 표시

allintitle : 문자열

allintitle : SEO

문자열을 title 요소에 포함 된 페이지를 검색

intitle : 문자열

intitle : seo 최적화

첫 단어를 title 요소에 포함하고 다음 단어 이후는 title 또는 그 이외의 요소에 포함하는 페이지를 검색

allintext : 문자열

allintext : seo

모든 키워드를 본문에 포함 된 페이지를 검색

intext : 문자열

intext : seo

본문 (title과 앵커 텍스트는 포함하지 않는다)에 키워드를 포함하는 페이지를 검색

allinurl : 문자열

allinurl : Mrseo

URL에 모든 키워드를 포함하는 페이지를 검색

inurl : 문자열

inurl : Mrseo

URL에 키워드를 포함하는 페이지를 검색

allinanchor : 문자열

allinanchor : 검색엔진 최적화

피 링크의 앵커 텍스트에 모든 키워드를 포함하는 페이지를 검색

inanchor : 문자열

inanchor : 검색엔진 최적화

피 링크의 앵커 텍스트에 키워드를 포함하는 페이지를 검색

구문 검색에서 완전 일치하는 페이지를 검색

구문 검색이란 여러 키워드로 검색 할 때 개별 단어에 완전 일치하는 것만을 찾는 검색 방식입니다. 하나의 문구나 인명·지명·인용문 등을 검색하는 경우나 정지 단어를 포함해서 검색하는 경우처럼, 입력한 단어와 완전히 일치하는 단어가 포함된 웹페이지만을 결과에 표시 하고싶은 경우 이용합니다. 대부분의 검색 엔진에서는 큰 따옴표 [“] 를 이용하여 [“검색어구”]와 같이 입력하는 것으로 검색 키워드가 그대로 글 안에 나열된 웹페이지만을 검색할 수 있습니다.

완전 일치형 검색 엔진을 제외하고 검색 엔진은 두 단어 이상으로 이루어진 검색어가 입력 된 경우 통상적으로는 형태소 분석에 의한 개별 단어로 분해한 다음 개별 단어에 의한 AND 검색을 합니다. 검색 결과는 그 단어를 모두 포함한 웹페이지가 표시되지만, 반드시 원래 검색어가 포함된 웹페이지만 표시하는 것은 아닙니다.

예를 들어, 검색폼에 “검색 엔진 최적화”를 입력한 경우 “검색/엔진/최적/화”라고 분해된 검색이 이루어지고, 해당 단어가 모두 포함된 웹페이지가 나타납니다. 즉 “자동차 엔진에 대해 검색 할 수 있는 사이트입니다. 브라우저는 IE6.0에 최적화되어 있습니다.” 등 입력한 단어와는 무관한 웹페이지도 나타날 수 있습니다.

그러나 검색폼에 “검색 엔진 최적화” 라고 검색어 전체를 큰 따옴표로 묶어 입력하면 검색 엔진 최적화라는 단어에 완전 일치하는 웹페이지만을 표시 할 수 있습니다.

또한 구문 검색은 검색어와 완전 일치하는 것을 검색하는 방법이기 때문에 일반 검색에서 무시되어 버린 Stopwords에 대해서도 검색 할 수 있습니다. 예를 들어, Google에서 [a pen ]이라는 단어를 검색해도 [a]는 무시하고 [pen]을 검색하는 것과 같은 결과가 표시됩니다. 하지만 [“a pen”] 등 인용 부호로 전체를 둘러싸고 문구 검색하는 것으로 확실한 [a pen]이 기술된 웹페이지를 검색 할 수 있습니다.

The post 검색엔진의 부울 연산과 각종 검색식 appeared first on 미스터 SEO.

디렉토리 검색 서비스

어센트코리아 — Mon, 16 May 2016 00:52:36 +0000

디렉토리란 분류 항목 선택에 의해서 목적에 맞는 웹사이트의 목록을 얻을 수 있는 검색 서비스입니다. 분류학적 트리 구조를 이용한 분류에 따라 웹에서 사이트에 색인을 붙인 링크집과 같은 구조를 가지고 있습니다.

분류 항목의 선택에 따라 검색을 행하는 디렉토리

디렉토리란 웹사이트 정보를 속성별로 분류 · 계층화한 링크 목록을 말합니다. 분류학적 트리 구조를 이용한 도서관의 인터넷 버전과 같은 서비스로, 자신이 목적으로 하는 테마에 맞는 분류 항목을 선택함으로 해당 항목에 맞는 웹사이트의 목록을 얻을 수 있습니다. Yahoo! 카테고리와 ODP (Open Directory Project)는 이 디렉토리형 검색 서비스의 대표적인 사례입니다. 이 2 개는 등록할 가치가 있습니다. 다른 크로스 레커먼드, J 엔트리, SiteList 엔트리, i 디렉토리, BPN 디렉토리, e-마을 타운업체목록 등이 디렉토리 서비스를 전개하고 있습니다.

사람의 손에 의한 웹사이트 단위의 디렉토리 등록

디렉토리에서는 신청이 이루어진 웹사이트를 편집자 또는 서퍼라 불리는 디렉토리 측 사람의 손으로 등록합니다. 편집자는 사이트 소유자에 신청된 웹 사이트의 심사를 거쳐 가장 적절하다고 생각되는 분류에 웹사이트를 등록합니다. 이 때, 등록 단위가 웹사이트라는 것이 디렉토리의 큰 특징입니다. 디렉토리 검색 서비스는 로봇형 검색엔진과 동일한 검색 서비스를 제공하는 것이 있습니다만, 일반적으로는 [검색엔진]이라고 부르지 않고 [디렉토리 서비스] 또는 [디렉토리 검색]이라고 합니다. 디렉토리에 [엔진]의 호칭이 부여되지 않는 이유는 어디 까지나 디렉토리는 사람의 손에 의해 편집되는 것을 나타내고, 기계적 정보 처리를 실시하는 조직이나 알고리즘이 없기 때문입니다. 디렉토리의 장점도 단점도 바로 이 [수동]이라는 점에서 생깁니다. 많은 디렉토리가 키워드 검색으로 정보를 찾는 기능이 설치되어 있습니다만, 이것으로 찾는 것은 사이트명·디렉토리(카테고리)명·설명문 내용뿐이며, 웹사이트에 있는 각 페이지의 내용들은 검색의 대상이 되지 않습니다.

검색 노이즈가 적은 검색 방법

사람이 직접 등록한 디렉토리의 장점은 검색 노이즈가 적다는 것입니다. 검색 노이즈란 검색자가 의도하지 않은 웹페이지가 검색 결과에 섞여 버리는 상태를 말합니다. 디렉토리의 각 계층에서는 그 계층에 관련된 링크만 게재될 수 없기 때문에 볼 수 있는 링크에 관계없이 페이지가 많이 섞이는 일은 없습니다.

사람의 손으로 분류되기 때문에 분류 항목에 관련한 테마의 웹사이트를 쉽게 찾을 수 있다.

게재 시 내용에 대한 심사가 있기 때문에 게재 사이트는 대체로 품질이 높다.

필요한 정보가 등록되어 있지 않거나 찾기 힘든 가능성

디렉토리는 사람의 손으로 등록을 하기 떄문에 커버할 수 있는 범위가 필연적으로 좁아집니다. 따라서 사용자에게 필요한 정보를 게재하는 웹사이트가 등록되어 있지 않을 수 있다는 단점이 있습니다. 마찬가지로, 분류 방법이 방문자의 직감에 어울리지 않으면 게재되는 정보라도 그것을 발견하기 어렵게 되는 단점을 가지고 있습니다. 이 단점은 현재 디렉토리 서비스의 이용이 쇠퇴하고 있는 이유 중 중요한 요인이라고 말할 수 있습니다.

로봇으로 정보를 자동 수집하는 검색엔진에 비해 등록된 웹사이트 수가 적다.

분류 항목의 수와 분류 방법에 따라 게재 할 수 있는 정보가 제한되기 때문에 사소한 정보를 찾기 힘들다.

등록 뿐만 아니라 업데이트도 사람의 손으로 하기 때문에 웹사이트가 오래된 정보에 근거한 분류 게재가 되고 있는 경우가 있다.

피링크 구축 일환으로서의 유료 등록 심사 서비스

많은 디렉토리는 등록을 위한 유료 심사 서비스를 제공하고 있으며, 심사에 합격하면 각 디렉토리 서비스의 파트너가 되는 각종 포탈 사이트에 링크를 게시해 달라고 할 수 있습니다. 그러나 로봇형 검색엔진의 성능이 향상된 현재 디렉토리 검색 자체는 거의 이용되고 있지 않기 때문에, 디렉토리에서의 직접 트래픽 증가는 별로 기대할 수 없습니다. 또한 SEO의 관점에서도 링크가 게재되는 계층이 얕은 경우, 게재 페이지 발 링크의 갯수가 너무 계층이 깊은 경우에는 게재 페이지 링크 인기도가 그리 높지 않게 되는 등 사실 검색 순위를 크게 향상시킬 만큼의 효과는 우선 기대할 수 없습니다. 디렉토리 서비스에 특히 강하게 연결 인기도와 SEO 효과를 주장한 것이 있었지만 그 대부분은 2013 년 9 월부터 10 월까지 Google에서 부자연 링크로 간주되어 효과를 잃고 서비스를 종료했습니다. 현재는 대부분의 유료 심사 서비스의 이용은 추천할 수 없습니다. 단 예외적으로 개설 초기 등 링크 인기도가 향상되기 전의 사이트가 색인을 촉진하기 위해 사용하는 자연적인 피링크 구축이 어려운 장르나 카테고리의 사이트가 링크 인기도 향상책의 일환으로는 이용을 추천할 만 합니다.

상기와 같은 목적에 한정하면, Yahoo 비즈니스 익스프레스의 이용에는 어느 정도의 효과를 기대할 수 있습니다. 키워드 검색에서 상위를 노리고 싶은 목적에서 큰 효과는 기대할 수 없지만, 새로 개설한 사이트 크롤링이나 색인의 촉진이라는 목적이라면 어느 정도의 효과가 있습니다.

그 외의 저품질 디렉토리 등록은 요주의

대기업이 운영하는 유료 심사형 디렉토리조차도 심사가 매우 느슨해 심사의 의미를 잃었으며, 게재 사이트 품질이 낮은 것들뿐인 것이 현재의 상황입니다. 디렉토리의 운영 그 자체에 문제가 있어 Google에서 페널티의 대상이 되고 있는 것도 적지 않습니다. 대기업이 운영하는 유료 심사형 디렉토리조차 이런 상황이기 때문에, 개인 운영의 마이너 디렉토리의 상황은 미루어 짐작 할 것입니다. 물론 차근 차근 조사하면 개인 운영에서도 양질의 디렉토리는 일부 존재합니다만(특정 장르에 특화된 것이 중심입니다), 대부분은 심사가 없는 것이나 다름없어 스팸에 한없이 가까운 것입니다. 극히 일부에 존재하는(할지도 모를) 우량 마이너 디렉토리를 찾아 등록하는 수고보다는 디렉토리 등록을 고려하는 경우 여기에 소개한 주요 디렉토리만에 그치는 것과 함께 마이너 디렉토리는 무시하고 디렉토리 등록 이외의 다른 피링크 구축에 몰두하는 것이 효율적인 SEO에 있어서는 현명한 선택이라고 말할 수 있겠지요.

The post 디렉토리 검색 서비스 appeared first on 미스터 SEO.

검색엔진의 메타 검색이란

어센트코리아 — Fri, 13 May 2016 09:25:02 +0000

메타 검색은 1번의 키워드 입력으로 여러 검색 서비스를 통해 검색을 대행해 주는 일종의 횡단 검색 서비스입니다.

다른 검색 서비스의 검색 기능을 이용하는 메타 검색

메타 검색은 1곳의 키워드 입력으로 여러 검색 서비스에 의한 검색을 대행하는 웹사이트입니다. 메타 검색은 검색엔진이나 디렉토리와는 달라서 독자의 데이터베이스를 가지고 있지 않습니다. 사용자로부터 요구된 검색 키워드를 여러 검색엔진에 보내고 그 결과를 가공 편집하여 사용자에게 검색 결과로 표시합니다. 메타 검색에 의한 검색은 많은 검색 서비스에서의 검색 결과를 반영시킬 수 있습니다. 그 때문에 광범위한 정보에 도달이 가능하고, 정보를 찾기 위해 여러 검색 서비스를 떠돌아 다니는 필요가 없다는 장점이 있습니다.

좋든 나쁘든 검색 잡음이 많은 게 메타 검색의 특징

메타 검색의 결점으로는 검색 노이즈가 많음을 들 수 있습니다. 검색 노이즈는 검색자가 의도하지 않은 웹페이지가 검색 결과에 섞여 버리는 상태를 말합니다. 메타 검색에 의한 검색 결과는 이용하는 각각의 검색 서비스가 발생하는 검색 잡음을 모두 포함하게 됩니다. 한편, 메타 검색을 이용하는 원래의 이유로 [다양한 정보 소스에 접하고 싶다]는 것이기 때문에 메타 검색의 이용자에 있어서 노이즈는 허용 할 수 있는 것이며, 노이즈도 포함해서 검색 할 수 있다는 점에서 메타 검색이 나은 경우도 있습니다.

The post 검색엔진의 메타 검색이란 appeared first on 미스터 SEO.

로봇형 검색엔진의 의미

어센트코리아 — Fri, 13 May 2016 08:45:01 +0000

일반적으로 단순히 검색엔진이라 부르는 경우는 이 [로봇형 검색엔진]를 의미하며 사용자가 원하는 키워드와 일치하는 내용을 가진 웹페이지를 찾아내는 검색 서비스입니다.

인덱스 전체에 대한 전문(全文) 검색을 하는 검색엔진

로봇형 검색엔진(단순히 [검색엔진]이라고 하면 이것을 말합니다)이란 사용자가 원하는 키워드와 일치하는 내용을 포함한 웹페이지를 찾아내는 검색 서비스입니다. 현재 가장 주류의 검색 서비스죠. 검색엔진은 작성한 인덱스(데이터베이스)에 격납된 웹페이지 전문을 대상으로 키워드와 일치하는 내용을 가진 모든 웹페이지를 찾아 내고 나열합니다. 검색엔진의 대표적인 것에는 Google, Bing 등이 있습니다. 또한 많은 포털 사이트에서 이들 엔진을 이용한 검색을 가능하게 하고 있습니다.

로봇의 순회에 따른 방대한 정보량

검색엔진 크롤러와 스파이더라고 불리는 로봇(프로그램)이 웹페이지를 자동으로 순회하여 정보를 수집하고 인덱스에 저장합니다. 이 때 크롤러가 순회하는 것은 등록 신청 된 웹페이지뿐만 아닙니다. 순회한 웹페이지에 기재된 링크 정보를 차례로 따라가서 모든 웹페이지를 순회하며 정보를 수집합니다. 따라서 원칙적으로는 링크로 연결된 전세계 모든 웹페이지를 대상으로 검색을 할 수 있습니다. 검색엔진은 웹사이트 단위가 아닌 개별 페이지의 정보를 수집합니다. 따라서 디렉토리에 등록되기 어려운 다음과 같은 정보도 검색 할 수 있습니다.

대부분의 사람들에게 필요 없다고 생각되는 사소한 정보라도 찾아낼 수 있다.

잘 알려지지 않은 웹사이트의 정보라도 찾을 수 있다.

전혀 정보가 정리 되어있지 않은 페이지 중에서도 유용한 정보를 알아낼 수 있다.

검색엔진 크롤러는 정기적으로 순회를 하기 위해서 신선한 정보를 검색 할 수 있다.

검색 노이즈가 많다는 결점

로봇형 검색엔진의 결점으로 검색 노이즈가 많음을 들수 있습니다. 검색 노이즈란 검색자가 의도하지 않은 웹페이지가 검색 결과에 섞여 버리는 상태를 말합니다.

키워드의 종류에 따라 매우 많은 웹페이지가 히트하기 위해 필요한 정보를 찾아 내는 것이 어려운 경우가 있다.

기본적으로 키워드와 일치하는 정보를 포함한 Web 페이지를 찾아 내기만 하기 때문에 검색 결과가 사용자가 원하는 정보를 포함하고 있다고 할 수는 없다.

그러나 이러한 단점도 알고리즘의 고도화에 따라 점차 극복되고 있으며, 적어도 일반적인 단어를 사용하여 검색에서 상위에 관해서는 분명 노이즈라고 생각되어지는 것이 표시되는 경우는 드물게 되었습니다.

The post 로봇형 검색엔진의 의미 appeared first on 미스터 SEO.

퍼지 검색과 맞춤법 교정

어센트코리아 — Fri, 13 May 2016 08:33:39 +0000

퍼지 검색은 입력된 검색 키워드가 정확하지 않아도 사용자의 요구를 예상하고 적절한 단어를 찾는 검색 방식으로 표기의 흔들림과 유의어 · 동의어를 보완합니다. 또한 맞춤법 교정은 사용자의 입력 실수를 지적하고 보다 정확도 높은 검색을 제공합니다.

퍼지 검색 및 맞춤법 교정이란

검색엔진은 사용자가 입력하는 검색어를 바탕으로 정보를 찾고, 기본적으로는 사용자가 입력한 검색 키워드를 확실하게 포함한 웹페이지만을 검색합니다. 그러나 사용자가 입력한 키워드가 항상 정확하지 않고 표기의 흔들림이나 동의어 유의어 변환 오류, 오타 및 입력 오류 등이 섞이면 정확도가 떨어집니다. 그러한 사용자 측의 실수나 표기 잘못에 대응하고 확실한 정보 검색을 위한 쿼리 프로세스가 퍼지 검색 및 맞춤법 보정입니다. 이에 따라 정확한 키워드가 아니어도 유연하게 검색하게 되고 사용자는 보다 더 일상적으로 사용하는 최소 단어 입력만으로 적절한 검색 결과를 얻을 수 있게 됩니다.

입력 키워드의 동의어 · 유의어에 의한 검색

일본어뿐만 아니라 각국의 언어에는 많은 동의어 관련어가 존재합니다. 또한 완전히 똑같은 단어로 표기가 다른 경우도 있습니다. 예를 들어 [검색検索 엔진]과 [검색Search 엔진]의 두 단어는 동일한 의미를 가지고 있습니다만, 검색 알고리즘에는 다른 단어로 인식되어 버립니다. 이 같은 동의어와 표기의 차이 등을 흡수하는 것이 유의어 사전을 도입한 퍼지 검색 시스템입니다. 유의어 사전을 이용하는 것으로 예를 들어 [검색検索 엔진]이라고 검색해도 [검색Search 엔진]의 검색 결과도 함께 반환하는 것이 가능하게 됩니다. 유의어 사전의 도입으로 검색은 보다 사용자의 의도와 가까워지기 때문에 검색의 편리성은 비약적으로 높아집니다.

또한 유의어 사전이란 사용자가 의도하는 키워드와 동일한 검색을 하기 위한 동의어 · 유의어 사전을 말합니다. 자연문 분석이라고 하는 방식으로 전문 검색형 데이터베이스, 로봇형 검색 엔진을 받아들인 때에 유의어 사전을 도입 한 검색 알고리즘은 향후 중요한 기술이 될 것으로 생각되고 있습니다.

검색엔진에서 유의어 사전의 실제 예

시소러스는 아직 발전 중인 기술이지만, 서서히 검색 엔진에 장착되고 있습니다.

영숫자 표기 불안정 대응

영숫자의 표기 등에 대해서는 현재 많은 검색 엔진이 유의어 사전 처리를 하고 있습니다. 예를 들어, Yahoo! 또는 Google에서 [A(일본어 전각입력)]와 [A(일본어 반각입력)], [1(일본어 전각입력)] [1(일본어 반각입력)]과 같은 영숫자 전반각의 차이가 있어도 모두 같은 문자로 검색합니다. 또한 [A] [a]와 같은 로마자의 대문자 · 소문자도 동일하게 검색합니다.

단어의 표기 불안정 대응

Google등의 검색 엔진에서는 영어에서 동사의 활용이나 복수형 등을 사전에서 흡수해, 과거형과 현재형 단수와 복수 등을 같은 단어로 검색합니다. 이를 통해 영문에서의 검색은 비약적으로 간단하게 되었습니다.

카타카나 표기의 불안정 대응

카타카나 단어의 표기 등에 대해서도 현재 많은 검색 엔진이 유의어 사전 처리를 행하고 있습니다. 예를 들어, Yahoo !,과 Google은 “가상ヴァーチャル” “가상バーチャル”, “다이아몬드ダイヤモンド” “다이아몬드ダイアモンド”등은 어디에서 검색해도 같은 결과를 표시합니다.

일본어 표기 불안정 대응

goo가 2003 년 12 월부터 도입한 보다 고도의 유의어 사전을 이용한 쿼리 처리에서는 한자읽기의 차이 · 읽기의 차이 · 약어 등을 수정해서 검색합니다. 이와 같은 방법은 다른 주요 검색 엔진에도 수시로 도입되어 현재는 표기 불안정 (「이사 引っ越し)와 「이사 引越」등」)에 대해서 사용자는 특별히 아무것도 생각할 필요가 없습니다.

올바른 키워드로 검색을 돕는 맞춤법 교정

맞춤법 교정은 검색 정확도를 높이기 위해 사용자가 입력한 검색어의 철자를 보정하는 기술입니다. 사용자가 입력한 키워드에 오타가 있는 경우나 사용자가 제대로 키워드를 파악하고 있지 않은 경우에는 검색 엔진은 사용자가 구하는 정보와 다른 정보를 찾아 버리게 됩니다. 이 때, 사용자 측의 부주의로 인한 실수를 검색 엔진이 보정하는 것으로 실수 없는 검색을 할 수 있습니다. 맞춤법 교정은 아직 개발중인 기술이지만, 서서히 검색 엔진에 장착되고 있습니다.

Google에 의한 단어 맞춤법 검사

Google에서는 단어의 맞춤법 검사 기능을 실현하고 있습니다. 입력된 키워드를 사전에 비추어 만약 해당 단어가 없으면 가장 그것에 가깝다고 생각되는 철자를 사용자에게 다시 제시합니다. 예를 들어, ‘searc engine”이라고 입력하면 검색결과 목록의 맨위에 “혹시 : search engine “(영어사이트에서는 “Did you mean : search engine”)로 표시되어 검색 한 키워드가 잘못되지 않았는지 여부를 사용자에게 되묻습니다.

비슷한 기능은 다른 주요 검색 엔진에도 구현되어가고 있으며, 일본어 대응 등도 진척되고 있습니다. 적당한 맞춤법과 변환으로 검색해도 올바른 표기가 후보로 나타나므로 검색어를 결정하기 위해 검색하는 등 이런 사용자의 수고는 크게 감소하게 되었습니다.

The post 퍼지 검색과 맞춤법 교정 appeared first on 미스터 SEO.