블로그 포스팅 모두 보기

퍼지 검색과 맞춤법 교정

by 어센트코리아 13. 5월 2016 Blog, 검색엔진의 원리 0

퍼지 검색은 입력된 검색 키워드가 정확하지 않아도 사용자의 요구를 예상하고 적절한 단어를 찾는 검색 방식으로 표기의 흔들림과 유의어 · 동의어를 보완합니다. 또한 맞춤법 교정은 사용자의 입력 실수를 지적하고 보다 정확도 높은 검색을 제공합니다. 퍼지 검색 및 맞춤법 교정이란 검색엔진은 사용자가 입력하는 검색어를 바탕으로 정보를 찾고, 기본적으로는 사용자가 입력한 검색 키워드를 확실하게 포함한 웹페이지만을 검색합니다. 그러나 ...

근접연산과 ADJ 연산

by 어센트코리아 13. 5월 2016 Blog, 검색엔진의 원리 0

숙어와 구문 등 여러 단어의 조합으로 검색을 할 경우 그것에 포함된 단어의 근접성이나 출현하는 순서가 중요한 의미를 가질 수 있습니다. 현재 검색 엔진은 근접성과 출현 순서는 자동으로 가중 평가가 되지만 검색자가 그들을 중시하는 쿼리를 별도로 보낼 수 있습니다. 단어의 근접성과 어순을 중시하는 연산 검색 폼에 입력된 키워드는 단순한 단어의 나열이 아니라 의미를 가진 어순으로 기술되는 ...

검색엔진의 인덱스 업데이트

by 어센트코리아 13. 5월 2016 Blog, 검색엔진의 원리 0

웹 상의 정보는 항상 변화하고 있기 때문에 검색엔진은 항상 인덱스의 정보를 새로 고쳐 나갈 필요가 있습니다. 현재 주요 검색엔진은 순차 갱신과 일괄 업데이트를 병용한 인덱스 업데이트를 실시하는 것으로 정보의 최신도를 유지하고 있습니다. 전체 내용을 한 번에 업데이트하는 인덱스 일괄 업데이트형 인덱스 일괄 업데이트형은 인덱스 전체 내용을 한 번에 새로운 상태로 바꾸는 방식입니다. 방법으로는 가동 중인 ...

쿼리와 검색어 처리

by 어센트코리아 13. 5월 2016 Blog, 검색엔진의 원리 0

검색엔진에서 쿼리란 사용자가 검색엔진에 하는 질문 (처리 요구)을 뜻하며 일반적으로 키워드나 그 조합, 키 문구 등의 검색어를 말합니다. 검색엔진은 사용자가 입력한 검색어를 데이터베이스에 맞는 형태로 변환하여 처리합니다. 형태소 분석에서 자연어 문장은 개별 키워드로 나눠진다 검색 엔진은 여러 단어로 이루어진 복합어나 문장이 검색 키워드로 입력된 경우 그것을 구성하는 개별 단어에 의한 AND 검색을 합니다. 이 때 ...

단어 인덱스 방식

by 어센트코리아 13. 5월 2016 Blog, 검색엔진의 원리 0

단어 인덱스를 위해서는 인덱서가 보유한 단어 사전을 바탕으로 문장을 단어로 나누고 행하는 방식이 많은 검색엔진에서 활용되고 있습니다. 문장을 단어로 나누어 인덱스함으로써 개별 단어의 위치를 정확하게 알수 있는 데이터를 만들 수 있으며, 각각의 단어가 가진 의미를 데이터에 부여할 수 있기 때문에, 문장의 내용을 근거로 한 검색 처리를 실현할 수 있습니다. 자연 언어 처리와 띄어쓰기 띄어쓰기는 단어마다 ...

구문분석과 문자코드 처리

by 어센트코리아 13. 5월 2016 Blog, 검색엔진의 원리 0

구문 분석이란 페이지의 문의를 고려해 프로그램 처리를 가능하게 하기 위해서 문법을 기초로 문장을 분석하는 것입니다. 또한 구문 분석 전에 그 웹페이지의 기술에 사용된 문자 코드를 확정시키는 작업도 이루어집니다. HTML문법에 근거한 문장구조 이해 구문 분석이란 문법에 근거하여 문장을 분석하는 것입니다. 구문 해석에 따라서 각각의 단어가 어떤 의미를 갖고 어떤 연결을 가지고 있는지에 대해 지표화할 수 있기 ...

인덱서의 역할과 중간처리

by 어센트코리아 13. 5월 2016 Blog, 검색엔진의 원리 0

인덱서의 역할이란 그 다음의 다양한 처리를 용이하게 하고, 고급 검색 처리를 가능하게 하기 위한 작업을 행하는 것입니다. 인덱서는 데이터에 중간 처리를 실시, 프로그램의 처리 속도를 높여 데이터베이스 용량을 절약합니다. 고급 검색 처리 이전 중간 처리를 수행하는 인덱서 인덱서는 크롤러가 순회하여 수집한 웹페이지 내 문서를 인덱스에 저장하는 역할을 가지고 있습니다. 인덱서는 이때 검색 알고리즘이 취급하기 쉬운 ...

HTTP get 프로토콜과 분산형 로봇

by 어센트코리아 13. 5월 2016 Blog, 검색엔진의 원리 0

크롤러는 부하를 저감・분산하기 위해서 수많은 기술을 사용하고 있습니다. 그 중에서 통신 부하를 줄이는 http get은 분산 처리를 통해 로 순회 효율을 향상시키는 분산형 로봇입니다. 널리 사용되는 통신 프로토콜 컴퓨터간의 정보취득 방법에는 다양한 것이 있지만, 크롤러가 웹페이지를 수집할 때에는 일반적으로 http get이라고 하는 프로토콜을 이용합니다. 이것은 웹브라우저에 의한 통상 브라우징을 행하는 경우에도 사용되는 일반적인 통신프로토콜입니다. 예를 들어 ...

크롤러의 순회 URL리스트 작성과 우선수집

by 어센트코리아 13. 5월 2016 Blog, 검색엔진의 원리 0

검색 엔진의 크롤러는 웹페이지에 기술된 링크를 따라서 WWW상의 다양한 웹페이지를 순회합니다. 그 순회 URL리스트는 링크 해석에 따라 작성되고 우선순위가 매겨집니다. 순회 URL 리스트 생성 크롤러는 다음으로 순회할 웹페이지 URL을 취득하기 위해서 현재 머물고 있는 웹페이지 내 링크 내용을 분석합니다. HTML 소스상의 a 요소에 기술된 URL를 취득해서 순회 리스트를 작성해 순차적으로 크롤링해 나갑니다. a 요소가 아닌 JavaScript나 ...

크롤의 움직임과 UA명

by 어센트코리아 13. 5월 2016 Blog, 검색엔진의 원리 0

인터넷 이곳 저곳을 순회하면서 웹페이지의 내용을 수집하는 프로그램 즉, 크롤러(스파이더, 봇, 로봇이라고도 합니다)의 움직임과 주요 UA명에 대해서 설명하겠습니다. 웹 상에서 자동으로 돌며 정보를 수집하는 크롤러 크롤러(스파이더)란, 검색엔진이 웹페이지의 내용을 수집하기 위해 이용하는 프로그램을 말합니다. 검색엔진은 등록 신청된 URL를 기본으로 웹페이지내에 포함된 링크정보(href속성값으로 지정된 URL)을 쫓으면서 WWW상의 여러 종류의 웹페이지 정보를 수집합니다. 정보를 수집한다는 것은 검색엔진에 있어서 ...

Category: Blog