Google은 부자연스러운 링크의 문제점을 해결할 수 있는가

Google은 부자연스러운 링크의 문제점을 해결할 수 있는가

펭귄 업데이트나 몇 번이고 바뀐 웹 마스터 도구가 표시하는 경고 때문에 미미하게나마 화제가 되고 있는 부자연스러운 링크. 이 글에서는 이런 부자연스러운 링크와 관련된 문제, 또 그 외에 스팸적인 트릭에 대한 구글의 대응이 어떻게 발전하는가를 예상하고 정리하겠습니다.


구글은 모든 부자연스러운 링크를 식별할 수 있는가?

구글은 최근 수 개월에 걸쳐서 부자연스러운 링크(유료 링크나 자작 링크 등)에 대한 대응을 급속히 강화했습니다. 이러한 상황 하에서 “Google은 모든 부자연스러운 링크를 식별할 수 있는가?” 라는 물음이 업계에 흘렀습니다.

  • Google은 이 문제를 해결하기 위해서 많은 시간을 들이고 있지만, 아직 완전히 파악하지는 못했다. 모두 파악하는 것은 현실적으로 불가능한 것 아닐까.
  • 천재 집단과의 머리 싸움에서 이기겠다고 생각하는 사람은 낙천적인 사람이다. 멀지 않은 미래에 모두 파악할 것이라고 생각하는 게 당연하다.

2개의 주류 의견을 정리해보면, 위와 같습니다. 필자의 생각은 후자와 같습니다. 그러나 현재 상황을 보면, Google이 모든 부자연스러운 링크를 식별하기에는 아직 이른 상황에 있는 것도 확실합니다. 그렇다면, 정말 식별할 수 있게 될까요? 만일 그렇게 된다고 한다면, 언제쯤 그렇게 될까요?

사람이 보면 부자연스러운 링크를 식별하기는 쉬운 죽 먹기다

낮은 품질의 링크, 자작 링크, 유료 링크는 모두 사람이 보면 한눈에 알아볼 수 있습니다. 그런 종류의 판단은 인간의 뇌에게는 쉬운 일입니다. 그러나 컴퓨터에게는 그렇게 쉬운 일은 아닙니다. 이는 패턴 인식의 문제기 때문입니다. 인간의 뇌는 패턴 인식 능력이 매우 뛰어나지만, 컴퓨터는 그렇지 않습니다. 컴퓨터의 패턴 인식이 인간의 뇌에 미치지 못하는 부분은 정밀도와 속도입니다. 정밀도를 높이려고 하면 속도가 문제가 되고, 속도를 높이려고 하면 정밀도가 문제가 되는 것이 컴퓨터입니다.

패턴 인식에서 부자연스러운 링크를 검출하는 알고리즘을 개발하는 것은 Google에게 능력이 있다면 그리 어려운 일은 아닐 것입니다. 실용적인 단계에 이르렀는지 아닌지만 제쳐두고 생각한다면, 현 시점에서 이미 이론적으로는 완전하게 검출이 가능할 것입니다. 즉 현 상황에서 알고리즘에 의한 부자연스러운 링크의 완전 검출은 “이론적으로는 가능”하나 “실용적으로는 아직”이라는 단계에 있다고 생각하는 편이 타당하며, 그리고 그 이론의 일부는 펭귄 업데이트가 대표하듯이 서서히 실용적인 단계로 이행되고 있습니다.

완전하게 식별할 수 있게 되는 것은 언제인가

현 상황에서의 부자연스러운 링크 검출은 누가 봐도 불완전합니다. 이러한 상황이 계속되고 있는 이유를 간단히 설명하면, “패턴 인식의 속도와 정밀도의 양 측면에서 현 상황의 컴퓨터의 처리능력으로는 실용적인 수준에 이르지 못했다”는 것이겠지요. 즉, 이 문제는 앞으로 컴퓨터의 처리능력이 충분히 높아지면서 서서히 해결될 문제입니다. 지금까지도, 그리고 앞으로도 시간의 경과와 함께 메모리는 보다 크고 저렴하고 빨라졌으며, CPU도 보다 저렴하고 빨라졌습니다. 그리고, 그 흐름에 호응하여 부자연스러운 링크의 검출 또한 점점 고도의 기술이 탑재됩니다.

아마도 이 기술의 탑재는 어느 날을 기점으로 모든 부자연스러운 링크가 식별되는 것이 아니라, Google의 검색을 지탱하는 하드웨어의 성능 향상과 가격하락에 보조를 맞추듯이 서서히 진행되어서 완전체에 가까워질 것이라고 생각하는 편이 현실적일 것입니다. 또한, 지금까지의 부자연스러운 링크 검출에 대한 알고리즘적인 움직임도 상술한 바와 같은 맥락에서 착실히 진화하고 있는 것으로 보입니다. 그리고 이러한 과정은 부자연스러운 링크의 문제에만 한하는 것이 아니라, 지금까지의 검색엔진의 진화 전체에 해당하는 것입니다.

하드의 성능 향상과 가격 저하가 가져다 준 것

조금 그리운 이야기를 해보겠습니다. Google의 인덱스 갱신과 관련된 이야기입니다. 2000년 언저리까지 Google의 인덱스 갱신은 부정기적이었으며, 3~4개월에 1번 꼴로 이루어지는 정도였습니다. 2000년 언저리부터 2003년 즈음까지는 1개월에 1번 꼴로 일괄 갱신되었으며 (Goolge Dance), 그 후에는 차례대로 갱신하고 (Everflux), 2007년 즈음에는 검색 결과는 거의 실시간에 가까운 것이 되었습니다. 아마도 이론 상으로는 최초 시기에서 지금과 같은 (Google Dance도 Fresh Crawl도 Everflux도 아닌)실시간 운용이 가능했을 것입니다. 그러나 실제로 그렇게 할 수 없었던 이유는 하드의 성능으로 인해 병목 현상이 일어났기 때문이라고 생각하는 것이 자연스러울 것입니다. 하드가 저렴하고 고성능이 되어가는 것과 연동해서 실제 운용도 고도화된 것입니다.

사족으로 인덱스와 관련된 것들을 얘기해보고자 합니다. 2003년 즈음의 Google과 Fast Search (All the Web)의 치열한 인덱스 사이즈 경쟁을 기억하고 있는 분도 계실지 모르겠습니다. Google과 All the Web은 서로의 톱 페이지에 색인되어있는 페이지 수를 표시해서 범위를 경쟁하고 있었습니다. 그러나 하드웨어가 충분히 저렴해지고 고성능이 되자, 이러한 경쟁은 의미 자체를 잃어버리고 말았습니다. 그리고 원점으로 돌아가면 이야기하자면, Google검색이 1998년에 등장한 이후로 단기간에 세계 1위의 검색엔진이 될 수 있었던 이유는 그래프 이론을 검색 결과에 적용한 PageRank의 혁신성에 있었습니다. 이론적인 이야기가 아니라 실제로 실용적인 단계에서 광대한 웹 상의 링크 그래프를 분석했다는 점이 굉장한 것이지만, 이것이 가능해진 것 또한 하드웨어의 성능이 향상된 것과 관계가 있습니다.

즉, 여기서 제가 말하고 싶은 것은 검색엔진의 성능 향상에는 하드웨어의 성능 향상 및 가격의 저하가 크게 관련되어 있었다는 것이며, 그 경향은 앞으로도 변하지 않을 것이라는 점입니다.

큰 국면을 보도록 하겠습니다. 펭귄 업데이트나 부자연스러운 링크의 경고 등 눈 앞에 있는 Google의 세세한 움직임에만 주목하고 있으면 큰 국면을 보지 못하기 십상입니다. 펭귄 업데이트나 경고는 그 시점에서의 리소스 범위 내에서 이루어진 튜닝에 불과합니다. 그것들에 이상한 점이나 불완전한 점이 있다고 하더라도, 그것이 Google의 기술력이 낮다는 증거가 되지는 않습니다. 조금 더 장기적으로 보면 필자는 이용 가능한 리소스 자체가 확대되는 것에 따라서 현재 화제가 되고 있는 링크의 문제뿐 아니라, 모든 트릭을 식별할 수 있다고 판단해도 좋다고 생각하고 있습니다. “이론상으로는 가능”한 것과 “실제로 탑재해서 운용할 수 있다”는 것 사이에는 높은 벽이 있기는 하나, 하드웨어의 성능 향상과 가격 저하로 인해 그 벽은 점점 낮아질 것입니다.

솔직히 말씀드려서, 부자연스러운 링크가 앞으로 완전히 식별되리라는 점은 Google이 공식사이트에 <PageRank의 조작을 의도한 링크>에 언급한 2001년~ 2002년의 시점부터 명백했던 것이었으며, 그 후로 10년에 걸친 긴 시간동안 부자연스러운 링크를 이용하는 방법이 살아남은 것이 오히려 신기할 정도입니다.

본문 요약

  • 이론 상 부자연스러운 링크를 패턴 인식하는 것은 이미 가능할 것이다. 현 시점에서 원활하게 이루어지지 않는 이유는 하드웨어의 성능이 부족하기 때문이다.
  • 하드웨어의 처리 능력이 상승하고 가격이 내려감에 따라서 이론과 실제 사용 간의 괴리가 점점 줄어들고 있다.
  • Google이 극도로 높은 정밀도를 이용해 부자연스러운 링크를 식별할 수 있게 되는 것은 시간 문제이다. 그 밖의 다양한 트릭도 마찬가지이다.
  • 애초에 Google이 공식페이지에 <PageRank의 조작을 의도한 링크>에 언급한 시점(2002년?)부터 시작되었다고 봐야 한다.
  • 단지, 부자연스러운 링크 문제를 해결하는 데에 생각보다 시간이 오래걸린다는 느낌이 드는 것도 사실이다. Google이 좀 더 분발했으면 한다.

다음 콘텐츠도 참조하시면 좋습니다

구글과 블로거의 만남
검색 서비스의 공공성 회복

 

Comments

comments


1 thought on “Google은 부자연스러운 링크의 문제점을 해결할 수 있는가”

답글 남기기

이메일 주소는 공개되지 않습니다.

16 + 10 =