[기본]구글 검색의 원리 : 클로링 및 색인 생성

이하(초록색)는 구글 검색의 원리중 크롤링 및 색인 생성을 그대로 옮겨놓은 것입니다.기본에 충실하기 위해 다시 기본으로 돌아가 이 기본위에 지금까지 정리했던 지식들을 다시 정리하고자 합니다.  

초록색은 원본이고 검정색은 제가 주석을 달은 것입니다. 또한 원본 초록색에 충분히 각주를 달은 경우, 검정색으로 변환하였습니다. 

 

웹 크롤러는 사용자가 검색하기 전에 수 천 억 개에 달하는 웹페이지에서 정보를 모아 이를 검색 색인에 정리합니다.

 

검색의 기본

크롤링 프로세스는 이전의 크롤링 작업을 통해 수집한 웹 주소 목록과 웹사이트 소유자가 제공한 사이트맵에서부터 시작됩니다. 크롤러는 웹사이트를 방문한 다음 사이트에 있는 링크를 사용하여 다른 페이지를 찾습니다. 또한 검색엔진의 크롤러(소프트웨어)는 새로운 사이트, 기존 사이트의 변경사항, 깨진 링크를 주의 깊게 살피는데, 이것을 토대로 크롤링할 사이트, 크롤링 횟수 및 각 사이트에서 가져올 페이지 수를 결정합니다. ( 사이트의 변경사항이 자주 발생한다면, 크롤링 횟수를 증가시키라는 의미로 간주할 것이고  사이트의 페이지수의 증가 속도에 따라 가져올 페이지의 숫자도 증가할 것입니다. )

참고 : 워드프레스 사용자라면 아래의 도구를 이용하여 쉽게 관리할 수 있습니다.

Broken Link Checker plugin(워드프레스내 깨진 링크를 찾아 바로잡는 플러그인)

 

Google에서는 사이트 소유자가 Google에서 사이트를 크롤링하는 방법을 세밀하게 설정할 수 있도록 Search Console을 제공합니다. 사이트 소유자는 페이지 크롤링 처리 방식을 상세하게 설정하는 것은 물론 재크롤링을 요청하거나 ‘robots.txt‘라는 파일을 사용하여 페이지가 아예 크롤링되지 않도록 할 수도 있습니다. Google은 비용을 받고 특정 사이트를 더 자주 크롤링하지 않습니다. 사용자에게 최고의 검색결과를 제공하기 위해 모든 웹사이트에 동일한 도구를 제공합니다.

 

Google에 URL 재크롤링 요청하기

최근에 사이트에서 페이지를 추가하거나 변경했다면 다음 중 한 가지 방법을 사용하여 Google에 페이지의 색인을 (다시) 생성하도록 요청할 수 있습니다.

 

일반 가이드라인

  • 크롤링은 며칠에서 몇 주까지 걸릴 수 있습니다. 크롤링이 완료될 때까지 기다리며 색인 상태 보고서나 URL 검사 도구를 사용하여 진행 상황을 모니터링하세요.
  • 여기에서 설명하는 모든 방법은 응답을 받는 데 걸리는 시간이 비슷합니다.
  • 개별 URL을 제출하는 데는 제한이 적용됩니다.
  • 같은 URL이나 사이트맵의 재크롤링을 여러 번 요청해도 크롤링 일정이 앞당겨지지는 않습니다.

 

크롤링 요청 방법

1. URL 검사 도구(구글 서치 콘솔)를 사용하여 Google 색인에 개별 URL을 제출할 수 있습니다. URL 수가 많으면 대신 사이트맵을 제출하세요.

색인에 URL을 제출하려면 다음 단계를 따르세요.

  • URL 검사 도구를 사용하여 URL을 검사합니다.
  • 색인 생성 요청을 선택합니다. 이 도구를 사용하면 URL에서 실시간 테스트를 실행하여 명백한 색인 문제가 있는지 확인하고, 색인 문제가 없으면 페이지가 색인 생성 대기열에 추가됩니다. 도구가 페이지의 문제를 발견하면 문제를 해결해야 합니다.
2. 사이트맵을 사용하면 Google에서 사이트의 URL을 발견할 수 있습니다. 사이트맵에는 대체 언어 버전과 동영상, 이미지, 뉴스 페이지에 관한 추가 메타데이터가 포함될 수도 있습니다. 사이트맵을 만드는 방법 자세히 알아보기
 
 

사이트맵에 관한 보다 상세한 내용은 아래의 게시글을 참조하세요. 

사이트맵(sitemap)의 의미(역할)/제출방법/제작도구들

 

크롤링으로 정보 찾기

웹은 끊임없이 커지는 도서관과 같습니다. 수 십 억 권에 달하는 책을 보관하고 있지만 중앙집중식 저장 시스템이 갖춰져 있지 않은 상태에 비유할 수 있습니다. Google은 웹 크롤러라는 소프트웨어를 사용하여 공개된 웹페이지를 발견합니다. 사람들이 웹에서 콘텐츠를 탐색할 때와 비슷하게, 크롤러는 웹페이지를 살펴보고 해당 웹페이지에 있는 링크를 따라갑니다. 이 크롤러는 여러 링크를 넘나들며 이러한 웹페이지에 관한 데이터를 Google 서버로 가져옵니다.

색인 생성을 통한 정보 구성

크롤러가 웹페이지를 찾으면 Google 시스템에서는 브라우저와 마찬가지로 해당 페이지의 콘텐츠를 렌더링합니다. 이때 키워드 및 웹사이트 최신 정보에 이르는 주요 신호를 기록하며 검색 색인에서 모든 주요 신호를 추적합니다.

Google 검색 색인은 수 십 억 개의 웹페이지를 포함하고 있으며 크기는 100,000,000 기가바이트가 넘습니다. Google 검색의 색인은 책 뒤에 있는 색인과 같아서, Google에서 색인을 생성하는 모든 웹페이지에서 발견한 모든 단어에 관한 항목이 포함되어 있습니다. 웹페이지 색인이 생성되면 웹페이지에 포함된 모든 단어의 색인 항목에 웹페이지를 추가합니다.

Google은 단순 키워드 매칭을 넘어 지식 그래프를 기반으로 사용자가 관심을 두는 인물, 장소, 사물을 더 잘 이해하기 위해 계속 노력합니다. 이를 위해 Google은 웹페이지 정보 뿐만 아니라 다른 유형의 정보도 체계화하고 있습니다. Google 검색을 사용하면 주요 도서관에서 소장하고 있는 수 백 만 권의 책에서 텍스트를 검색하거나 내가 거주하고 있는 지역의 현지 대중교통 기관에서 이동 시간을 찾아볼 수 있으며 세계은행과 같이 공개된 출처에서 데이터를 탐색할 수도 있습니다.

 

참고자료 : 1. Google에 URL 재크롤링 요청하기