[기본]구글 검색의 원리 : 검색 알고리즘

검색 알고리즘의 원리

이하(초록색)는 구글 검색의 원리중 검색 알고리즘를 그대로 옮겨놓은 것입니다.기본에 충실하기 위해 다시 기본으로 돌아가 이 기본위에 지금까지 정리했던 지식들을 다시 정리하고자 합니다.  

초록색은 원본이고 검정색은 제가 주석을 달은 것입니다. 또한 원본 초록색에 충분히 각주를 달은 경우, 검정색으로 변환하였습니다. 

 

웹상의 정보는 양이 너무 방대하기 때문에 정보를 정렬하지 않으면 여러분이 원하는 것을 찾기란 불가능에 가깝습니다. Google 랭킹 시스템이 바로 그런 역할을 합니다. 유용하면서도 관련성 높은 검색 결과를 신속하게 제공할 수 있도록 수 천 억 개의 웹페이지를 검색 색인에 정리해 두고 사용자가 원하는 정보를 찾을 수 있도록 제시하는 것입니다.

이 랭킹 시스템은 하나가 아닌 여러 개의 알고리즘으로 구성되어 있습니다. 검색 알고리즘은 가장 유용한 정보를 제공하기 위해 검색어의 단어, 페이지의 관련성 및 유용성, 출처의 전문성, 사용자의 위치 및 설정과 같은 다양한 요소를 고려합니다. 각 요소에 적용되는 가중치는 검색어의 성격에 따라 달라집니다. 예를 들어 시사 관련 검색어의 경우 사전 정의 검색어보다 최신 콘텐츠인지 여부가 더 중요합니다.

검색 알고리즘이 높은 수준의 관련성 및 품질 기준을 충족할 수 있도록 엄격한 절차를 정립하여 실시간 테스트를 진행하고 전 세계의 숙련된 외부 검색 품질 평가자 수천 명을 동원하고 있습니다. 이 품질 평가자는 Google 검색 알고리즘의 목표를 명확히 설명하는 엄격한 가이드라인을 따르며, 이 가이드라인은 누구나 확인할 수 있습니다.

 

아래에서 검색어에 따라 어떤 결과가 보여지는지 결정하는 주요 요소를 자세히 알아보세요.

 

단어 분석

 

우수한 답변을 제공하려면 검색어의 의미를 이해하는 것이 중요합니다. 따라서 관련 정보가 포함된 페이지를 찾기 위한 첫 번째 단계는 검색어에 포함된 단어가 무엇을 의미하는지 분석하는 것입니다. Google은 색인에서 어떤 단어 그룹을 찾아봐야 하는지 해석하기 위한 언어 모델을 구축합니다.

여기에는 철자 오류를 해석하는 것과 같이 간단한 단계가 포함되어 있으며, 더 나아가 자연 언어 이해에 관한 몇몇 최근 연구 결과를 적용하여 사용자가 입력한 검색어의 유형을 인식할 수 있도록 하고 있습니다. 예를 들어 사용자가 검색하는 단어의 정의가 여러 개인 경우에도 Google의 동의어 시스템을 통해 Google 검색에서 사용자가 의도하는 단어를 파악할 수 있습니다. 이러한 시스템은 5년 이상의 개발로 이루어졌으며, 모든 언어에서 실행된 검색의 30% 이상에서 검색 결과를 현저히 개선했습니다.

또한 사용자가 어떤 카테고리의 정보를 찾으려고 하는지 파악하기 위해 노력합니다. 검색어가 구체적인가, 아니면 광범위한가? 단순 검색 이상의 정보가 필요하다는 것을 알려주는 ‘리뷰’, ‘사진’, ‘영업시간’ 등의 단어가 있는가? 당일 게재된 콘텐츠를 원한다는 것을 암시하는 인기 키워드를 검색하고 있는가? 아니면 주변 업체를 검색하고 있으며 주변 지역의 정보를 찾고 있는가? 이러한 사항을 고려합니다.

이 검색어 카테고리 분석에 있어 특히 중요한 것은 사용자가 최신의 콘텐츠를 찾는지를 파악하는 것입니다. 인기 급상승 키워드를 검색하면 최신 알고리즘은 해당 키워드를 오래된 페이지보다 최신 정보가 더 유용하다는 신호로 해석합니다. 즉, 최신 ‘NFL 점수’, ‘댄싱 위드 더 스타’ 검색 결과 또는 ‘exxon 수입’을 검색하면 최신 정보가 표시됩니다.

 

웹페이지 관련성(검색어를 페이지와 맞추기)

다음으로 검색어와 일치하는 정보가 포함된 웹페이지를 검색합니다. 사용자가 가장 기본적인 수준에서 검색을 실행하면, Google 알고리즘이 색인에서 검색어를 검색하여 적절한 페이지를 찾습니다. 알고리즘은 해당 키워드가 페이지에서 제목이나 텍스트 본문 등 어떤 위치에 얼마나 자주 표시되는지 분석합니다.

정보가 관련성이 있는지를 확인하는 가장 기본적인 방법은 웹페이지에 검색어와 동일한 키워드가 포함되어 있는지 확인하는 것입니다. 키워드가 페이지에 표시되거나 텍스트의 제목 또는 본문에 표시되는 경우 해당 정보는 관련성이 있을 가능성이 높습니다. 간단한 키워드 검색 유형 외에도 집계되고 익명처리된 입력 데이터를 사용하여 검색결과가 검색어와 관련이 있는지 평가합니다. 분석된 데이터는 머신러닝 시스템이 관련성을 더 잘 예측하도록 신호로 변환되어 활용됩니다.

검색 알고리즘은 관련성에 관한 신호를 기반으로 웹페이지가 사용자가 찾는 답을 갖고 있는지 아니면 그저 검색어를 반복하고 있는지 평가합니다. 사용자가 ‘개’를 검색할 때는 ‘개’라는 단어가 수백 번 포함된 페이지를 찾으려고 하는 것이 아닙니다. Google은 페이지가 검색어를 단순히 반복하는 것이 아니라 검색어가 원하는 답변을 포함하고 있는지 파악합니다. 따라서 Google 검색 알고리즘은 페이지가 개의 사진, 동영상, 또는 품종 목록과 같은 관련 콘텐츠를 포함하고 있는지 분석합니다. 마지막으로 페이지가 질문에 입력된 것과 같은 언어로 작성되었는지 확인하여 해당 언어로 된 페이지를 먼저 표시합니다.

Google 시스템은 이러한 정량적 신호를 찾아서 관련성을 평가하지만, 페이지 콘텐츠의 관점이나 정치적 성향과 같은 주관적인 개념을 분석하도록 설계되지 않았습니다.

 

콘텐츠의 품질

일반적인 검색어의 경우 관련 정보가 있을 수 있는 웹페이지가 수천, 수백만 개 존재합니다. 따라서 가장 유용한 페이지가 가장 먼저 표시될 수 있도록 Google에서는 웹페이지의 우수성을 평가할 수 있는 알고리즘을 작성합니다.

이러한 알고리즘은 콘텐츠의 최신성, 검색어의 등장 빈도, 페이지의 우수한 사용자 환경 제공 여부 등 수백 개의 다양한 요인을 분석하여 웹에서 제공할 수 있는 가장 훌륭한 정보를 표시합니다. 검색 주제에 대한 신뢰성과 권위성을 평가하기 위해 Google은 여러 사용자가 유사한 검색어로 검색했을 때 중요하게 여기는 사이트를 찾습니다. 같은 주제를 다루는 다른 권위 있는 웹사이트에서 해당 페이지로 연결하는 경우 정보의 품질이 우수하다는 것입니다.

웹에는 검색결과 상단에 표시되기 위해 검색어를 반복하거나, PageRank를 통과하는 링크를 구입하는 등의 방법을 사용하는 스팸 사이트가 많이 있습니다. 이러한 사이트는 매우 미흡한 사용자 환경을 제공하고 Google 사용자에게 피해를 주거나 사용자를 현혹할 수도 있습니다. 따라서 Google은 스팸을 파악하고 Google의 웹마스터 가이드라인을 위반하는 사이트를 검색결과에서 제외하기 위한 알고리즘을 작성합니다.

웹은 물론 더욱 광대한 정보 생태계에 포함된 콘텐츠는 쉴 새 없이 변화하고 있으며, Google은 검색결과에 대한 사용자의 신뢰를 앞으로도 이어나갈 수 있도록 정보의 관련성과 권위 간의 균형을 잡기 위해 지속적으로 Google 시스템의 품질을 측정 및 평가하고 있습니다.

 

웹페이지의 활용도

Google은 사용자에게 검색결과를 제공하기 전에 관련 정보가 얼마나 잘 맞는지 평가합니다. 검색결과에 주제가 한 가지뿐인가? 여러 개인가? 너무 많은 페이지가 하나의 좁은 해석에만 의존하고 있는가? 등을 고려합니다. Google은 다양한 정보를 사용자의 검색 유형에 가장 유용한 형태로 제공하기 위해 노력합니다. 또한 웹이 발전함에 따라 Google도 순위 지정 시스템을 개선하여 더 많은 검색어에 더 나은 검색결과를 제공하고 있습니다.

이러한 알고리즘은 모든 사용자가 결과를 볼 수 있는지(예: 사이트가 다른 브라우저에서 올바르게 표시되는지사이트가 데스크톱, 태블릿, 스마트폰 등 모든 기기 유형과 크기에 맞게 설계되었는지페이지 로드 시간이 느린 인터넷 연결을 사용하는 사용자에게 적합한지)를 나타내는 신호를 분석합니다.

웹사이트 소유자가 사이트의 사용성을 개선할 수 있으므로 Google은 Google 검색 알고리즘에 대한 중요하고 실행 가능한 변경사항을 사이트 소유자에게 미리 알리기 위해 최선을 다합니다. 예를 들어, Google 알고리즘에서 사이트의 ‘Page Speed’를 고려할 것이라는 사실을 변경사항이 적용되기 6개월 전인 2018년 1월에 발표했습니다. 웹사이트 소유자를 지원하기 위해 PageSpeed Insights 및 Webpagetest.org와 같은 자세한 가이드와 도구를 제공하여 사이트 소유자가 사이트를 보다 모바일 친화적으로 만들기 위해 무엇을 조정해야 하는지 알 수 있도록 했습니다.

Google이 사이트 소유자에게 제공하는 도구 및 팁에 관한 자세한 내용은 여기를 참조하세요.

문맥 고려하기

위치, 이전 검색 기록과 같은 정보 및 Google 검색 설정 모두 Google이 사용자가 검색하는 순간에 사용자에게 가장 유용하고 관련성 있는 맞춤 검색결과를 제공하는 데 도움이 됩니다.

Google은 사용자의 국가와 위치를 사용하여 사용자가 거주하는 지역과 관련된 콘텐츠를 제공합니다. 예를 들어 사용자가 시카고에 거주하고 ‘football’을 검색하는 경우 Google은 미식축구와 시카고 베어스 관련 검색결과를 먼저 표시할 가능성이 높습니다. 반면 런던에서 ‘football’을 검색하는 경우 Google은 축구와 프리미어 리그 관련 검색결과를 먼저 표시합니다. 기본 언어 설정 여부 또는 세이프서치(음란물 필터링 도구) 사용 설정 여부 등의 검색 설정 역시 사용자에게 어떤 검색결과가 가장 유용할지 판단하는 중요한 지표가 됩니다.

최근 Google 검색에서의 활동 정보를 사용하여 검색결과를 맞춤 제공하는 경우도 있습니다. 예를 들어 사용자가 ‘바르셀로나’를 검색했고 최근 ‘바르셀로나 대 아스널’을 검색한 경우, 이는 사용자가 도시가 아닌 축구팀의 정보를 원한다는 중요한 단서가 될 수 있습니다. myaccount.google.com 페이지에서 Google 계정에 저장되는 데이터를 포함하여 Google 검색 환경을 개선하는 데 사용되는 검색 활동을 제어할 수 있습니다.

또한 검색에는 Google 계정에서의 활동을 기준으로 결과를 맞춤설정하는 일부 기능이 포함되어 있습니다. 예를 들어, ‘주변에서 열리는 이벤트’를 검색하면 Google에서 사용자가 관심을 가질 만한 이벤트 카테고리로 일부 추천 검색어를 조정할 수 있습니다. 이러한 시스템은 관심분야와 연결되도록 고안되었지만, 인종, 종교, 정당과 같은 민감한 특성을 유추하지는 않습니다.

myaccount.google.com에서 Google 계정에 저장되는 데이터 조정을 포함하여 Google 검색 환경을 개선하는 데 사용되는 검색 활동을 제어할 수 있습니다. 계정 활동에 기반한 Google 검색 맞춤설정을 사용하지 않으려면 웹 및 앱 활동을 사용 중지합니다.