사이트 맵은 업데이트 해줄수록 좋습니다. - Google Search Console

아마귀차니스트

·

2020. 3. 9. 19:17

  기존에 작성했던 사이트맵 관련 문서를 대폭 수정할 목적으로 글을 작성합니다. 사이트맵은 매번 만들어야 할까요? 아니면 한번 만들고 끝일까요? 그리고 RSS와 사이트맵의 차이점은 무엇일까요? 제가 최근 겪었던 사례를 바탕으로 사이트맵에 관한 구글, 네이버의 공식 의견과 함께 글을 진행합니다.

 

사이트 맵은 제작한 순간까지의 정보를 담고 있다.

  최근에 와서야 운영하는 모든 블로그의 사이트 맵을 업데이트 시켰습니다. 우리가 사이트 맵을 구글이나 네이버에 제출하는 목적은 각 검색로봇에게 수집해야할 페이지를 알려주기 위함입니다. 사이트 맵을 제출하지 않더라도 색인(Index)가 생성되어 검색엔진에 반영되는 문제가 없지만, 색인생성까지 걸리는 시간이 꽤 깁니다. 블로그의 경우 구글 서치콘솔에서는 크롤링 봇이 일주일에 한번 정도 크롤링을 진행합니다.

 

4G Nexus 5X 기반 크롤링봇이 매주 토요일 혹은 일요일에 크롤링하고 있습니다.

  사이트 맵을 등록하고 난 뒤에 "색인생성범위"를 주기적으로 확인하고 계신가요? 오류도 물론 중요하지만, 제외된 페이지도 눈여겨 보시길 추천드립니다. 네이버는 의도가 어쨌든 티스토리 블로그의 색인을 그대로 반영하지 않고 있습니다. 이와 반대로 구글은 반영은 하되 "다뤄야 하는 데이터 양이 많기 때문에 누락될 수 있다"라는 점을 명시하고 있습니다. 곧, 구글에서 유입되던 트래픽이 일순간 누락으로 색인생성이 해제될 수 있다는 점입니다. 

 

색인이 생성되지 않은 페이지 중에 유입을 보증하던 페이지가 속할 수도 있습니다.

  그렇기 때문에 사이트 맵이 기본이고, 누락된 페이지 관리는 매일 일과가 되고 있습니다. 그저 사이트 색인 생성 요청만 누르면 되는 일이지만, 글이 쌓이면 양이 많아져서 일일이 수작업으로 색인 생성 요청하기도 힘들어요. 그리고 최신 글은 RSS를 반영하지 사이트 맵에는 누락되어있어 임의로 구글 크롤링봇이 판단해서 색인등록을 하는 일이 발생합니다. 결국 사이트 맵을 다시 만들어서 제출하기에 이릅니다.

 

사이트 맵에 대해서 정확하게 알고, 수정하자.

  많은 블로그, 웹페이지에서 사이트 맵을 생성하는 사이트를 알려주고 있습니다. 이 부분은 개인의 선택이시니 어딜 가셔서 만들어도 관계 없을 것 같아요. 하지만 사이트 맵을 그져 제출해야할 파일로만 보지 말고, 어떻게 구성되어있는지 살펴볼 필요가 있습니다.

 

ATOM에서 실행시킨 이 블로그의 사이트 맵

  사이트 맵을 열어보신 분들은 아시겠지만, XML 문서로 뭐라고 샬라샬라 반복적으로 내 글을 체크하고 있습니다. 하지만 각 명령어가 어떤 의미를 갖는지는 파악하지 않은 채 그저 제출만 하고 있죠. 그래서 사이트 맵에 적용된 태그들이 어떤 의미를 갖는지 간략히만 알아보도록 합니다. 사이트 맵에 규정된 프로토콜은 우리와 크게 관계가 없으니, 블로그/웹페이지 하나하나를 어떻게 표현하는지 살펴봅시다.

 

블로그 사이트 맵의 예시

 

  • <url> (필수) - 각 URL 항목의 상위태그, 즉 내 사이트 한 페이지를 규정하기 위한 시작 태그입니다.
  • <loc> (필수) - 페이지의 URL, 2048자 미만으로 작성되어야 하며, http와 같은 프로토콜로 시작해야 합니다. 단순하게 말해서 내 글의 주소입니다.
  • <lastmod> (선택옵션) - 파일을 마지막으로 수정한 날입니다. 
  • <changefreq> (선택옵션) - 페이지가 변경되는 빈도입니다. 이 값은 보통 검색엔진에 제공되는 정보입니다. always부터 never까지 다양한 빈도를 선택할 수 있습니다. 하지만, 검색로봇에 내리는 명령어가 아니라 힌트입니다. 선택은 검색로봇이 하는 것이죠.
  • <priority> (선택옵션) - 해당 사이트의 기타 URL에 대한 특정 URL의 상대적 우선순위. 유효값은 0.0~1.0 사이값입니다. 예를 들어, 블로그 주소를 의미하는 곳에 priority가 1.0으로 나타나 있어 전체 URL 중 가장 우선이 된다는 것을 의미합니다. 단, 구글에서는 공식가이드북에서 우선순위를 지정하더라도 검색결과에는 영향을 미치지 않으며, 동일한 사이트 내의 결과를 출력할 때 반영이 되게 할 수는 있다고 합니다. 간단히 정리하자면, 내 블로그 상의 우선순위를 지정하는 것이지, 검색결과에는 영향을 미치지 못한다는 의미입니다. (출처 : Google Search Console -Build and sumit a sitemap)

  결국 필수로 들어가야 하는 것은 url과 loc이고, 나머지는 우리가 선택하는 옵션입니다. 대신 옵션의 우선순위(priority)를 정리해서 전체적인 블로그/사이트의 구조를 사전에 제공할 수 있습니다. 아래 예를 한번 보시죠.

 

블로그 주소의 우선순위 1.0
블로그 카테고리의 우선순위 0.9
작성한 컨텐츠의 우선순위 0.8
컨텐츠에 넣은 태그 우선순위 0.6

 

  Top-bottom 방식으로 사이트의 각 페이지 우선순위를 정해 블로그의 전반적인 구조를 검색로봇이 인식하게끔만 정돈할 수 있다는 점이죠. 구글이 반영하지 않는다고 해도 네이버는 반영할지도 모릅니다.

 

네이버의 사이트맵 가이드라인 발췌 (출처 : RSS 및 사이트 맵 제출 - https://searchadvisor.naver.com/guide/request-feed)

 

사이트맵 제출 후, 주기적으로 해야할 색인 관리

  블로그/사이트의 색인을 검색해보면, 크게 아래와 같은 방법을 제시합니다.

  • 검색엔진에서 "site:blog주소" 입력 후 검색된 결과 체크
  • 구글 서치콘솔이나 네이버 웹마스터 등의 생성된 색인 수 확인

  사실 첫번째 방법은, 사이트가 등록되어있는지 확인할 때도 하는 일이기 때문에 어렵지 않습니다. 그저 무한 반복할 번거로운 작업일 뿐이죠. 제가 권해드리고 싶은 작업은 두번째 작업입니다. 우리가 사이트맵을 제출하고, 구글이네 네이버의 검색로봇이 우리의 사이트를 크롤링하기까지 시간이 빠르면 하루이틀, 늦으면 일주일가량 걸립니다. 어떤 블로그는 3개월이 걸리는 일도 허다합니다. (오래된 블로그가 유리하다는 말이 통용되는 이유 중에 한가지 입니다.)

 

  색인관리에서 눈여겨 봐야할 것은 "내가 작성한 글을 구글이 색인에 반영해서 노출시키고 있는가?" 입니다. 당연히 그렇지 않은 경우들이 있기 때문에 언급했습니다.

 

죽어라고 글을 썼는데, 구글이 검색에 노출안시키면 억울하죠.

  "크롤링 됨" 또는 "발견됨"이라고 표시하고는, 색인 누락 시키는 경우가 꽤 많습니다. 이건 억울하잖아요. 몇시간을 공들여서 글을 썼는데, 내 노력은 안알아봐주고...구글 나빠. 그래도 저렇게 누락된 페이지를 눌러 URL 검사를 진행하고, 색인 생성이 가능하면 다음 크롤링할 때 반영하려고 노력합니다. (100% 확신은 하면 안됩니다. 구글 검색로봇은 전세계에서 가장 바쁜 로봇중에 하납니다.)

 

  이렇게 사이트 맵 작성 후에도 색인 누락된 글들을 관리해주고, 이게 귀찮으면 주기적으로 사이트 맵을 제출해 구글 검색로봇을 괴롭히는 방법밖에 없습니다. 구글을 통해서 사람들이 내 블로그로 오게 하려면 말이죠.

 

RSS는 뭔데? 사이트 맵이랑 달라?

  사이트 맵이 집주소라면, RSS는 집안에 있는 내부 집기까지 다 보여주는 겁니다. RSS(Rich Site Summary)는 "최신콘텐츠"를 본문을 포함해 발행하는 XML 기반의 퍼블리싱 규약입니다. 예전에는 이 RSS를 통해서 따로 뉴스를 받고 그랬는데, 요즘은 많이 사라지는 추세더라구요. RSS를 열어보신 분들이 많이 없으리라 생각되서 이 블로그의 RSS를 일부 캡쳐해봅니다.

 

이 블로그의 RSS

  앞서 봤던 사이트 맵과는 정보의 양이 확연히 다르다는게 보이시죠? 티스토리는 RSS를 최대 50개까지 지원합니다. RSS를 통해서 발행된 글은 어지간해서는 누락될 일이 없죠. 다만 50개까지가 한계에요. 글을 하나씩 추가할 때마다 뒤로 밀려서 언젠가는 RSS 피드에서 사라집니다. 그리고 색인에서도 누락될 가능성이 생기죠.

 

  네이버에서는 RSS와 사이트 맵을 둘 다 제출하라고 하지만, 구글은 둘 중에 하나만 제출해도 괜찮다고 가이드라인에는 적혀있습니다. 사실 이외에도 사이트를 설명하는 문서들이 또 있는데, 블로그를 작성하는 입장에서는 일반적이지 않기 때문에 생략합니다.

 

결론 : 사이트 맵은 업데이트 하실수록 색인 관리에 손이 덜 갑니다.

  저도 사이트 맵의 중요성을 구글 가이드를 보고 몇일 전에 알았습니다. 우선순위나 새로운 글 발행 빈도 이런건 옵션이었던 거구요. 제일 중요한건 "내가 이런글을 썼다. 와서 봐주라"하고 구글이나 네이버에 요청하는 일입니다. 그래야 검색결과에 반영이 되죠. 더구나 네이버는 모르겠지만, 구글은 동일한 url의 글이 수정되어 정확도가 높아지는 일을 긍정적으로 봅니다. 그래서 결론은 사이트맵을 주기적으로 업데이트 하자! 라는 겁니다.

 

  사이트맵의 제출은 네이버의 경우 1개씩이지만, 구글은 500개까지 가능합니다. 점유율 계속 뺏기는 네이버를 생각해서 색인관리만 할것인가? 아니면 전문성을 갖고 구글에게 애교를 부릴 것이냐...선택은 여러분의 몫입니다.

 

PS. 네이버도 누락된 글은 꼭 색인요청하셔야 합니다. 그래야 누락을 덜 시킵니다. (그래도 글 절반을 날려먹은 친구들인데...)