티스토리 robots.txt 체크하기

아마귀차니스트

·

2020. 4. 9. 14:15

  티스토리를 구글, 네이버 등의 검색 포털에 등록할 때, 각각의 사이트에서 운영중인 크롤링 봇(crawling bot)의 접근 가능 여부를 체크할 수 있도록 만든 국제 권고안이 robots.txt에 들어있습니다. robots.txt는 로봇배제표준이라고도 하며, 검색로봇에게 사이트 및 웹페이지를 수집할 수 있게 허용하거나 제한하는 역할을 하고 있죠. ads.txt는 루트 도메인에 따로 놓여있지 않지만, robots.txt는 티스토리 루트 도메인에 위치해 있기 때문에 체크할 수 있습니다.

  만약, robots.txt가 없다면, 모든 페이지를 검색로봇이 접근해 수집할 수 있습니다. 관리자 메뉴까지 말이죠. 이 경우 보안상 문제가 발생할 수 있기 때문에 다른 차단 방법을 활용해야 합니다.

 

이 블로그의 robots.txt

티스토리의 robots.txt

  티스토리 루트 도메인에서 제공되는 robots.txt는 관리자 메뉴를 모두 제한하고, 나머지 부분만 오픈 시켜놓았습니다. 구글에는 딜레이 없이 바로 사이트 수집이 가능하도록 되어있고, Bing의 검색로봇에게는 30초의 딜레이를 갖도록 설정되어있죠. 사실 robots.txt를 우리가 작성할 수 있다면, 별도의 sitemap 등록 없이 별도의 구문 추가만으로 검색로봇이 알아서 사이트맵을 찾도록 유도할 수도 있습니다. 이 부분은 사용자가 많은 티스토리 입장에서 혼란이 야기될 것으로 보여 막아놓은 것으로 보입니다.

 

<구문 확인>

  User-agent : * // 모든 검색로봇에 대하여 수집 허용

  Disallow : /XX // 특정 페이지에 대한 수집을 허용하지 않는다는 의미입니다.

  Allow: / // 모든 페이지에 대한 수집을 허용한다는 의미입니다. 허용되지 않은 일부 페이지는 접근하지 않습니다.

  Sitemap: https://www.example.com/sitemap.xml // robots.txt에서 사이트맵의 위치를 직접 알려주면서, 검색로봇이 사이트맵에 접근하기 용이하도록 만들어주는 안내구문 입니다.

 

  여기서 티스토리는 robots.txt에 유저가 접근하기 어렵다는 점을 꼭 기억하시고, 그렇기 때문에 사이트맵을 각 사이트에 직접 등록해야합니다. 그래도 ads.txt 처럼 아예 루트 도메인 아래 없는 것 보다는 훨씬 낫다고 보여지네요.

 

모든 검색로봇의 접근이 가능한 티스토리

  티스토리의 robots.txt를 통해 모든 로봇이 티스토리에 접근해 사이트 내용을 가져갈 수 있습니다. 하지만 접근을 막고 싶은 일부 검색엔진이 있을 가능성도 있기 때문에 접근할 수 없도록 하는 구문도 따로 체크해봅니다. robots.txt 말고, 사이트의 메인에서 HTML 태그로 특정 페이지를 접근하지 못하도록 막을 수도 있습니다. 단, 일부 로봇만 메타태그 구문을 받아들이기 때문에 참고하셔야 합니다.

 

<meta name="Robots" content="Noindex, Nofollow" />

  위 메타태그는 검색로봇에 대해 색인과 팔로우를 하지 못하도록 하는 태그입니다. 즉, 검색을 위한 접근을 하지 말란거죠. 하지만 구글의 경우, noindex가 전세계 웹페이지 중 0.001% 도 사용하지 않는다며, 이 태그를 무시해버렸습니다. 오히려 noindex 태그를 사용하는 사이트가 문제의 소지가 있는 사이트 일 가능성이 높다고 설명하기도 하구요.

  흔히 우리가 알고 있는 "다크 웹"의 경우는 일반인의 접근을 허락하지 않기 때문에 noindex보다 더 강력한 robots.txt에서 모든 검색로봇에게 disallow(비허용) 구문을 집어 넣고, 사이트에 직접적인 접속만을 허락할 가능성이 높습니다.

 

Robots.txt에 관한 규약 사이트

  검색로봇에 관한 규약이나 설명에 대해 좀 더 자세히 알고 싶은 분들은 아래 링크를 확인해주세요.

마치며...강제적 제약이 없는 robots.txt

  이런저런 얘기를 했지만, robots.txt는 검색로봇이 그런 지침을 준수할 경우에만 작동합니다. 즉, 실제로 그런 규약이 보이더라도 그냥 무시하고 마구잡이로 수집하는 검색봇도 존재한다는 의미죠. 따라서 정말 중요한 파일이나 사이트의 경우는 보안 대책을 세워야 합니다. 

  메타태그로 로봇의 접근을 막아놓고, 파일마다 비밀번호를 설정해 놓은 경우는 그나마 수집로봇에게 안전하기 정보를 보호할 수 있지만, 티스토리 같은 환경에서 이게 가능할지는 의문입니다. 따라서 개인정보가 포함된 자료는 되도록이면 블로그에 노출하지 않도록 주의하시기 바랍니다.