본문 바로가기
[자격증] 정보보안기사/↘ 정보보안 실무

[ 정보보안기사 / 정보보안산업기사 ] 로봇 배제 표준 (robots.txt)

by 승큐리티 2020. 6. 4.

[ 정보보안기사 / 정보보안산업기사 ]

로봇 배제 표준 (robots.txt)


1. robots.txt
- 웹 사이트에 크롤링봇이 접근하는 것을 방지하기 위한 규약으로, 접근 제한에 대한 설명을 robots.txt에 기술한다.
※ 크롤링봇 : 해당 사이트의 정보를 추출해내는 자동 프로그램
- 접근 방지 설정을 하였다고 해도, 다른 사람들이 그 파일에 접근할 수 있다(악성봇).
- robots.txt 파일을 웹 서버 루트 디렉토리에 위치시키면 된다.

ex) 구글의 Googlebot , 네이버의 Naverbot 등등


2. robots.txt 설정

위는 구글의 robots.txt 내용이다.
(www.google.com/robots.txt)

User-agent: *
해당 검색로봇을 설정한다. ( * : 모든검색로봇, NaverBot : 네이버봇만 해당 )

Disallow: /search
위에서 설정한 검색로봇에 대해 /search 디렉터리에 대해 접근을 차단한다.

Allow: /search/about
위에서 설정한 검색로봇에 대해 /search/about 디렉터리에 대해 접근을 허용한다.


문제) robots.txt설정에 대해 아래의 문구가 어떤걸 의미하는지 서술하시오.

    (1) robots.txt의 용도는 무엇인가?

    (2) 해당 설정값에 대해 서술하시오
    useragent : yeti
    useragent : googlebot
    allow : /
   
    (3) 해당 설정값에 대해 서술하시오
    useragent : googlebot-image
    disallow : /admin/
    disallow : /*.pdf$

 

답)
1. 크롤링을 실시하는 검색로봇에 대해 접근통제 규약을 해놓은 로봇배제표준
2. yeti와 googlebot 검색로봇에 대해 모든 디렉터리 접근통제를 허용한다.
3. googlebot-image 검색로봇에 대해 admin 디렉터리 접근차단, 모든 pdf로 끝나는 파일형태에 대해 접근차단한다.


댓글