[ 정보보안기사 / 정보보안산업기사 ] 로봇 배제 표준 (robots.txt)

[ 정보보안기사 / 정보보안산업기사 ]

로봇 배제 표준 (robots.txt)

1. robots.txt
- 웹 사이트에 크롤링봇이 접근하는 것을 방지하기 위한 규약으로, 접근 제한에 대한 설명을 robots.txt에 기술한다.
※ 크롤링봇 : 해당 사이트의 정보를 추출해내는 자동 프로그램
- 접근 방지 설정을 하였다고 해도, 다른 사람들이 그 파일에 접근할 수 있다(악성봇).
- robots.txt 파일을 웹 서버 루트 디렉토리에 위치시키면 된다.

ex) 구글의 Googlebot , 네이버의 Naverbot 등등

2. robots.txt 설정

위는 구글의 robots.txt 내용이다.
(www.google.com/robots.txt)

User-agent: *
해당 검색로봇을 설정한다. ( * : 모든검색로봇, NaverBot : 네이버봇만 해당 )

Disallow: /search
위에서 설정한 검색로봇에 대해 /search 디렉터리에 대해 접근을 차단한다.

Allow: /search/about
위에서 설정한 검색로봇에 대해 /search/about 디렉터리에 대해 접근을 허용한다.

문제) robots.txt설정에 대해 아래의 문구가 어떤걸 의미하는지 서술하시오.

    (1) robots.txt의 용도는 무엇인가?

    (2) 해당 설정값에 대해 서술하시오
    useragent : yeti
    useragent : googlebot
    allow : /

    (3) 해당 설정값에 대해 서술하시오
    useragent : googlebot-image
    disallow : /admin/
    disallow : /*.pdf$

답)
1. 크롤링을 실시하는 검색로봇에 대해 접근통제 규약을 해놓은 로봇배제표준
2. yeti와 googlebot 검색로봇에 대해 모든 디렉터리 접근통제를 허용한다.
3. googlebot-image 검색로봇에 대해 admin 디렉터리 접근차단, 모든 pdf로 끝나는 파일형태에 대해 접근차단한다.

저작자표시 비영리 변경금지 (새창열림)

'> 기술자격 > 정보보안기사' 카테고리의 다른 글

[ 정보보안기사 / 정보보안산업기사 ] 침입탐지시스템 / 침입방지시스템 (IDS / IPS) (0)	2020.06.04
[ 정보보안기사 / 정보보안산업기사 ] 디렉터리 인덱싱 (0)	2020.06.04
[ 정보보안기사 / 정보보안산업기사 ] ARP 프로토콜 (0)	2020.06.04
[ 정보보안기사 / 정보보안산업기사 ] IPSec (0)	2020.06.03
[ 정보보안기사 / 정보보안산업기사 ] DDE ( Dynamic Data Exchange ) (0)	2020.06.03

승큐리티 IT 공부장

[ 정보보안기사 / 정보보안산업기사 ] 로봇 배제 표준 (robots.txt)

'> 기술자격 > 정보보안기사' 카테고리의 다른 글

댓글

티스토리툴바

[ 정보보안기사 / 정보보안산업기사 ] 로봇 배제 표준 (robots.txt)

'> 기술자격 > 정보보안기사' 카테고리의 다른 글

관련글

댓글

티스토리툴바