[ 정보보안기사 / 정보보안산업기사 ]
로봇 배제 표준 (robots.txt)
1. robots.txt
- 웹 사이트에 크롤링봇이 접근하는 것을 방지하기 위한 규약으로, 접근 제한에 대한 설명을 robots.txt에 기술한다.
※ 크롤링봇 : 해당 사이트의 정보를 추출해내는 자동 프로그램
- 접근 방지 설정을 하였다고 해도, 다른 사람들이 그 파일에 접근할 수 있다(악성봇).
- robots.txt 파일을 웹 서버 루트 디렉토리에 위치시키면 된다.
ex) 구글의 Googlebot , 네이버의 Naverbot 등등
2. robots.txt 설정
위는 구글의 robots.txt 내용이다.
(www.google.com/robots.txt)
User-agent: *
해당 검색로봇을 설정한다. ( * : 모든검색로봇, NaverBot : 네이버봇만 해당 )
Disallow: /search
위에서 설정한 검색로봇에 대해 /search 디렉터리에 대해 접근을 차단한다.
Allow: /search/about
위에서 설정한 검색로봇에 대해 /search/about 디렉터리에 대해 접근을 허용한다.
문제) robots.txt설정에 대해 아래의 문구가 어떤걸 의미하는지 서술하시오.
(1) robots.txt의 용도는 무엇인가?
(2) 해당 설정값에 대해 서술하시오
useragent : yeti
useragent : googlebot
allow : /
(3) 해당 설정값에 대해 서술하시오
useragent : googlebot-image
disallow : /admin/
disallow : /*.pdf$
답)
1. 크롤링을 실시하는 검색로봇에 대해 접근통제 규약을 해놓은 로봇배제표준
2. yeti와 googlebot 검색로봇에 대해 모든 디렉터리 접근통제를 허용한다.
3. googlebot-image 검색로봇에 대해 admin 디렉터리 접근차단, 모든 pdf로 끝나는 파일형태에 대해 접근차단한다.
'[자격증] 정보보안기사 > ↘ 정보보안 실무' 카테고리의 다른 글
[ 정보보안기사 / 정보보안산업기사 ] 침입탐지시스템 / 침입방지시스템 (IDS / IPS) (0) | 2020.06.04 |
---|---|
[ 정보보안기사 / 정보보안산업기사 ] 디렉터리 인덱싱 (0) | 2020.06.04 |
[ 정보보안기사 / 정보보안산업기사 ] ARP 프로토콜 (0) | 2020.06.04 |
[ 정보보안기사 / 정보보안산업기사 ] IPSec (0) | 2020.06.03 |
[ 정보보안기사 / 정보보안산업기사 ] DDE ( Dynamic Data Exchange ) (0) | 2020.06.03 |
댓글