SimpleDao
  • robots.txt放在网站根路径 /robots.txt

禁止拉取某些目录

  1. User-agent: *
  2. Disallow: /static/
  3. Disallow: /css/
  4. Disallow: /admin/
  5. Disallow: /images/

允许网络爬虫访问我们网站的某个目录中的某些特定网址

  1. User-agent: *
  2. Allow: /css/my
  3. Allow: /admin/html
  4. Allow: /images/index
  5. Disallow: /css/
  6. Disallow: /admin/
  7. Disallow: /images/

禁止所有搜索引擎访问网站的所有部分

  1. User-agent: *
  2. Disallow: /

仅允许访问某目录下某个后缀的文件

  1. User-agent: *
  2. Allow: .html$
  3. Disallow: /

禁止搜索引擎抓取网站上的图片

  1. User-agent: *
  2. Disallow: .jpg$
  3. Disallow: .jpeg$
  4. Disallow: .gif$
  5. Disallow: .png$
  6. Disallow: .bmp$