如何禁止浏览器爬虫
1、(1)禁止所有搜索引擎访问网站的任何部分。User-agent: *Disallow: /
2、(2)允许所有的robots访问,无任何限制。User-agent: *Disallow:或者User-agent: *Allow: /还可以建立一个空文件robots.txt或者不建立robots.txt。
3、(3)仅禁止某个搜索引擎的访问(例如:百度baiduspider)User-agent: BaiduSpiderDisallow:/
4、(4)允许某个搜索薪姚蟪食引擎的访问(还是百度)User-agent: BaiduSpiderDisallow:Us髫潋啜缅er-agent: *Disallow: /这里需要注意,如果你还需要允许谷歌bot,那么也是在“User-agent: *”前面加上,而不是在“User-agent: *”后面。
5、(5)禁止Spider访问特定目录和特定文件(图片、压缩文件)。User-agent: *Disallow: /AAA.net/Disallow: /admin/Disallow: .jpg$Disallow: .rar$这样写之后,所有搜索引擎都不会访问这2个目录。需要注意的是对每一个目录必须分开说明,而不要写出“Disallow:/AAA.net/ /admin/”。
声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
阅读量:72
阅读量:45
阅读量:26
阅读量:71
阅读量:20