seo技术中的关于robots.txt爬虫协议的正确写法问题,在百度算法中的工作原理有一个去重原理,意思是百度蜘蛛来到你的网站进行爬取内容的时候,它会放进索引库去进行筛选的,比如:一些重复的内容、一些没有意义的内容,像qq、留言、注册信息等等,然后才会去给您的内容去进行建库,所以robots.txt协议的重要性就非常重要了,可以通过这个协议去限制一些不必要的东西,那么robots.txt协议究竟是什么呢?它的正确的写法又是怎样的呢?
具体写法分为以下几种:
1、允许所有搜索引擎访问网站的所有部分robots.txt写法如下:User-agent:*Disallow:或者User-agent:*Allow:/
注意:第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错。
2、禁止所有搜索引擎访问网站的所有部分robots.txt写法如下:User-agent:*Disallow:/
3、只需要禁止蜘蛛访问某个目录,比如禁止admin、css、images等目录被索引 robots.txt写法如下: User-agent: * Disallow: /css/ Disallow: /admin/ Disallow: /images/
注意:路径后面有斜杠和没有斜杠的区别:比如Disallow: /images/ 有斜杠是禁止抓取images整个文件夹,Disallow: /images 没有斜杠意思是凡是路径里面有/images关键词的都会被屏蔽。
4、屏蔽一个文件夹/templets,但是又能抓取其中一个文件的写法:/templets/main robots.txt写法如下: User-agent: * Disallow: /templets Allow: /main
5、禁止访问html/目录下的所有以”.php”为后缀的URL(包含子目录) robots.txt写法如下: User-agent: * Disallow: html/*.php
6、 仅允许访问某目录下某个后缀的文件,则使用“$” robots.txt写法如下: User-agent: * Allow: .html$ Disallow: /
7、禁止索引网站中所有的动态页面 比如这里限制的是有“?”的域名,例如index.php?id=1 robots.txt写法如下: User-agent: * Disallow: /*?*
8、禁止搜索引擎抓取我们网站上的所有图片(如果你的网站使用其他后缀的图片名称,在这里也可以直接添加) 有些时候,为了节省服务器资源,需要禁止各类搜索引擎来索引网站上的图片,这里的办法除了使用“Disallow: /images/”直接屏蔽文件夹的方式之外,还可以采取直接屏蔽图片后缀名的方式。 robots.txt写法如下: User-agent: * Disallow: .jpg$ Disallow: .jpeg$ Disallow: .gif$ Disallow: .png$ Disallow: .bmp$
robots.txt要注意的地方:
1、第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错。
2、斜杠:/代表整个网站
3、如果“/”后面多了一个空格,则屏蔽整个网站
4、不要禁止正常的内容
5、生效时间是几天到两个月
总结:对于robots.txt协议,是seo技术中比较关键的,没有写好,可能会导致网站的蜘蛛不收录。如果合理的应用,那么可以让网站达到权重的集中。
更多SEO优化推广资讯,请联系蓝畅客服
关于我们:
Infocode蓝畅信息技术有限公司成功为多家世界财富500强企业以及其他著名品牌提供优质服务,是您靠谱的互联网开发供应商。
服务客户遍及北京、上海、杭州、深圳、广州、天津、青岛、南京、宁波、苏州、无锡、厦门、重庆、西安等大中型城市及地区 为您提供:H5开发,小程序开发,H5外包,微信开发,H5商城开发,小程序商城开发,网站开发外包,H5游戏开发,小程序开发外包,小程序设计、APP开发外包,UI设计,SEO优化,SEO外包,视频后期制作等优质服务
本文来自投稿,不代表Infocode蓝畅营销立场,如若转载,请注明出处:https://www.seosetup.cn/1299.html