什么是robots协议对seo的影响

张俊SEM seo优化147字数 2297阅读7分39秒阅读模式

什么是robots协议

蜘蛛spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。早期robots协议是防止网站内的隐私,防止抓取用户不想让搜索引擎曝光的页面。文章源自张俊SEM-https://www.zhangjunsem.com/27346.html

robots.txt文件位置

robots.txt文件应该放置在网站根目录下。比如https://www.zhangjunsem.com/robots.txt这个文件文章源自张俊SEM-https://www.zhangjunsem.com/27346.html

robots一般格式

User-agent: *
Disallow: 
allow:

robots不支持中文

百度蜘蛛目前在robots里不支持中文,如果路径里面带了中文,可以选择UrlEncode编码的写法,如文章源自张俊SEM-https://www.zhangjunsem.com/27346.html

http://www.xx.com/tags/%D7%B0%D0%DE%CE%AC%BB%A4%B1%A3%D1%F8.html

"*"和"$"的含义

Baiduspider支持使用通配符"*"和"$"来模糊匹配url。文章源自张俊SEM-https://www.zhangjunsem.com/27346.html

"$" 匹配行结束符。
"*" 匹配0或多个任意字符。

robots协议对seo优化的影响

1.屏蔽隐私内容或无内容页面。前面提到蜘蛛的爬取对索引量有着重要的作用,能缩短收录周期。蜘蛛一般都会全站爬取内容,但有些质量一般的页面被抓取会影响整体排名,比如:登陆页、注册页、购物车、表纲、个人隐私文件等。文章源自张俊SEM-https://www.zhangjunsem.com/27346.html

2.屏蔽某些动态的内容屏蔽,如:tag标签,在刚开始的时候尽量屏蔽蜘蛛抓取,到后期稳定的时候再整理后开放。tag标签的作用可以参考《TAG标签的正确用法》文章源自张俊SEM-https://www.zhangjunsem.com/27346.html

3.屏蔽重复内容页面。如:多个页面无内容或空评论;不同路径打开的页面都一样。跟带www和不带www的页面说法不一样,可以把这两个页面301重定向到其中一个,集中权重。文章源自张俊SEM-https://www.zhangjunsem.com/27346.html

4.屏蔽死链接。一般的死链会返回404错误,当然站内错误或服务器问题,是无法屏蔽的。文章源自张俊SEM-https://www.zhangjunsem.com/27346.html

robots的主要功能

1.禁止蜘蛛抓取

dede后台有很多php、js、css等内容,但这些内容对排名没有太大作用,可以使用disallow禁止抓取文章源自张俊SEM-https://www.zhangjunsem.com/27346.html

User-agent: sogou spider
Disallow: /

代表禁止搜狗蜘蛛进行抓取,在中国大陆范围内,一般的企业网站只要百度蜘蛛,谷歌蜘蛛,360蜘蛛就可以了,其他蜘蛛频繁抓取网站会造成网站访问速度受到影响。如果禁止这些蜘蛛进行抓取,搜索引擎认为你是不友好的。文章源自张俊SEM-https://www.zhangjunsem.com/27346.html

2.引导蜘蛛抓取

Sitemap: https://www.zhangjunsem.com/sitemap.xml

以上字段是引导蜘蛛按照sitemap网站地图的要求抓取。蜘蛛的抓取顺序是按照编写自上而下,如果控制得越精确,则遵循精确的规则。

3.控制抓取范围

该行有符号“/”,代表着只包含该栏目下的文章/目录/子类,不包含本身;

反之无“/”,代表包含包含该栏目下的文章/目录/子类和本身。

4.举例最常见的robots.txt写法

DedeCMS的robots的写法:

User-agent: *
Disallow: /plus/ad_js.php
Disallow: /plus/advancedsearch.php
Disallow: /plus/car.php
Disallow: /plus/carbuyaction.php
Disallow: /plus/shops_buyaction.php
Disallow: /plus/erraddsave.php
Disallow: /plus/posttocar.php
Disallow: /plus/disdls.php
Disallow: /plus/feedback_js.php
Disallow: /plus/feedback.php
Disallow: /plus/mytag_js.php
Disallow: /plus/rss.php
Disallow: /plus/search.php
Disallow: /plus/recommend.php
Disallow: /plus/stow.php
Disallow: /plus/count.php
Disallow: /plus/heightsearch.php
Disallow: /tags.php
Disallow: /member
Disallow: /include
Disallow: /templets
User-agent: sogou spider
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: Slurp
Disallow: /
User-agent: Teoma
Disallow: /
User-agent: Gigabot
Disallow: /
User-agent: Scrubby
Disallow: /
User-agent: Robozilla
Disallow: /
User-agent: Nutch
Disallow: /
Sitemap: http://www.xiuzhanwang.com/sitemap.xml

这里要注意网站地图网站robots的最后面,让搜索引擎先遵循抓取范围再引导抓取结构。

robots安全重要说明

robots不管是对搜索引擎还是对任何人都是可以访问的,容易暴露某些隐私或后台程序,而每个建站程序都有漏洞,树大才招风,黑客利用这些漏洞做些不好的事情,后果不堪设想。一般的大型网站都是自己搭建程序,成本较高,漏洞也较少(只是没那么多人攻击)。

对DEDE、DZ、PW等使用的比较多的建站程序,有很多开源的功能,没有经验的站长很容易成为别人的“肉鸡”,经常检查自己网站的外链、快照情况就能发现是不是被人动了手脚。查看文章《别让网站的robots成为最大的漏洞》。

声明:转载此文是出于传递更多学习交流目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。本站部分图文来源于网络,仅供学习交流,发表作品观点仅代表作者本人,本站仅提供信息存储空间服务,不承担连带责任。如有侵权,请及时联系管理员删除。

weinxin
ynxtwl
加个微信
交个朋友
张俊SEM
  • 本文由 张俊SEM 发表于 2024年12月12日10:02:11
  • 转载请务必保留本文链接:https://www.zhangjunsem.com/27346.html
淘宝描述不符三倍赔偿怎么申请?有哪些要求?
淘宝描述不符三倍赔偿怎么申请?有哪些要求? seo优化

淘宝描述不符三倍赔偿怎么申请?有哪些要求?

  在淘宝这个平台,如果买家在购物的过程中,可以提出相关的证据,代表商家售卖的商品是假货的,那么所购买的商品,是可以去平台上申请三倍赔偿,然而有很多的买家都不清楚,那不符三倍赔偿怎么申请?有哪些要求?...
淘宝企业过户需要多长时间?相关规则是什么?
淘宝企业过户需要多长时间?相关规则是什么? seo优化

淘宝企业过户需要多长时间?相关规则是什么?

  各位淘宝商家们,如果觉得自己无法再继续开淘宝店了,是可以将自己的淘宝店铺过户给别人的,一般来说需要多长的时间呢?相信很多的淘宝商家都存在这方面的业务,这里汉聪电商就带大家一起来了解一下!   需要...
淘宝推广会有返点吗?淘宝推广返利如何设置?
淘宝推广会有返点吗?淘宝推广返利如何设置? seo优化

淘宝推广会有返点吗?淘宝推广返利如何设置?

  互联网的快速增长得益于互联网无可替代的优势,它为全球的消费者构建了一个交易平台,可以跨越交易双方的空间距离,因此催生了新的商业模式——电子商务。现在我国电商经济发展是有目共睹的,也吸引了不少人选择...
淘宝网超时说明规则变更公式通知是什么意思?
淘宝网超时说明规则变更公式通知是什么意思? seo优化

淘宝网超时说明规则变更公式通知是什么意思?

  电子商务的发展已然成为事实,计算机网络信息的发展为电子商务的发展提供强有力的条件,并已成为当下的经济热点和发展趋势。而电商经济的快速发展也让不少人看到了机遇,纷纷选择网店创业,但网店开设容易,网店...