Baiduspider抓取过程中涉及的网络协议

张俊SEM seo优化121字数 1390阅读4分38秒阅读模式

Baiduspider抓取过程中涉及的网络协议

刚才提到百度搜索引擎会设计复杂的抓取策略,其实搜索引擎与资源提供者之间存在相互依赖的关系,其中搜索引擎需要站长为其提供资源,否则搜索引擎就无法满足用户检索需求;而站长需要通过搜索引擎将自己的 内容推广出去获取更多的受众。spider抓取系统直接涉及互联网资源提供者的利益,为了使搜素引擎与站长能够达到双赢,在抓取过程中双方必须遵守一定的 规范,以便于双方的数据处理及对接。这种过程中遵守的规范也就是日常中我们所说的一些网络协议。

以下简单列举:
        http协议:超文本传输协议,是互联网上应用最为广泛的一种网络协议,客户端和服务器端请求和应答的标准。客户端一般情况是指终端用户,服务器端即指网 站。终端用户通过浏览器、蜘蛛等向服务器指定端口发送http请求。发送http请求会返回对应的httpheader信息,可以看到包括是否成功、服务 器类型、网页最近更新时间等内容。文章源自张俊SEM-https://www.zhangjunsem.com/25707.html

https协议:实际是加密版http,一种更加安全的数据传输协议。文章源自张俊SEM-https://www.zhangjunsem.com/25707.html

UA属性:UAuser-agent,是http协议中的一个属性,代表了终端的身份,向服务器端表明我是谁来干嘛,进而服务器端可以根据不同的身份来做出不同的反馈结果。文章源自张俊SEM-https://www.zhangjunsem.com/25707.html

robots协议:robots.txt是搜索引擎访问一个网站时要访问的第一个文件,用以来确定哪些是被允许抓取的哪些是被禁止抓取的。 robots.txt必须放在网站根目录下,且文件名要小写。详细的robots.txt写法可参考 http://www.robotstxt.org 。百度严格按照robots协议执行,另外,同样支持网页内容中添加的名为robotsmeta标 签,indexfollownofollow等指令。文章源自张俊SEM-https://www.zhangjunsem.com/25707.html

 文章源自张俊SEM-https://www.zhangjunsem.com/25707.html

Baiduspider抓取频次原则及调整方法

Baiduspider根据上述网站设置的协议对站点页面进行抓取,但是不可能做到对所有站点一视同仁,会综合考虑站点实际情况确定一个抓取配额,每天定量抓取站点内容,即我们常说的抓取频次。那么百度搜索引擎是根据什么指标来确定对一个网站的抓取频次的呢,主要指标有四个:
        1,网站更新频率:更新快多来,更新慢少来,直接影响Baiduspider的来访频率
        2,网站更新质量:更新频率提高了,仅仅是吸引了Baiduspier的注意,Baiduspider对质量是有严格要求的,如果网站每天更新出的大量内容都被Baiduspider判定为低质页面,依然没有意义。
        3,连通度:网站应该安全稳定、对Baiduspider保持畅通,经常给Baiduspider吃闭门羹可不是好事情
        4,站点评价:百度搜索引擎对每个站点都会有一个评价,且这个评价会根据站点情况不断变化,是百度搜索引擎对站点的一个基础打分(绝非外界所说的百度权重),是百度内部一个非常机密的数据。站点评级从不独立使用,会配合其它因子和阈值一起共同影响对网站的抓取和排序。文章源自张俊SEM-https://www.zhangjunsem.com/25707.html

抓取频次间接决定着网站有多少页面有可能被建库收录,如此重要的数值如果不符合站长预期该如何调整呢?百度站长平台提供了抓取频次工具(),并已完成多次升级。该工具除了提供抓取统计数据外,还提供“频次调整”功能,站长根据实际情况向百度站长平台提出希望Baiduspider增加来访或减少来访的请求,工具会根据站长的意愿和实际情况进行调整。文章源自张俊SEM-https://www.zhangjunsem.com/25707.html

 文章源自张俊SEM-https://www.zhangjunsem.com/25707.html

文章源自张俊SEM-https://www.zhangjunsem.com/25707.html文章源自张俊SEM-https://www.zhangjunsem.com/25707.html

声明:转载此文是出于传递更多学习交流目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。本站部分图文来源于网络,仅供学习交流,发表作品观点仅代表作者本人,本站仅提供信息存储空间服务,不承担连带责任。如有侵权,请及时联系管理员删除。

weinxin
ynxtwl
加个微信
交个朋友
张俊SEM
  • 本文由 张俊SEM 发表于 2023年9月4日22:14:20
  • 转载请务必保留本文链接:https://www.zhangjunsem.com/25707.html
淘宝描述不符三倍赔偿怎么申请?有哪些要求?
淘宝描述不符三倍赔偿怎么申请?有哪些要求? seo优化

淘宝描述不符三倍赔偿怎么申请?有哪些要求?

  在淘宝这个平台,如果买家在购物的过程中,可以提出相关的证据,代表商家售卖的商品是假货的,那么所购买的商品,是可以去平台上申请三倍赔偿,然而有很多的买家都不清楚,那不符三倍赔偿怎么申请?有哪些要求?...
淘宝企业过户需要多长时间?相关规则是什么?
淘宝企业过户需要多长时间?相关规则是什么? seo优化

淘宝企业过户需要多长时间?相关规则是什么?

  各位淘宝商家们,如果觉得自己无法再继续开淘宝店了,是可以将自己的淘宝店铺过户给别人的,一般来说需要多长的时间呢?相信很多的淘宝商家都存在这方面的业务,这里汉聪电商就带大家一起来了解一下!   需要...
淘宝推广会有返点吗?淘宝推广返利如何设置?
淘宝推广会有返点吗?淘宝推广返利如何设置? seo优化

淘宝推广会有返点吗?淘宝推广返利如何设置?

  互联网的快速增长得益于互联网无可替代的优势,它为全球的消费者构建了一个交易平台,可以跨越交易双方的空间距离,因此催生了新的商业模式——电子商务。现在我国电商经济发展是有目共睹的,也吸引了不少人选择...
淘宝网超时说明规则变更公式通知是什么意思?
淘宝网超时说明规则变更公式通知是什么意思? seo优化

淘宝网超时说明规则变更公式通知是什么意思?

  电子商务的发展已然成为事实,计算机网络信息的发展为电子商务的发展提供强有力的条件,并已成为当下的经济热点和发展趋势。而电商经济的快速发展也让不少人看到了机遇,纷纷选择网店创业,但网店开设容易,网店...