网站一旦上线后,搜素引擎蜘蛛较好个爬取网站文件的就是robots.txt文件,所谓的robots.txt就是搜索引擎协议文件,因此要检查,因为书写正确的robots.txt协议文件至关重要,一般设置robots.txt协议文件主要有以下几个方面:
(1)不希望被搜索引擎蜘蛛爬取到的文件都要屏蔽掉,主要屏蔽:网站后台JS、CSS文件和网站后台图片等。
(2)不希望被搜索蜘蛛抓取到的网页链接也都要屏蔽掉,主要屏蔽:网站后台登录网址、网站动态路径等。
(3)可以将XML格式的网站地图放进robots.txt末尾处,这么做的好处就是方便搜素引擎蜘蛛爬取网站的所有文章,提高网站文章的收录率。
声明:转载此文是出于传递更多学习交流目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。本站部分图文来源于网络,仅供学习交流,发表作品观点仅代表作者本人,本站仅提供信息存储空间服务,不承担连带责任。如有侵权,请及时联系管理员删除。
添加微信
微信扫一扫
评论