网站robots文件常见问题解答

发布时间：2025-06-06 点击：31

大家好，本篇文章讲解如何使用robots工具及如何正确设置蜘蛛的抓取范围。
一、了解什么是robots文件
1、什么是robots文件？
robots文件主要用于声明搜索引擎蜘蛛spider在网站里的抓取内容的范围，告诉蜘蛛哪些内容不可以抓取哪些资源可以抓；
2、robots.txt文件写法
robots.txt文件可以包含一条或多条记录，以空行分开，通常以user-agent开始，后面再加上disallow或者allow命令行，不需要的命令行也可以使用#进行注解，如下详情所示：
user-agent：用于描述允许哪些搜索引擎抓取该网站，例如“*”号代表所有搜索引擎都可以抓取，“baiduspeder”只允许百度蜘蛛抓取，“googlebot”只允许谷歌蜘蛛抓取，“bingbot”只允许必应蜘蛛抓取。
disallow：用于描述不希望搜索蜘蛛抓取的url链接或结构目录，可以是一条完整的url链接，也可以是一个url结构目录，但不能是空格，空格表示此网站禁止所有搜索引擎抓取，以disallow开头的url链接或结构目录是不会被蜘蛛抓取的。
allow：正好与disallow相反，该条robots命令表达的意思是允许搜索蜘蛛抓取url链接或目录，因此以allow开头的url链接或结构目录是允许蜘蛛抓取的。
如果网站根目录没有robots.txt文件或者为空，那么，表达的意思是就是此网站所有链接和目录，对所有搜索引擎都是开放的。
注意：大家在撰写robots.txt文件时，要注意url链接或结构目录名称的大小写，否则robots协议不会生效。
3、robots.txt文件放置位置：通常放于网站根目录下
二、如何使用robots工具
1、robots工具的作用？
可使用百度站长平台robots工具，对网站robots.txt文件进行校验、更新等操作，查看网站robots.txt文件是否生效或是否有错误；
2、使用robots工具的注意事项？
百度站长平台robots工具目前只能检测48k以内的文件，所以站长们要注意，网站robots.txt文件不要过大，新的robots文件创建更新后，蜘蛛不会马上调整抓取方向，是逐步对网站robots.txt文件抓取规则进行更新的。
3、网站robots.txt文件中已经设置了禁止蜘蛛抓取的内容，为什么还会出现在网站索引数据中。
可能有以下两个方面的原因：
1）网站robots.txt文件不能正常访问，这种情况，我们可以使用站长平台robots工具进行检测，检测robots文件是否可以正常访问；
2）新创建或新更新的robots.txt文件还没有生效，蜘蛛执行的抓取原则还是未更新前robots.txt文件，新的robots文件生效周期为1~2周。
4、robots工具校验提示
网站robots文件，出现以上错误，则有可能是以下原因：
错误码500，表示网站robots页面访问失败；
错误码301，表示网站robots文件存在跳转关系；
错误码404，表示网站robots文件不能正常访问；
如果你网站的robots文件也有出现以上错误代码，建议根据以上情况进行自查，重新提交校验。
5、robots文件禁止了蜘蛛访问，如何处理？
1）马上修改网站robots文件，将封禁改为允许；
2）使用站长平台robots工具更新robots文件，显示抓取失败，多抓取几次，触发蜘蛛来抓取你的网站；
3）注意下抓取频次情况，如果抓取频次过低，可申请调整下抓取频次；
4）使用百度站长平台里的“资源提交-普通收录”工具，主动向搜索引擎提交网站链接。

网络营销平台的特点
网站建设中的设计问题！
网站建设推广要注意策略与方向
网站设计中的布局分割方法有哪些
如何做一个易于推广的响应式网站
如何建设一个标准的网站
站长们要学会善用百度资源提高网站排名_深圳网站制作公司
江苏南通网站推广有哪些营销方式？

上一篇：如何判断低价美国服务器好不好？有哪些衡量标准

下一篇：如何用主推款引爆店铺流量？