做网站当然希望搜索引擎抓取我们网站的内容,但我们做seo优化seo优化时候并不希望所有的信息都公布于众,比如后台隐私,或者其它一些杂七杂八的信息。那么这时候我们就可以能过robots.txt文件来控制网站在搜索引擎中的展示,robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被搜索引擎robots访问的部分。
带“*”的一种写法:
user-agent:*disallow:/ad*
allow:/ad/img/
disallow:/*.php$
disallow:/*.jsp$
disallow:/*.css$
这种写法允许所有蜘蛛访问,但会限制以“ad”开头的目录及文件,并限制抓取.php文件、.jsp文件和.css文件。其中disallow:/ad*会连同附件目录(即你上传的图片、软件等)一起限制抓取,如果想让搜索引擎抓取img目录中的内容,需要将写上第三行“allow:/ad/img/“。
较合理的一种写法:
user-agent:*disallow:/admin
disallow:/content/plugins
disallow:/content/themes
disallow:/includes
disallow:/?s
采用这种写法允许所有搜索引擎抓取,并逐一列举需要限制的目录,同时限制抓取网站的搜索结果,最后一行代码是你网站的sitemap路径,大多数搜索引擎都会识别它。
如果对自己写的robots.txt不放心,建议你使用google管理员工具中的“工具->测试robots.txt”来对你的robots.txt进行测试,确保你的修改正确。
什么是营销型网站制作?影响网站打开速度的原因网络营销没有效果的原因是什么设计一个企业网站应该从何着手?互联网常见的网络推广方式汇总怀化网站优化官网设计需要明白什么?网站推广行业竞争激烈,企业需整合上下游资源网站关键词优化的思路和操作是什么