当前位置:首页 >  站长 >  搜索优化 >  正文

彭宇诚:带你认识robots.txt及其使用方法

 2010-09-20 18:04  来源:   我来投稿 撤稿纠错

  【推荐】海外独服/站群服务器/高防

robots.txt对于大多数有网站优化经验的朋友来说并不算太陌生,用过的朋友肯定会有感受,设置好robots.txt对网站优化来说利远远大于弊。今天彭宇诚就与大家分享一下robots.txt的使用方法,希望对大家有所帮助。

我们先来认识一下什么是robots.txt?

我理解的是robots.txt是通过代码控制搜索引擎蜘蛛索引的一个手段,以便减轻网站服务器的带宽使用率,从而让网站的空间更稳定,同时也可以提高网站其他页面的索引效率,提高网站收录。

下面我们再来熟悉一下怎样使用robots.txt?

首先,我们需要创建一个robots.txt文本文件,然后在文档内设置好代码,告诉搜索引擎我网站的哪些文件你不能访问。然后上传到网站根目录下面,因为当搜索引擎蜘蛛在索引一个网站时,会先爬行查看网站根目录下是否有robots.txt文件。

robots.txt文件内的代码书写规范我们也要注意,其中User-agent:*是必须存在的,表示对所有搜索引擎蜘蛛有效。Disallow:是说明不允许索引哪些文件夹。下面举一些例子来看看:

例1:

User-agent:*

Disallow:/

表示禁止所有搜索引擎抓取网站的内容

例2:

Disallow:

表示允许所有搜索引擎抓取(和不设置robots.txt的意思是一样的)

例3:

User-agent:*

Disallow:/templetes

表示禁止所有搜索引擎抓取网站templetes文件下的内容

例4:

User-agent:baiduspider

User-agent:*

Disallow:/

表示只允许百度蜘蛛抓取网站内容

这里再跟大家分享一下常见搜索引擎蜘蛛的名称,按上面的方法进行设置即可:

百度:baiduspider

谷歌:googlebot

搜搜:sosospider

alexa:ia_archiver

搜狗:sogou+web+spider

这里还要提醒大家一下,robots.txt虽然设置好了,但我们也给某些攻击者留下了我们网站重要文件的位置,建议大家在设置禁止抓取的目录时,同时对这些文件夹设置访问权限,加*问密码,这样就可以避免攻击者轻易攻击我们网站的重要文件了。

以上就是彭宇诚在robots.txt文件使用中的一些经验,可能还不算最完善,希望大家多留言补充。

欢迎转载博主各原创文章,请保留作者信息,谢谢合作!

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关文章

信息推荐