当前位置:首页 >  站长 >  搜索优化 >  正文

苏笛康:实测搜狐微博是否屏蔽百度蜘蛛

 2011-06-10 06:05  来源:   我来投稿 撤稿纠错

  【推荐】海外独服/站群服务器/高防

事件:

只要了解SEO的朋友都知道最近利用搜狐微博抢夺百度长尾词流量的事情。由于各种原因,苏笛康并未搀和进这件事。2011年6月9日,苏笛康所在的团队QQ群突然转发一个消息,称搜狐微博屏蔽百度蜘蛛了,并提供了一个Admin5论坛的帖子的URL。经过分析,苏笛康认为,搜狐微博并未屏蔽百度蜘蛛,上述言论是对搜狐微博的Robots.txt文件误读引起的。

材料:

搜狐微博Robots.txt文件内容(2011年6月9日晚):

User-agent: Baiduspider

Disallow:

User-agent: Sogou

Allow: /

User-agent: *

Disallow: /

分析:

首先,我们看搜狐微博Robots.txt第一部分,针对的是百度蜘蛛。

在百度搜索帮助中心的指南()可以找到这么一句——“Disallow:”说明允许robot访问该网站的所有URL。

因此,第一部分的语句,允许百度蜘蛛抓取所有的URL。

第二部分就不用看了,界定的是搜狗搜索引擎的蜘蛛抓取权限。

最后我们看第三部分,这部分使用通配符,限定所有的搜索引擎,不允许抓取根目录(相当于不允许抓取任何URL)。这里我们仍然需要关注百度搜索帮助中心的解释。百度官方的文件是这样说的——需要特别注意的是Disallow与Allow行的顺序是有意义的,robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。所以,第三部分的禁止指令,对百度蜘蛛而言,是无效的。百度蜘蛛根据第一部分的要求,可以抓取所有URL。

实测:

空口无凭,我们可以实际测试一下。已知百度和Google对待Robots.txt文件的处理方式是一样的,故而我们可以使用谷歌网站管理员工具中的“抓取工具的权限”功能来测试一下。

由于谷歌网站管理员工具只能测试已经验证所有权的网站,我这里用自己的博客来测试。

首先在测试用的Robots.txt中填写如下信息:

User-agent: Googlebot

Disallow:

User-agent: Sogou

Allow: /

User-agent: *

Disallow: /

(注意,受测试环境影响,使用Googlebot代替百度蜘蛛,不过这不影响测试结果)

然后用谷歌网站管理员工具测试Googlebot抓取首页()的结果,反馈如下:

第 2 行 Disallow: 允许访问此网址

检测为目录;具体文件可能有不同限制

实测证明,搜狐微博的Robots.txt没有屏蔽百度蜘蛛。

经验:

从事SEO工作,要重视两个东西:第一,搜索引擎官方的公开文档,尤其是百度和Google的正式资料,这些资料会透露很多搜索引擎对网页的处理方法;第二,要重视谷歌提供的各种工具,尤其是网站管理员工具,可以通过这些工具进行各种测试。

本文作者:网络营销分析师苏笛康,国内第一批通过中国电子商务协会认证SEO工程师。个人博客: (邮件订阅该博客赠送微博营销电子书)。

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关文章

  • 腾讯回应屏蔽百度系APP:触发当日分享上限就自动不可见

    近日有网友反映称,百度系部分App遭朋友圈“屏蔽”,腾讯方面回应称,分享次数达到当日上限,触发“防刷屏机制”。腾讯方面表示,朋友圈一直有防刷屏机制,触发当日分享上限就自动不可见

  • 腾讯微博正式全面屏蔽百度蜘蛛

    现在,电视上和网络上都在热议一个人:邬敬民。前几天还在百度搜索他的名字,出现第一名的是邬敬民的腾讯微博。但是今天早上想再找点关于他的资料的时候,在百度搜索邬敬民、邬敬民腾讯微博等关键词都没有找到他的微博,于是我看了一下腾讯微博的robots,大家也可以去

    标签:
    屏蔽百度
  • 引发“新浪博客屏蔽百度蜘蛛”传言的真相

    “新浪博客屏蔽百度蜘蛛”事件的真相

    标签:
    屏蔽百度
  • Google chrome屏蔽百度竞价排名baidu-adblock

    浏览器是大家上网的必需工具,本人的浏览器之路是:IE6——傲游——Firefox——googlechrome,目前基本上是用googlechrome同时Firefox也并着用。今天发现了一个有趣的东西,那就是googlechrome出了一个插件,而这个插件是干嘛用的

    标签:
    屏蔽百度
  • 新浪博客屏蔽百度对站长是福是祸?

    今日逛站长网,了解到新浪博客对百度搜索引擎进行了屏蔽,从其新浪博客robots.txt文档可以看出,新浪博客已经对百度蜘蛛进行了屏蔽,也就意味着百度引擎蜘蛛再也无法爬去新浪博客的内容。新浪博客因其权重高、收录快的特点,一直被站长当做外链养殖场。然而此

    标签:
    屏蔽百度

热门排行

信息推荐