当前位置:首页 >  站长 >  建站经验 >  正文

用侠客站群系统对某健康网保健栏目抓取模块(三)

 2012-06-07 09:35  来源: 站群系统   我来投稿 撤稿纠错

  【推荐】海外独服/站群服务器/高防

这 个是抓取模块的最后一步了,在“用侠客站群系统对某健康网保健栏目抓取模块(一)”与“用侠客站群系统对某健康网保健栏目抓取模块(二)讲了前面步骤,不懂可以再去看下,为了这几天的成绩小小的骄傲一把,这个里面有两个地方好混,一是“分页提取规则”是控制分页链接的,二 是下面的“内容模型提取规则”是控制标题和正文的,其实我们一共需要三个规则,可以是视觉也可以是正则,一切都以获取到所需要的内容为准,只是要分清楚。

1、 标题提取

进入流程3后,内容模型选:标题后进入到未命名规则

 

新建正则公式,测试表达式,可以看到表达式有效,已经提取到了

 

保存后,回到主页面

 

这样我们就获得了“标题”

2、内容提取

通过侠客提供的“侠客正则测试工具”我们测试为了获得内容而建立的正则公式,提取成功,并复制下正则公式

 

进入主页面:

 

内容模型选择“正文”

进入提取规则,这里的正文是我改过名字的

新建正则公式,测试也成功了

 

保存返回,回到主页面

3、分页提取

启用分页抓取,进入分页提取规则,这个时候不要混了,现在我们要处理的是分页的问题,而不是标题正文,所以,在上部选启用分页,同时进入分页提取规则

 

在这里,通过源文件发现一个悲催的问 题,分页的文件,天 啊,竟然是相对地址,我晕,教程里这里是按正则提取的,搜狐女性栏目是绝对地址,如果这里也照搬的话,以我的正则水平,只能提取出相对地址来,没办法了, 采取视觉提取吧,这样可以转化为绝对地址,根据实际情况,做好筛选工作

 

恩,测试一下下,成功了也,鼓掌5分钟,

 

好了,一步步的保存吧,然后存为模块:

 

通过设立任务,可以看到文章库里已经抓取到了:

 

继续为自己鼓掌5分钟·~

通 过在A5侠客软件站www.xiake5.com中的几天的教程,对侠客站群软件学 习,使我深深地体会到了侠客的威力,霎时有了神兵利器在手,天下我有的感觉,自我陶醉中,尽管初次制作的抓取还有不完善的地方,还需要替换 库的美化,但是从零开始的基础,让我也有了小成功的感觉,呵呵,感谢侠客,让我有了可以多站点操作的机会,单位里的事情也越来越多, 房子还得装修,不知道自己的教程帖子还能贴几篇,上帝保佑吧。

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关文章

信息推荐