这 个是抓取模块的最后一步了,在“用侠客站群系统对某健康网保健栏目抓取模块(一)”与“用侠客站群系统对某健康网保健栏目抓取模块(二)” 讲了前面步骤,不懂可以再去看下,为了这几天的成绩小小的骄傲一把,这个里面有两个地方好混,一是“分页提取规则”是控制分页链接的,二 是下面的“内容模型提取规则”是控制标题和正文的,其实我们一共需要三个规则,可以是视觉也可以是正则,一切都以获取到所需要的内容为准,只是要分清楚。
1、 标题提取
进入流程3后,内容模型选:标题后进入到未命名规则
新建正则公式,测试表达式,可以看到表达式有效,已经提取到了
保存后,回到主页面
这样我们就获得了“标题”
2、内容提取
通过侠客提供的“侠客正则测试工具”我们测试为了获得内容而建立的正则公式,提取成功,并复制下正则公式
进入主页面:
内容模型选择“正文”
进入提取规则,这里的正文是我改过名字的
新建正则公式,测试也成功了
保存返回,回到主页面
3、分页提取
启用分页抓取,进入分页提取规则,这个时候不要混了,现在我们要处理的是分页的问题,而不是标题正文,所以,在上部选启用分页,同时进入分页提取规则
在这里,通过源文件发现一个悲催的问 题,分页的文件,天 啊,竟然是相对地址,我晕,教程里这里是按正则提取的,搜狐女性栏目是绝对地址,如果这里也照搬的话,以我的正则水平,只能提取出相对地址来,没办法了, 采取视觉提取吧,这样可以转化为绝对地址,根据实际情况,做好筛选工作
恩,测试一下下,成功了也,鼓掌5分钟,
好了,一步步的保存吧,然后存为模块:
通过设立任务,可以看到文章库里已经抓取到了:
继续为自己鼓掌5分钟·~
通 过在A5侠客软件站www.xiake5.com中的几天的教程,对侠客站群软件学 习,使我深深地体会到了侠客的威力,霎时有了神兵利器在手,天下我有的感觉,自我陶醉中,尽管初次制作的抓取还有不完善的地方,还需要替换 库的美化,但是从零开始的基础,让我也有了小成功的感觉,呵呵,感谢侠客,让我有了可以多站点操作的机会,单位里的事情也越来越多, 房子还得装修,不知道自己的教程帖子还能贴几篇,上帝保佑吧。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!