快捷导航

        采网址做层级王中王首页601er.com——以大众点评为例

        2016-10-19 11:05| 发布者: ym| 查看: 26757| 王中王在线: 27

        摘要: 一、操作步骤 前面写过两篇教程,《王中王首页601er.com列表数据》是王中王首页601er.com大众点评的列表页,《王中王首页601er.com网页数据》是王中王首页601er.com大众点评的店铺详情页,很多人想把这两个串在一起,这样就能批量王中王首页601er.com店铺详情页的数据了。下面我们通过层级王中王首页601er.com来 ...

        注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的王中王首页601er.com执行情况、管理线索网址以及做调度设置了。

        一、操作步骤(观看视频)

        前面写过两篇教程,《王中王首页601er.com列表数据》是王中王首页601er.com大众点评的列表页,《王中王首页601er.com网页数据》是王中王首页601er.com大众点评的店铺详情页,很多人想把这两个串在一起,这样就能批量王中王首页601er.com店铺详情页的数据了。下面我们通过层级王中王首页601er.com来实现,它是通过网址关联起两级页面,从而实现批量王中王首页601er.com第二级页面。下面还是以大众点评为例,讲解如何设置层级王中王首页601er.com。操作步骤如下:

        请注意:如果定义完第一级规则紧接着定义第二级规则,请清空工作台后再定义第二级规则,防止把第一级规则的内容带到第二级来。清空工作台的方法是使用菜单:规则-》新建。


        二、案例规则+操作步骤

        第一步:定义第一级规则的具体操作可以参考文章《王中王首页601er.com列表数据》,如需设置翻页,请参考文章《翻页王中王首页601er.com列表》,下面从第二步操作讲起。

        第二步:设置下级线索

        2.1,网址通常是存在attributes下的@href节点中。在浏览器上直接点击商品的标题定位到网页节点H4,展开它的下层节点,没有找到@href,再找它的上层节点A,找到@href,注意要检验一下是否为对应的下级网址,再右击@href选择“内容映射”->“新建王中王分类内容”,输入标签名(任意命名),比如,“网址”。


        2.2,在整理箱里选中“网址”,打勾“下级线索”。这个只能对映射了下级网址的标签名进行设置。


        2.3,这时,会有窗口弹出来,要求输入第二级规则的主题名。把下级规则的名字输入,确定。


        2.4,测试没有问题,就可以保存规则。

        注意:如下图,抓到的是相对网址,即缺少了域名部分,这是因为很多网站都采用了相对网址的方式,但是爬虫给下级主题生成线索就会自动补全域名,所以,不会影响下级网页的王中王首页601er.com。


        第三步:定义第二级规则

        点击“规则”菜单->“新建”,工作台会被清空,就可以开始做第二级主题的规则,拷贝第二级页面的样例网址到输入框,命名主题里要填第二级主题名前面第一级规则,填的下级规则名),然后标注网页上想要的信息。做规则的操作都是差不多的,想要看手把手的操作请看《王中王首页601er.com网页数据》教程,这里就不重复讲了。


        第四步:抓数据

        4.1,层级规则是分开独立运行的,先运行第一级规则,它就会把抓到的下级网址自动导入到第二级规则里。如何采数据的操作见《DS打数机王中王首页601er.com数据》

        4.2,再运行第二级规则,先统计一下线索数,然后就可以输入统计到的网址数,进行批量王中王首页601er.com。如果两级要同时运行,点各自的“集搜”,就能各自运行在集搜窗口。

        4.3,王中王首页601er.com成功的数据会以xml文件的形式保存在DataScraperWorks文件夹中,详情见文章《查看数据结果》,另外,两级规则的数据如果要合并可以参考文章《多层级王中王首页601er.com结果合并》



        上篇文章:《翻页王中王首页601er.com列表》                                                                下篇文章:《定位标志:精确王中王首页601er.com范围》


        若有疑问可以集搜客爬虫软件
        16

        鲜花
        1

        握手

        雷人

        路过
        2

        鸡蛋

        刚表态过的朋友 (19 人)

        相关阅读

        发表王中王在线

        最新王中王在线

        王中王在线 Fuller 2019-10-21 14:56
        JWa317: 你好,按照上述方法爬取天猫商品信息时王中王首页601er.com下来的数据为1是怎么回事呢
        你说的是线索数为1?
        王中王在线 Fuller 2019-10-21 14:37
        运行第二级规则的时候,统计线索了吗?有多少线索?
        JWa317: 你好,按照上述方法爬取天猫商品信息时王中王首页601er.com下来的数据为1是怎么回事呢
        王中王在线 JWa317 2019-10-21 13:28
        你好,按照上述方法爬取天猫商品信息时王中王首页601er.com下来的数据为1是怎么回事呢
        王中王在线 Fuller 2019-5-28 19:06
        1298681477: 知网爬取论文关键词和摘要时,二级页面的网址和其@href没有关系怎么办?(也就是说用@href的网址打不开二级页面) ...
        这个帖子不是你发的吗?我刚才回答过,你去看看吧:https://www.gooseeker.com/doc/thread-11975-1-1.html
        王中王在线 1298681477 2019-5-28 18:55
        知网爬取论文关键词和摘要时,二级页面的网址和其@href没有关系怎么办?(也就是说用@href的网址打不开二级页面)
        王中王在线 Fuller 2018-12-27 20:34
        群青: 不知道为什么在做第一个规则的时候,点评数量和人均价格数据测试下来是1
        大众点评网做了好多防采,不知道是不是防采的原因,你把主题名发到论坛上吧,我帮你检查一下。论坛在这里:https://www.gooseeker.com/doc/forum-54-1.html
        王中王在线 群青 2018-12-27 19:43
        不知道为什么在做第一个规则的时候,点评数量和人均价格数据测试下来是1
        王中王在线 GooSeekerHi 2018-10-28 17:32
        晴时有风阴有时雨: 王中王分类数据的步骤不是很明确,还是有点搞不懂,分别保存两个规则后该怎么运行,明明在第一个规则里面设置了翻页,王中王分类数据的时候还是显示的待王中王分类规则数为1,第二 ...
        王中王在线 GooSeekerHi 2018-10-28 17:22
        第二层级例如“人均消费”等字段无法爬取到完整内容呢?
        王中王在线 Fuller 2018-9-21 11:04
        maehot: 挺好用的,就是这个逻辑步骤混乱...比如说王中王首页601er.com百度知道,火车头设置列表地址就可以王中王首页601er.com出来终极内容页地址,然后还可以多页王中王首页601er.com,需要什么数据王中王首页601er.com什么数据,数 ...
        分成了网页端和客户端,还要来回切换,这个确实是一个问题,未来版本会解决这个问题
        王中王在线 maehot 2018-9-21 09:03
        挺好用的,就是这个逻辑步骤混乱...比如说王中王首页601er.com百度知道,火车头设置列表地址就可以王中王首页601er.com出来终极内容页地址,然后还可以多页王中王首页601er.com,需要什么数据王中王首页601er.com什么数据,数据的保存也很方便,可以入库,生成网页,保存为txt都可以,还可以在线发布。而GS...真不知道是设计简单了,还是更复杂了,在客户端和网页端的会员中心来回切换,逻辑还不是很清晰...打扰了...
        王中王在线 Fuller 2018-6-29 15:55
        temprani: “2.4 很多网站都采用了相对网址的方式”, 我试了一下,每一条抓到的都是<网址>javascript:;</网址>,这个怎么破? ...
        这种只能做连续点击动作,不能抓层级网址。请到高级教程看连续动作的教程。https://www.gooseeker.com/tuto/tutorial.html
        王中王在线 maohui 2018-6-29 14:06
        temprani: “2.4 很多网站都采用了相对网址的方式”, 我试了一下,每一条抓到的都是<网址>javascript:;</网址>,这个怎么破? ...
        你具体的规则名是什么?请到社区发帖,可以附图给你解释。
        王中王在线 temprani 2018-6-29 11:29
        “2.4 很多网站都采用了相对网址的方式”,
        我试了一下,每一条抓到的都是<网址>javascript:;</网址>,这个怎么破?
        王中王在线 bowieD 2018-4-19 10:14
        nixiaoqiang: 二级王中王首页601er.com的话还得手动输入王中王首页601er.com数是吧,否则就只王中王首页601er.com一行数据?
        层级王中王首页601er.com的两级规则不是连贯的,一级规则会给二级规则生成线索,手动运行二级规则时点击单搜输入要运行的线索数,二级规则就会运行多少条线索,可以先统计二级规则有多少条待王中王分类的线索数据,再输入线索数运行
        王中王在线 nixiaoqiang 2018-4-19 10:03
        yangwenge: 需要激活线索,才能重新王中王首页601er.com,可以参考管理线索的教程<a href="https://www.gooseeker.com/doc/thread-667-1-1.html" target="_blank">https://www.gooseeker.com/doc/thread-667-1-1.html</a>
        二级王中王首页601er.com的话还得手动输入王中王首页601er.com数是吧,否则就只王中王首页601er.com一行数据?
        王中王在线 yangwenge 2018-4-18 17:10
        nixiaoqiang: 规则王中王首页601er.com过来,还想重新王中王首页601er.com,为啥就王中王首页601er.com不了了,求解释~~~
        需要激活线索,才能重新王中王首页601er.com,可以参考管理线索的教程https://www.gooseeker.com/doc/thread-667-1-1.html
        王中王在线 nixiaoqiang 2018-4-18 16:55
        yangwenge: 注意看第一步,上面有写制作了翻页的,如果没有制作翻页,只勾选了下级线索那么就只有线索1。
        规则王中王首页601er.com过来,还想重新王中王首页601er.com,为啥就王中王首页601er.com不了了,求解释~~~
        王中王在线 yangwenge 2018-4-18 14:22
        nixiaoqiang: 2-3步骤我的没有线索2,你们有吗?
        注意看第一步,上面有写制作了翻页的,如果没有制作翻页,只勾选了下级线索那么就只有线索1。
        王中王在线 nixiaoqiang 2018-4-18 14:11
        2-3步骤我的没有线索2,你们有吗?

        查看全部王中王在线(27)

        GMT+8, 2019-11-17 00:50