怎么采集淘宝商品评论数据(用爬虫)
1、步骤一:采集结果预览
2、步骤二:新建采集任务1、复制网页地址
3、新建流程图模式采集任务
4、步骤三:配置采集规则1、使用预登录功能登录网站由于网站需要登录才能采集到更多的数据,因此我们需要使用预登录功能。
5、输入关键词并进行搜索我们需要采集到具体关键字下的商品数据,我们选中输入框,在跳转出的提示框内输入文字“外套”。
6、然后点击搜索,在提示框内选择“点击此元素”按钮。
7、设置搜索列表页字段在搜索结果页上选中宝贝,然后在提示框内选择“提取全部元素”按钮,去设置列表页上的字段
8、然后对提取字段进行设置
9、字段设置效果如下:
10、设置列表页下一页循环在页面上选中下一页,在操作提示框内点击“循环下一页”按钮。
11、设置详情殳陌抻泥页提取数据字段由于我们需要采集每个宝贝具体的评论,在列表页上的数据字段设置完毕之后,我们需要点击进入详情页去采集字段,在操作提示框内选中“依次点击元素”按钮。
12、在详情页上,我们需要采集的数据,然后在提示框内点击“提取该元素”按钮。
13、字段采集效果如下:
14、点击评论进行字段提取并设置循环详情页上的字段采集完毕后,我们需要采集宝贝评论,我们点击评论按钮,在操作提示框内选择“点击该元素”按钮。
15、然后点击网页上的评论数据,在提示框内选择“提取全部元素”去提取评论数据。
16、字段设置效果如下:
17、单页的评论设置完毕之后,我们需要设置下一页的循环,我们点击下一页然后在提示框内选择“循环下一页”按钮。
18、下一页的循环设置完毕之后,我们可以看到出现了两个循环嵌套,由于循环之间的逻辑是包含与被包含,不是并列的关系,因此我们需要把评论的这个循环拖动到原先的循环内,拖动过程如下动图所示:
19、整体组件结果如下所示:
20、步骤四:设置并启动采集任务
21、步骤五:导出并查看数据