建站之路028火车头采集器抓取网页文章

2025-04-13 00:54:09

1、百度搜索下载火车头采集器,然后运行LocoyPlatform.exe程序

建站之路028火车头采集器抓取网页文章

2、打开火车头采集器之后新建一个分组,然后点击分组再创建新任务

建站之路028火车头采集器抓取网页文章
建站之路028火车头采集器抓取网页文章

3、 重点来了,根据软件提示一步步操作,首先我们要设置采集网址规则,小范在百度经验写了些文章,试试能否提取下来,打开一篇经验,复制链接

建站之路028火车头采集器抓取网页文章

4、在火车头采集器中添加采集地址,然后点击“添加”按钮加入采集列表

建站之路028火车头采集器抓取网页文章

5、在多级网址获取处点击“添加”,自动分析网址中的子链接,同时我们为网址获取提供提取范围

建站之路028火车头采集器抓取网页文章

6、回到经验页面,在内容选择内容第一段,然后再源代码中找到相应的位置

建站之路028火车头采集器抓取网页文章

7、找到文章第一段内容所在位置,在选取文字前的代码,这里小范选的是<meta name="keywords",将这段代码在搜索一遍,看下是否是独一无二的,可以的话就加入火车头采集器中

建站之路028火车头采集器抓取网页文章

8、同样的原理将文章的尾部也提取一段文字进行查找,并提取一段唯一的结束代码,小范提取的是<span class="prompt-ico">

建站之路028火车头采集器抓取网页文章

9、设置好之后保存,我们来测试下网址采集,看看是不是采集到了当前网址及其子连接

建站之路028火车头采集器抓取网页文章

10、接着我们进入第二步,设置采集内容规则,这里我尺攵跋赈们主要是来设置提取的规则,告诉火车头采集器从哪里开始采集,方法和之前的采集范围设定是一样的,只是这里分的比较细。标题、内容采、作者、时间等等,可以分开来提取

建站之路028火车头采集器抓取网页文章

11、标题采集,这里我们选用“前后截取”方式进行采集,直接用<title >挢旗扦渌;标签提取时标题会添加_百度经验,所以我们在下面再添加个替换,把_百度经验替换成空字符即可。

建站之路028火车头采集器抓取网页文章

12、内容提取,选择正文首尾内容然后再源代码中查找对应的标签,然后我们来测试下采集效果,这是我们采集到的内容,可以看出来采集到的是源代码中的内容。

建站之路028火车头采集器抓取网页文章

13、这里我们继续第三步,将文件保存到本地Word中试试,完成配置后保存设置即可

建站之路028火车头采集器抓取网页文章

14、回到主页,我们开始执行采集任务,看看采集效果如何

建站之路028火车头采集器抓取网页文章

15、这样就可以提取到网站的内容了,但是提取比较粗糙,格式都乱了,而且有很多多于的代码,所以要想完整准确的提取正文,还需要多下功夫,慢慢调整规则。

声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
猜你喜欢