建站之路028火车头采集器抓取网页文章
1、百度搜索下载火车头采集器,然后运行LocoyPlatform.exe程序
2、打开火车头采集器之后新建一个分组,然后点击分组再创建新任务
3、 重点来了,根据软件提示一步步操作,首先我们要设置采集网址规则,小范在百度经验写了些文章,试试能否提取下来,打开一篇经验,复制链接
4、在火车头采集器中添加采集地址,然后点击“添加”按钮加入采集列表
5、在多级网址获取处点击“添加”,自动分析网址中的子链接,同时我们为网址获取提供提取范围
6、回到经验页面,在内容选择内容第一段,然后再源代码中找到相应的位置
7、找到文章第一段内容所在位置,在选取文字前的代码,这里小范选的是<meta name="keywords",将这段代码在搜索一遍,看下是否是独一无二的,可以的话就加入火车头采集器中
8、同样的原理将文章的尾部也提取一段文字进行查找,并提取一段唯一的结束代码,小范提取的是<span class="prompt-ico">
9、设置好之后保存,我们来测试下网址采集,看看是不是采集到了当前网址及其子连接
10、接着我们进入第二步,设置采集内容规则,这里我尺攵跋赈们主要是来设置提取的规则,告诉火车头采集器从哪里开始采集,方法和之前的采集范围设定是一样的,只是这里分的比较细。标题、内容采、作者、时间等等,可以分开来提取
11、标题采集,这里我们选用“前后截取”方式进行采集,直接用<title >挢旗扦渌;标签提取时标题会添加_百度经验,所以我们在下面再添加个替换,把_百度经验替换成空字符即可。
12、内容提取,选择正文首尾内容然后再源代码中查找对应的标签,然后我们来测试下采集效果,这是我们采集到的内容,可以看出来采集到的是源代码中的内容。
13、这里我们继续第三步,将文件保存到本地Word中试试,完成配置后保存设置即可
14、回到主页,我们开始执行采集任务,看看采集效果如何
15、这样就可以提取到网站的内容了,但是提取比较粗糙,格式都乱了,而且有很多多于的代码,所以要想完整准确的提取正文,还需要多下功夫,慢慢调整规则。