dxc采集怎么用
1、安装完成后,自行注册,进入主页面!如下图,选择第二条规则,点击编辑,进入规则编辑。编辑页面,主要需要设置:基本设置、网址设置、数据获取和发布设置。
2、基本设置:主要修改名称,以便在主页区分,知道本条采集规则是干嘛的,方便后续使用!
3、网址豹肉钕舞设置:1) 如图中网址,这是qq新闻的新闻页面,其中(*)对应的值就是“从 2 到 2 步长 1"中的数字2若是滤鲇魍童设置的“从 2 到 4 步长 1”,则代表 2 , 3 , 4,以此类推;2)列表地址 获取规则 选取dom: div.newslist ul li a对应的页面结构如图2展示。
4、数据获取:需要设置标题和内容,同样选择dom,在html 就够中找到对应的dom结构。ps: 为什么是标题和内容两项,主要是根据自己的需求定,若是还需要“作者“,则可以点击增加,在新页面编辑(图3),dom填写: div.a_Info span.a_author
5、发布豹肉钕舞设置:此处有三种方式,若选择数据库需要,在下载DXC时,在下载官方提供的对应的开源接口。此处使用的 '本地存储泌驾台佐39; 的方式演示,选择完成后,注意点击右上角“保存规则”,关闭窗口,回到主页,点击采集,就是采集到对应数据。然后可以导出EXCEL,在进行一下人工筛选,再做下一步操作!
声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
阅读量:69
阅读量:96
阅读量:27
阅读量:73
阅读量:81