淘客运营

网钛文章管理系统采集教程

时间:2022-11-08 11:56:04   作者:admin   来源:互联网   阅读:16454   评论:175
内容摘要:图文教程: 其实采集可以这么理解,定义头和尾,除了在截取链接不需要检测,在其它地方你定义的头和尾,在同/个html表里不能有相同的,为什么不能有相同的呢?是因为采集的每一步(除了截取链接外)都是根据你所定义的头和尾来截取页面内容的。所以你在定义头和尾不仅不能有相同的,还要尽可能地......


图文教程:

    其实采集可以这么理解,定义头和尾,除了在截取链接不需要检测,在其它地方你定义的头和尾,在同/个html表里不能有相同的,为什么不能有相同的呢?是因为采集的每一步(除了截取链接外)都是根据你所定义的头和尾来截取页面内容的。所以你在定义头和尾不仅不能有相同的,还要尽可能地把不需要的内容排除开。如果你理解了这个定义头和尾,基本上对于简单的页面是能采集的。/面我以一个实例来说明一下:


一、设置采集模块
    在后台点击【采集管理】,出现的是【新增采集模块】的内容,主要设置下载的大小和超时时间,以及给采集项目分类,便于查询,目前作用不是很大。
 


 


二、设置采集规则
1、点击【新增采集项目】,进入采集项目的第一步,我们以采集SOHU的国内IT信息为例,如图设置:

   1)项目名称:给采集项目命名
   2)所属模块:采集数据入库后,放入哪个栏目
   3)目标页面编码:国内的网站选择GB2312,国外网站选择UTF-8,台湾的繁体字网站选择BIG5;
   4)采集网址URL:就是要采集的列表页面,这一步很关键,这一步关系到你能否采集完所有内容。一般你进入采集页面先判断一下是不是有多页,如果有多页你进入第二页和第一页是不是有规律变化,比如是:xxxx_1.htm,xxx_2.htm,特别注意数字,如果第一页开始就有_id的规律,那就把第一页作为列表网址,如果第一页与第二页没相关规律,而是从第二页开始才能这样的规律,那将第二页作为列表网址,第一页放到一边,等所有数据采集完了,再来采集单独页面,反正以后也只采集第一页,为啥?因为一般更新的都在第一页。
   5)分页/多页采集设置:若只采集一个页面,选择“不作设置”,采集多页面,可选择其他3项;
   6)采集属性:“立即入库”指一采集就在前台显示,建议此项不要选择,没选择此项,采集结果将进入【采集结果】页面, 后再入库;“保存远程图片”指把图片保存到本地;“倒序采集”指采集结果的排序顺序,打勾它,采集记录顺序和采集列表页一致。
   7)状态:指入库后文章的状态,即文章在前台是显示,还是隐藏;
   8)其它设置项 是按字面的意思,一般默认设置就行,就不详细说了
 


2、列表链接设置
   1)打开采集页面,如http://it.sohu.com/itguonei.shtml
 

鼠标右击页面,弹出窗口,选择【查看源代码(V)】,在源代码中找到所要采集的列表,如下图, 
 

 

找出“列表开始代码”、“列表结束代码”、“链接开始代码”、“链接结束代码”,最后两项一般默认就行,然后点击“下一步”。
 


 

3、正文内容设置

    打开列表页中的一个内容页,如http://it.sohu.com/20101104/n277154569.shtml,鼠标右击页面,弹出窗口,选择【查看源代码(V)】,在源代码中找到所要采集的“标题开始代码”、“标题结束代码”、“正文开始代码”、“正文结束代码”,其他几个设置项视需要而定,可默认,然后点击“下一步”。
 


 

4、正文内容采集效果

 
      点击“点击查看正文内容采集效果”,出现如下页面,那采集结果正常。
 

 
点击“完成”后,会跳转到【采集项目管理】页面

    注:若采集结果有问题,修改“列表链接设置”、“正文内容设置”中的起始、终止代码,多试几次,就可得出所要的内容了,有的页面可能无法采集,不同所有的页面都可以采集的。


三、采集项目管理

    现在就可以开始采集了,点击右边的采集按钮,进行单个采集,或者勾选几个要采集的项目,点击“批量采集”按钮。建议上面设置项中不要勾选“立即入库”,担心采集有异常,这样采集结束后,采集内容将在【采集结果】页面中显示,检查没问题后,再点击入库,最后到前台检查下数据,这样整个采集过程就完成了。
 

 


相关评论

声明:本网站属于个人非盈利性网站,部分信息从互联网精心收集整理,如有不真实、不准确或侵权的,请及时联系删除为盼!邮箱:568687274@qq.com

  黔ICP备20000475号-1 Copyright © 2014-2022 奇驴网
Powered by OTCMS V6.63