phpcms v9自带采集模块功能体验
优采云 发布时间: 2020-08-26 14:35phpcms v9自带采集模块功能体验
Phpcms网站管理系统目前最新版本为Phpcms v9,作为国外主流CMS系统之一,目前已有数万网站的应用规模。那么其自带的采集模块功能怎样呢,来瞧瞧吧。
Phpcms v9默认外置有文章、图片、下载3个内容模型,先来看最普通的文章采集。以采集新浪互联网频道,国内滚动新闻栏目为例
1、进入后台,内容——内容发布管理——采集管理——添加采集点。(不同于Phpcms以往版本,采集管理在模块菜单内)
2、网址规则。采集项目名随意填,采集页面编码默认GBK,具体采集页面的时侯可以通过查看其网页源代码。
网址采集,没有大的特色,通过查看所要采集页面的网址规则填写。分析目标页面得出是序列网址,且所要获取内容的网址都在和两个标签之间。无其他干扰链接,所以就无需定义网址中必须收录和不得收录的字符了。如果目标网站配置了Base,那么也要配置好。
网址采集配置结束,但是假如目标网站列表页用js实现上下页,或者所要获取网址深度超过2级,用此自带采集就很难实现了。
3、内容规则。phpcms是用“[内容]”作为键值,然后设置好开始结束的字符,再过滤不要的代码来实现内容的采集。分析目标页的title标签比较有规律,可以直接如图设置。
过滤格式为“要过滤的内容[|]替换值”,如果是删掉的话就替换值留空。过滤规则是支持正则表达式,系统自带了几种比较常见的标签过滤正则,要比较灵活过滤的话对于菜鸟来说有点难度,所以菜鸟须要先熟悉下正则表达式。
作者规则,来源规则,时间规则根据规则去获取。小编尝试了一下固定值发觉未能实现,就是把某一标签设为固定值,如把“来源”设定为,可是采集结果来源标签为空。
内容规则,填好开始和结束标签,我们测试的目标页比较干净,所以只需过滤掉上面的超链接和一些无用标签即可。
内容分页规则,如果内容页有分页必须填写,此处文章都没有分页,小编会在旁边的图片采集来介绍这个标签。
4、自定义规则,除了系统默认的几个标签外,你还可以自定义各类标签,规则是一样的,只是有一点要注意:规则英文名一定要填写,否则自定义标签未能保存。
5、高级配置,此次可以设置下载图片、图片水印、内容分页和导出次序。其中注意,如果须要水印记得更改好自己网站的水印图片,水印储存路径:statics/images/water
6、规则设置好了,提交回到采集管理首页,可以先通过测试来瞧瞧各标签是否确切。
7、发布内容。如果都确切,先点击采集网址,会手动采集文章地址,并过滤重复url。然后会弹出采集网址完成的消息,点击其中的“采集文章内容”
采集自动进行,并显示采集进度。
采集完成后手动回到采集管理首页,点击内容发布,进入到已采集文章列表,勾选要发布的文章,或者直接点击顶部的全部导出。
进入到发布方案选择界面,新建发布方案,选择一个发布栏目,本测试选择的是文章模块的栏目“国内”,在方案新建页面可以设置手动提取摘要、自动提取缩略 图、导入文章状态、标签与数据库对应关系。其中,导入文章状态只有一个“发布”,如果站长须要状态为待初审,要先更改对应栏目的工作流为一级初审。
标签与数据库对应关系中,把采集标签和数据库数组一一对应,如果有自定义标签找不到对应数组,需要更改模型降低数组,然后通过更改模板来显示,对技术要求比较高,不适宜菜鸟。另外系统自带几个处理函数,也很实用的。
发布方案设置完成,自动开始导出刚刚选择的文章,并且下一次导出时就无需再建方案了,直接选择已建好的方案即可。
文章采集、发布完成。看看疗效:
后台内容管理页
内容页
下面我们来瞧瞧图片采集
图片采集
phpcms v9自带图片模型,对图片处理也有个组图模式,方便一些站长做图片网站或者设置图片展示方法。下面来体验下用自带采集程序来采集图片,以采集页面的图片为例:
网站获取规则以及内容获取规则等都和文章采集一样,最重要的一点,phpcms v9的图片采集不能只采集图片地址,而是应当采集整个