saber 酱的抱枕

Fly me to the moon

12/1
2014
学习

dedecms采集教程

这两天又开始折腾采集。上一次采集估计都五个月之前的了,当时摸索着能用了,现在又忘光了,摸索半天摸索出来了,记录一下。

1.获取列表页网址

2.测试,看能否获取到列表页面里面的文章网址。如果显示获取失败就回去改吧。

3.文章页设置

dedecms坑爹的是:作者、来源、发表时间、内容的采集,其规则框是和上面对应的,但是并没有任何文字说明,我试了好多次才摸清。

注意标题区域的代码,匹配的html代码如果有断行,要从源代码复制,不要自己断行或者删除换行。

过滤规则可以参考这里,一行一个规则

4.测试

注意采集的项目是否对应,例如别把正文采集到标题里面去了

接下来就没什么可说的了,只管开始采集和导出了。

采集完成后查看采集到的内容,有时候标题是网址形式,这个也是正常的,然后导出

导出之后需要点击文章进去看看对不对,不对的话就删除这些内容去修改采集配置吧。

dedecms采集教程