12/1
2014
这两天又开始折腾采集。上一次采集估计都五个月之前的了,当时摸索着能用了,现在又忘光了,摸索半天摸索出来了,记录一下。
1.获取列表页网址
2.测试,看能否获取到列表页面里面的文章网址。如果显示获取失败就回去改吧。
3.文章页设置
dedecms坑爹的是:作者、来源、发表时间、内容的采集,其规则框是和上面对应的,但是并没有任何文字说明,我试了好多次才摸清。
注意标题区域的代码,匹配的html代码如果有断行,要从源代码复制,不要自己断行或者删除换行。
过滤规则可以参考这里,一行一个规则
4.测试
注意采集的项目是否对应,例如别把正文采集到标题里面去了
接下来就没什么可说的了,只管开始采集和导出了。
采集完成后查看采集到的内容,有时候标题是网址形式,这个也是正常的,然后导出
导出之后需要点击文章进去看看对不对,不对的话就删除这些内容去修改采集配置吧。