如何设置织梦dedecms系统后台的采集规则和替换规则?
- 行业动态
- 2024-10-03
- 1
织梦dedecms系统后台的采集规则和替换规则是用于自动抓取和处理网站内容的重要功能,帮助用户高效管理和维护网站。
织梦dedecms系统后台采集规则与替换规则
采集规则设置
1、列表采集:
打开织梦后台,点击“采集”→“采集节点管理”→“增加新节点”。
选择要采集的内容类型(如普通文章),然后确定。
进入采集设置页面,填写节点名称。
打开目标网站的列表页,查看源文件找到页面编码和列表网址的规律。
填写页面的基本信息和列表网址获取规则,http://www.example.com/list_(*).html。
根据需要填写文章网址匹配规则,确保能够正确匹配到文章链接。
2、内容页采集:
对区域网址进行筛选,使用正则表达式匹配必须包含的内容(如.html)和不能包含的内容。
保存设置后预览,确保获取的文章网址正确。
填写文章内容的开始和结束标志,找到文章标题、作者等信息的匹配规则。
3、过滤与替换规则:
去除超链接:{dede:trim replace=''}<a([^>]*)>{/dede:trim},{dede:trim replace=''}</a>{/dede:trim}。
过滤JS调用广告:{dede:trim replace=''}<script([^>]*)>(.*)</script>{/dede:trim}。
过滤div标签:{dede:trim replace=''}<div([^.]*)>{/dede:trim},{dede:trim replace=''}</div>{/dede:trim}。
过滤摘要和关键字:{dede:trim replace=''}{/dede:trim}。
简单替换:{dede:trim replace='替换后的词语'}要替换的词语{/dede:trim}。
4、内容页分页采集:
在“内容分页导航所在的区域匹配规则”中填写分页规则,如<ul >[内容]</ul>。
选择“全部列出的分页列表”或“上下页形式或不完整的分页列表”,根据网站结构进行调整。
5、指定作者、来源:
使用{dede:item field='writer' value='小军' isunit='' isdown=''}指定作者。
使用{dede:item field='source' value='军事网' isunit='' isdown=''}指定来源。
替换规则设置
1、去除超链接:
{dede:trim replace=''}<a([^>]*)>{/dede:trim}
{dede:trim replace=''}</a>{/dede:trim}
如果需要去除链接文本,可以使用:{dede:trim replace=''}<a([^>]*)>(.*)</a>{/dede:trim}
2、过滤JS调用广告:
{dede:trim replace=''}<script([^>]*)>(.*)</script>{/dede:trim}
3、过滤div标签:
{dede:trim replace=''}<div([^.]*)>{/dede:trim}
{dede:trim replace=''}</div>{/dede:trim}
如果需要去除DIV及其内容,可以使用:{dede:trim replace=""}<div([^>]*)>(.*)</div>{/dede:trim}
4、其它过滤规则:
{dede:trim replace=''}<!(.*)>{/dede:trim}(过滤HTML注释)
{dede:trim replace=''}<table([^>]*)>(.*)</table>{/dede:trim}(过滤表格)
{dede:trim replace=''}<style([^>]*)>(.*)</style>{/dede:trim}(过滤样式)
{dede:trim replace=''}<img([^>]*)>{/dede:trim}(过滤图片)
{dede:trim replace=''}<object([^>]*)>(.*)</object>{/dede:trim}(过滤对象)
{dede:trim replace=''}<embed([^>]*)>{/dede:trim}(过滤嵌入内容)
{dede:trim replace=''}<iframe([^>]*)>(.*)</iframe>{/dede:trim}(过滤iframe)
{dede:trim replace=''}<param([^>]*)>(.*)</param>{/dede:trim}(过滤参数)
5、简单替换:
{dede:trim replace='替换后的词语'}要替换的词语{/dede:trim}
常见问题解答
1、如何去除文章中的所有超链接?
解答:可以使用以下过滤规则去除所有超链接及其文本:{dede:trim replace=''}<a([^>]*)>(.*)</a>{/dede:trim}。
2、如何过滤掉文章中的图片?
解答:可以使用以下过滤规则去除所有图片:{dede:trim replace=''}<img([^>]*)>{/dede:trim}。
织梦DedeCMS系统后台采集规则与替换规则详解
采集规则
采集规则是织梦DedeCMS系统中用于定义如何从外部网站采集内容的配置,以下是一些详细的采集规则设置:
1. 采集源设置
源名称:为采集源设定一个名称,方便管理。
网址:输入需要采集的网站地址。
编码:选择采集内容的编码格式,如UTF8、GBK等。
2. 采集范围设置
采集栏目:选择要采集内容的栏目。
采集类型:选择采集文章、图片、下载等内容类型。
采集页数:设置采集页数,如采集前10页。
3. 内容采集规则
的采集规则,如使用正则表达式提取。
内容链接:设置文章链接的采集规则。
内容正文:设置正文的采集规则,包括正文内容的提取、去除广告等。
内容图片:设置图片的采集规则,包括提取图片链接和保存图片。
4. 其他设置
延迟时间:设置采集任务的执行间隔时间。
代理设置:如果需要,可以设置代理服务器以绕过IP限制。
替换规则
替换规则用于在采集过程中对内容进行格式化处理,以下是一些常见的替换规则设置:
1. 标题替换
原文本:输入需要替换的标题文本。
替换为:输入替换后的标题文本。
2. 内容替换
原文本:输入需要替换的内容文本。
替换为:输入替换后的内容文本。
3. 图片替换
原文本:输入需要替换的图片链接文本。
替换为:输入替换后的图片链接文本。
4. 其他设置
替换模式:选择替换模式,如全部替换、部分替换等。
替换顺序:设置替换规则的执行顺序。
排版示例
以下是一个简单的排版示例,以帮助您更好地理解上述设置:
采集规则设置: 源名称:example_com 网址:http://www.example.com 编码:UTF8 采集栏目:新闻 采集类型:文章 采集页数:10 内容采集规则: 提取标题中的第一个《》内的内容 正文:提取正文中的第一个<p>标签内的内容 图片:提取正文中的第一个<img>标签内的src属性值 替换规则设置: 标题替换: 原文本:《新闻》 替换为:《资讯》 内容替换: 原文本:[广告] 替换为:[广告已过滤] 图片替换: 原文本:http://www.example.com/image.jpg 替换为:http://www.mysite.com/images/image.jpg
上述设置仅为示例,实际操作时需要根据具体情况进行调整。
本站发布或转载的文章及图片均来自网络,其原创性以及文中表达的观点和判断不代表本站,有问题联系侵删!
本文链接:http://www.xixizhuji.com/fuzhu/101024.html