如何实现织梦dedecms的高效内容采集与过滤?
- 行业动态
- 2024-10-08
- 1
在织梦dedecms系统中,采集过滤万能代码主要通过使用dede:trim标签来实现,以下是一些常用的过滤和替换操作:
1、去除超链接:这是最常见的过滤需求之一,可以通过以下代码实现。
过滤代码 | 说明 |
{dede:trim replace=”}<a([^>]*)>(.*)</a>{/dede:trim} | 去除超链接及其内容 |
{dede:trim replace=”}<a([^>]*)>{/dede:trim} | 去除超链接开头部分 |
{dede:trim replace=”}</a>{/dede:trim} | 去除超链接结尾部分 |
2、过滤JS调用广告:为了过滤掉如Google广告等通过JS调用的广告,可以使用以下代码。
过滤代码 | 说明 |
{dede:trim replace=”}<script([^>]*)>(.*)</script>{/dede:trim} | 过滤脚本标签及其内容 |
3、过滤div标签:如果未过滤干净div标签,可能导致发布的文章版面错位,需要对div标签进行过滤。
过滤代码 | 说明 |
{dede:trim replace=”}<div([^.]*)>{/dede:trim} | 去除div标签开头部分 |
{dede:trim replace=”}</div>{/dede:trim} | 去除div标签结尾部分 |
{dede:trim replace=”}<div 选择器>(.*)</div>{/dede:trim} | 去除带有选择器的div标签及其内容 |
4、其他常用过滤规则:除了上述几种常见的过滤需求外,还有其他一些常用的过滤规则,如去除归纳、字体标签等。
{/dede:trim}
{/dede:trim}
{/dede:trim}
过滤代码 | 说明 | ||
{dede:trim} | |||
去除归纳tbody标签 | |||
{dede:trim} | |||
去除归纳tbody结束标签 | |||
{dede:trim}
{/dede:trim} |
去除归纳table结束标签 | ||
{dede:trim} | |||
去除归纳行tr标签 | |||
{dede:trim} | |||
去除归纳行tr结束标签 | |||
{dede:trim} | {/dede:trim} | 去除归纳单元格td标签 | |
{dede:trim} | 去除归纳单元格td结束标签 | ||
{dede:trim}{/dede:trim} | 去除字体设置font标签 | ||
{dede:trim}{/dede:trim} | 去除字体设置font结束标签 |
以下是关于织梦dedecms采集过滤的常见问题解答:
1、如何去除文章中的所有超链接?
答案:要去除文章中的所有超链接,可以使用以下代码:
“`html
{dede:trim replace=”}<a([^>]*)>(.*)</a>{/dede:trim}
“`
这段代码会匹配并去除所有的超链接及其内容。
2、如何过滤掉文章中的JS广告代码?
答案:要过滤掉文章中的JS广告代码,可以使用以下代码:
“`html
{dede:trim replace=”}<script([^>]*)>(.*)</script>{/dede:trim}
“`
这段代码会匹配并去除所有的<script>
标签及其内容,从而过滤掉JS广告代码。
通过合理运用这些过滤代码,可以有效地去除织梦dedecms采集内容中的不需要的元素,提高内容的质量和可读性,也需要注意根据实际情况调整过滤规则,以达到最佳效果。
参数 | 说明 | 示例代码 |
dede/archives.php |
采集入口文件 | http://www.example.com/dede/archives.php |
start |
开始采集的起始ID | start=0 |
end |
结束采集的终止ID | end=100 |
typeid |
采集内容所属分类ID | typeid=1 |
recoflag |
推荐标志,0为不推荐,1为推荐 | recoflag=1 |
classid |
采集内容所属分类ID,与typeid作用相同 | classid=1 |
flag |
内容标记,用于过滤内容,’news’ | flag=news |
orderby |
排序方式,’id’ | orderby=id |
orderway |
排序方式,’desc’ | orderway=desc |
keywords |
关键词,用于搜索内容 | keywords=关键词 |
author |
作者,用于搜索作者内容 | author=作者名 |
title |
标题,用于搜索标题内容 | title=标题 |
content |
内容,用于搜索包含特定内容的内容 | content=内容关键词 |
orderby |
排序方式,’id’ | orderby=id |
orderway |
排序方式,’desc’ | orderway=desc |
source |
来源,用于搜索来源内容 | source=来源名称 |
pubdate |
发布日期,格式为:YYYYMMDD |
pubdate=20220101 |
channel |
频道,用于搜索频道内容 | channel=频道名称 |
classlist |
分类列表,用于搜索分类内容 | classlist=1,2,3 |
recoflag |
推荐标志,0为不推荐,1为推荐 | recoflag=1 |
pagesize |
每页显示数量 | pagesize=10 |
page |
当前页码 | page=1 |
使用示例:
$url = "http://www.example.com/dede/archives.php?start=0&end=100&typeid=1&recoflag=1&flag=news&orderby=id&orderway=desc&keywords=关键词&author=作者名&title=标题&content=内容关键词&source=来源名称&pubdate=20220101&channel=频道名称&classlist=1,2,3&recoflag=1&pagesize=10&page=1";
注意:
1、以上代码仅供参考,实际使用时请根据实际情况进行调整。
2、采集过程中请遵守相关法律法规,尊重原创内容。
本站发布或转载的文章及图片均来自网络,其原创性以及文中表达的观点和判断不代表本站,有问题联系侵删!
本文链接:http://www.xixizhuji.com/fuzhu/154919.html