当前位置：首页 > 行业动态 > 正文

如何设置Dedecms的万能采集过滤规则来优化内容采集效果？

admin
行业动态
2024-10-12
1

在dedecms中，采集过滤规则可以通过编写万能采集过滤代码来实现。常用的过滤方法包括正则表达式、XPath等。具体实现方式需要根据实际需求进行编写。

在织梦CMS（DedeCMS）中，采集过滤规则是确保从互联网上抓取的数据符合网站需求的重要工具，这些规则帮助用户自动删除不需要的内容，如广告、脚本和样式表等，以下是一些常见的dedecms采集过滤规则：

{/dede:trim}

过滤代码

span

{dede:trim}{/dede:trim}

/span

{dede:trim}{/dede:trim}

div

{dede:trim} {/dede:trim}

/div

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

/li

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

/ul

{dede:trim}

{/dede:trim}

font

{dede:trim}{/dede:trim}

/font

{dede:trim}{/dede:trim}

table

{dede:trim} {/dede:trim}

/table

{dede:trim}

{/dede:trim}

tbody

{dede:trim}

/tbody

{dede:trim}

/tr

{dede:trim}

{/dede:trim}

/td

{dede:trim}

{dede:trim}{/dede:trim}

iframe

{dede:trim}<iframe(.*){/dede:trim}

style

{dede:trim}<style(.*)

{/dede:trim}

script

{dede:trim}<script(.*){/dede:trim}

option

{dede:trim}<option(.*){/dede:trim}

select

{dede:trim}<select(.*){/dede:trim}

object

{dede:trim}<object(.*){/dede:trim}

embed

{dede:trim}{/dede:trim}

/embed

{dede:trim}{/dede:trim}

param

{dede:trim}<param(.*){/dede:trim}

常见应用示例

1、标题中空格的过滤：经常在采集文章的时候，标题文字里面有空格，采回来后应用很是麻烦，所以需要在过滤处添加下面正则过滤：

   {dede:trim} {/dede:trim}

2、来源作者中连接的过滤：有的网站系统里面作者或者来源处都带有连接，直接采集的话将连接采集回来了，然后由于这两个字段有限制，通常会造成需要采集的内容没有采集回来，所以需要在过滤处添加下面正则过滤：

保留链接中的文字：{dede:trim}]*)>{/dede:trim}

去掉链接中的文字：{dede:trim}]*)>([^{/dede:trim}

3、中连接以及其他广告代码的过滤：当需要对所有东西过滤的时候，直接用上面所有的代码过滤就可以，但是实际应用中，我们只需要对连接、动画、调用等进行过滤，一般的写法是{dede:trim}要过滤的内容{/dede:trim}。

FAQs

Q1：如何设置DEDECMS的采集过滤规则？

A1：在DEDECMS后台管理界面中，进入“采集管理”模块，选择相应的采集节点进行编辑，在编辑界面中，可以找到“过滤规则”选项，点击“添加”按钮即可输入上述过滤代码，保存后即可生效。

Q2：为什么需要使用DEDECMS的采集过滤规则？

A2：使用采集过滤规则可以帮助站长自动化地去除不需要的内容，如广告、脚本和样式表等，从而减少垃圾信息占用空间，提高数据质量和用户体验。

过滤规则类型	代码示例
标题过滤	Title = RegReplace(Tid, '.?标题.?');
标签过滤	Tags = RegReplace(Tid, '.?标签.?');
内容过滤	Content = RegReplace(Tid, '.?内容.?');
描述过滤	Description = RegReplace(Tid, '.?描述.?');
缩略图过滤	Thumbnail = RegReplace(Tid, '.?缩略图.?');
作者过滤	Author = RegReplace(Tid, '.?作者.?');
发布时间过滤	PublishTime = RegReplace(Tid, '.?发布时间.?');
分类过滤	Category = RegReplace(Tid, '.?分类.?');
来源过滤	Source = RegReplace(Tid, '.?来源.?');
点击量过滤	Clicks = RegReplace(Tid, '.?点击量.?');
评论数过滤	Comments = RegReplace(Tid, '.?评论数.?');
标签链接过滤	TagsLink = RegReplace(Tid, '.?标签链接.?');
相关链接过滤	RelatedLink = RegReplace(Tid, '.?相关链接.?');
分享链接过滤	ShareLink = RegReplace(Tid, '.?分享链接.?');
页面链接过滤	PageLink = RegReplace(Tid, '.?页面链接.?');

说明：

RegReplace 函数用于执行正则表达式替换，其中Tid 为需要过滤的内容。

以上代码示例仅供参考，具体使用时请根据实际情况进行调整。

DedeCMS 万能采集过滤规则

本站发布或转载的文章及图片均来自网络，其原创性以及文中表达的观点和判断不代表本站，有问题联系侵删！
本文链接：http://www.xixizhuji.com/fuzhu/121769.html

如何设置Dedecms的万能采集过滤规则来优化内容采集效果？

SiteLock是如何成为反面软件检测领域的佼佼者的？

如何将数据从一个MySQL数据库迁移到另一个MySQL数据库？

最新文章

MySQL数据库语言是什么？深入了解Mysql数据库

BUI框架API，如何高效利用其功能进行开发？

如何利用ASP读取数据库中的数据？

服务器为何无法登录公网？

如何在ASP中设置登录时长？

如何开启WebDAV以优化CDN性能？

如何在ASP中循环读取数据库并显示图片？

ASP 网站存在哪些常见的破绽，如何有效防范？

随机文章

负载均衡试用，如何有效利用帮助文档？

如何用ASP实现简单的进销存系统？

如何优化服务器的内存使用以提升性能？

如何理解和使用Gradle的buildscript块？

如何利用ASP编写计算百分率的函数？

如何在Linux系统中打开和查看CHM文件？

ASP 白色代码是什么意思？

哪些是目前主流的云数据库提供商，并且支持主流开发语言？

如何设置Dedecms的万能采集过滤规则来优化内容采集效果？

SiteLock是如何成为反面软件检测领域的佼佼者的？

如何将数据从一个MySQL数据库迁移到另一个MySQL数据库？

相关文章

最新文章

随机文章