当前位置:首页 > 行业动态 > 正文

如何设置织梦dedecms教程的采集过滤规则?

织梦DedeCMS教程中,采集过滤规则用于在采集数据时筛选和过滤不需要的内容。

在织梦CMS(DedeCMS)中,采集过滤规则是确保采集内容纯净、有效的重要工具,通过设置适当的过滤规则,可以有效地去除不必要的信息,如广告、链接、脚本等,从而保证采集内容的质量和可用性,以下是一些常见的DedeCMS采集过滤规则及其应用示例:

如何设置织梦dedecms教程的采集过滤规则?  第1张

常用过滤规则

1、超链接过滤

去除超链接标签,保留链接文本。

“`dede:trim replace=”}{/dede:trim}<a([^>]*)>{/dede:trim}

{dede:trim replace=”}{/dede:trim}</a>{/dede:trim}

    完全去除链接及其文本。
      ```dede:trim replace=''}{/dede:trim}<a([^>]*)>(.*)</a>{/dede:trim}

2、图片过滤

去除<img>

```dede:trim}&lt;img(.*)>{/dede:trim}

{dede:trim}&lt;/img&gt;{/dede:trim}

3、样式和脚本过滤:
    去除CSS样式。
      ```dede:trim}&lt;style(.*)</style&gt;{/dede:trim}
      {dede:trim}&lt;/style&gt;{/dede:trim}

去除JavaScript脚本。

```dede:trim}&lt;script(.*)</script&gt;{/dede:trim}

{dede:trim}&lt;/script&gt;{/dede:trim}

4、HTML标签过滤:
    去除特定HTML标签,如<div>、<ul>等。
      ```dede:trim}&lt;div(.*)&gt;{/dede:trim}
      {dede:trim}&lt;/div&gt;{/dede:trim}
      {dede:trim}&lt;ul(.*)&gt;{/dede:trim}
      {dede:trim}&lt;/ul&gt;{/dede:trim}

5、过滤

去除视频内容。

```dede:trim}&lt;object(.*)</object&gt;{/dede:trim}

{dede:trim}&lt;embed(.*)>{/dede:trim}

{dede:trim}&lt;/embed&gt;{/dede:trim}

{dede:trim}&lt;param(.*)</param&gt;{/dede:trim}

应用示例
示例一:标题中空格的过滤
在采集文章时,如果标题中含有空格,可以使用以下正则表达式进行过滤:
```dede:trim} {/dede:trim}

示例二:来源作者中链接的过滤

有些网站在文章的来源或作者处会带有链接,可以直接使用以下规则去除这些链接:

```dede:trim replace=''}{/dede:trim}&lt;a([^&gt;]*)&gt;(.*)&lt;/a&gt;{/dede:trim}

常见问题解答(FAQs)问题一:如何设置采集节点?
答:设置采集节点需要进入织梦CMS后台,点击“采集” > “采集节点管理” > “增加新节点”,然后根据目标网站的结构填写列表网址获取规则、文章网址匹配规则等内容字段获取规则,最后保存设置并进行测试,确保采集规则正确无误。问题二:如何处理采集到的内容中的分页问题?
答:处理分页问题需要在内容字段获取规则中设置分页内容字段,具体方法是在文章内容部分选择“分页内容字段”,然后在起始HTML和结束HTML中分别填写分页内容的开始和结束标记,这样系统会自动识别并合并分页内容,生成完整的文章。
通过合理设置和应用采集过滤规则,可以大大提高织梦CMS采集内容的质量和效率,希望以上内容能够帮助站长们更好地掌握织梦CMS的采集功能。
0