当前位置:首页 > 行业动态 > 正文

如何设置中国站长站的Dede4.0采集规则?

中国站长站为Dede4.0提供了专门的采集规则,以帮助用户高效地收集和整合网络数据。这些规则通常包括URL匹配模式、内容提取方式以及数据处理逻辑等,旨在简化数据采集流程,提升网站内容的丰富度和更新速度。具体规则详情可在 中国站长站的官方文档或相关论坛找到。

使用DedeCMS v4.0进行中国站长站内容采集的详细指南

如何设置中国站长站的Dede4.0采集规则?  第1张

概述

本文档旨在详细介绍如何使用DedeCMS v4.0版本对中国站长站(ChinaZ)进行网站内容的自动采集,通过设置详细的采集规则,用户可以实现从特定栏目中自动获取数据并发布到自己的网站上,以下是具体的操作步骤和注意事项。

采集规则概览

在开始之前,我们需要了解几个关键概念:

来源网址:指目标网站中某个具体分类或页面的URL。

文章网址需包含:用于匹配目标文章URL的关键字或路径。

节点基本信息:定义采集对象的基本属性,如语言、类型等。

采集列表获取规则:指定如何从目标网站抓取列表页面中的链接。

获取规则:定义如何从具体的文章页面中提取所需的数据。

节点基本信息配置

{!节点基本信息}
{dede:item name='搜索引擎' imgurl='/upimg' imgdir='../upimg' language='gb2312' isref='no' refurl='' exptime='10' typeid='1' matchtype='string'}
{/dede:item}

此部分主要用于定义采集的目标节点信息。

itemname:定义该采集任务对应的栏目名称。

language:设置采集内容的语言编码格式,这里为GB2312(简体中文)。

typeid:定义该栏目在系统中的ID号。

matchtype:匹配方式,这里为字符串匹配。

采集列表获取规则

{!采集列表获取规则}
{dede:list source='var' sourcetype='list' varstart='' varend=''}
{dede:url value='http://www.chinaz.com/Webbiz/Seo/Index.html'}{/dede:url}
{dede:need}/Seo/0{/dede:need}
{dede:cannot}{/dede:cannot}
{dede:linkarea}<div id="list_container">[var:区域]var contents = document.getElementsByClassName('list_news_content');{/dede:linkarea}
{/dede:list}

这部分规则是用于从目标网站的列表页面中提取文章链接。

urlvalue:指定要抓取的列表页面URL。

need:指定文章URL中必须包含的关键字或路径。

linkarea:定义如何解析HTML代码以获取文章链接。

{!网页内容获取规则}
{dede:art}
{dede:sppage sptype='next'}<b>1</b>[var:分页区域]<font face="webdings">4{/dede:sppage}
{dede:note field='dede_archives.title' value='[var:内容]' comment='文章标题' isunit='' isdown=''}
{dede:match}<h1>[var:内容]</h1>{/dede:match}
{dede:function}{/dede:function}
{/dede:note}
{dede:note field='dede_addonarticle.body' value='[var:内容]' comment='文章内容' isunit='1' isdown='1'}
{dede:match}<div  id="textbody">[var:内容]<div >{/dede:match}
{dede:trim}<div align="center">(.*)</div>{/dede:trim}
{dede:trim}CHINAZ{/dede:trim}
{dede:function}{/dede:function}
{/dede:note}
{dede:note field='dede_archives.writer' value='[var:内容]' comment='文章作者' isunit='' isdown=''}
{dede:match}者:[var:内容]|时{/dede:match}
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
{dede:function}{/dede:function}
{/dede:note}
{dede:note field='dede_archives.source' value='[var:内容]' comment='文章来源' isunit='' isdown=''}
{dede:match}来源:[var:内容] | 作{/dede:match}
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
{dede:function}{/dede:function}
{/dede:note}
{dede:note field='dede_archives.pubdate' value='[var:内容]' comment='发布时间' isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}if(@me!="") @me = GetMkTime(@me); else @me = time();{/dede:function}
{/dede:note}
{dede:note field='dede_archives.sortrank' value='[var:内容]' comment='排序级别' isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}@me = time();{/dede:function}
{/dede:note}
{dede:note field='dede_archives.litpic' value='[var:内容]' comment='缩略图' isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}@me = @litpic;{/dede:function}
{/dede:note}
{dede:note field='dede_archives.senddate' value='[var:内容]' comment='录入时间' isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}@me = time();{/dede:function}
{/dede:note}
{/dede:art}

这部分规则定义了如何从具体的文章页面中提取所需的信息,如标题、内容、作者、来源以及发布时间等。

notefield:定义要采集的字段名称。

value:指定提取的内容变量。

match:定义正则表达式,用于匹配并提取特定格式的数据。

trim:定义去除文本中特定字符的规则。

function:定义自定义函数,用于对提取到的数据进行处理。

常见问题解答FAQs

问题1:如何修改采集规则以适应不同的栏目?

答:如果需要采集不同的栏目,只需要修改“来源网址”和“文章网址需包含”这两项即可,如果想采集“站长在线 >> 好站推荐”这个栏目,只需做如下更改:

来源网址:http://www.chinaz.com/Webmaster/RecSite/Index.html

文章网址需包含:/RecSite/0

其他的不需要更改!

问题2:如何处理采集过程中出现的错误?

答:在采集过程中,可能会遇到各种错误,如网络中断、数据格式不匹配等,为了处理这些错误,可以采取以下措施:

1、检查网络连接:确保网络连接稳定,避免因网络问题导致采集中断。

2、验证数据格式:确保目标网站的数据格式与采集规则匹配,必要时可调整规则以适应变化。

3、日志记录:启用DEDECMS的日志功能,记录采集过程中出现的任何错误,便于后续排查和修正。

0