帝国CMS-采集关键的经验总结

所属栏目:建站技术 更新时间:2020-10-30 点击: 文章来源:https://www.sznest.net/jzjs/3538.html

采集关键的几个步骤
一:先建好栏目
二:增加采集节点(需要选择栏目)
三:录入节点名称
四:如果有很多页,只需录入采集页面地址方式二中的内容

地址为
https://www.sznest.net/news.asp?big_class_id=3&page=[page]
页码从1到多少页之间、间隔倍数为1(这个多少页即被采集的网站的实际页数,注意这里修改后,在采集页面地址中会自动生成页面的地址列表)

五:入库栏目可以重新选择

六:信息链接区域正则:如:
<TD width="23%" align="center">日期</TD></TR>[!--smallurl--]<TR class="btrtitle">

七:信息页链接正则:如<a class="news_dian" href="[!--newsurl--]">

八:内容页标题正则:<H2>[!--title--]</H2>

九:新闻正文正则:如</H2>[!--newstext--]<CENTER><STRONG>


常用采集方法:

1:列表页标题图片采集方法:如果列表页的标题图片的Src地址为相对路径,那么,需要在列表页的标题图片正则的右侧的“图片地址前缀”的文本框中加入域名地址,同时勾选上保存本地,如果标题图片在内容页,这里需要留空,同时在内容页-下面的标题图片正则的那里写上正则

2:内容页图片的采集方法:选项请勾选远程保存图片到本地(内容),只有选上之后采集内容页的图片入库的时候才会保存,同时这里不用设置过滤选项,如果内容页的图片地址为图片地址为相对地址时需要加上图片地址的前缀比如https://www.sznest.net,如果这个相对地址中还带有../../的话,那么还需要在过滤选项中使用“替换:(针对标题与内容)”功能将"../../"替换为"/"


3:图片集采集方法:
注意图片采集之前不要删除或者修改默认的图片系统模型中的字段,否则要入库的这个栏目即使绑定的图片系统模型,很有可能增加节点的时候找不到填写图片集正则的地方

如果只要采集图片集的缩略图,正则示例如下:
<p><IMG src=\'[!--ecmsspicurl--]\'></p>
如果只要采集图片集的大图,正则示例如下:
<li><IMG src=\'[!--ecmsbpicurl--]\'></li>
如果只要采集图片的名称,正则示例如下:
<span>[!--ecmspicname--]</span>

如果同时要采集多个的话,需要用用“[!empirecms!]”格开,那么结合上面的示例,正确的正则应该是
<p><IMG src=\'[!--ecmsspicurl--]\'></p>[!empirecms!]<li><IMG src=\'[!--ecmsbpicurl--]\'></li>[!empirecms!]<span>[!--ecmspicname--]</span>
提示一下:图片集的采集的正则表达式是存在old_ecms_infoclass_photo这个表的zz_morepic这个字段中

4:整体页面过滤使用到的情况
比如,在列表页中如果一个产品,但是标题和图片都有链接的时候(也就是存在两个相同链接),但是只想采集一个链接的情况下,可在“附加选项”中的“整体页面过滤正则”文本框中添对其中的一个链接的正则,比如去除图片的链接正则<a href="*"><img src="*"/></a>

5:过滤内容页的图片方法,过滤广告正则,比如下面的
<img[!--ad--]>,<IMG[!--ad--]>
如果图片外面被p标签包含的话,正则如下
<p><img[!--ad--]></p>,<p><IMG[!--ad--]></p>



注意事项:
一:如果列表页的信息链接地址为相对跳径,需要加上地址前缀,比如https://www.sznest.net/,如果信息页的地址前面还有../../这样的,那么可以直接写成<a href="../../[!--newsurl--]"

二:如果采集页面地址带有中文的话,建议在火狐中复制,将其中文进入转换,比如
Product.asp?BigClassName=婚庆布置&amp;Smallclassname=白色
转换之后就变成了
Product.asp?BigClassName=%BB%E9%C7%EC%B2%BC%D6%C3&Smallclassname=%B0%D7%C9%AB
 
三:如果采集规则正确的话,在管理节点的列表中点击预览会出现采集页面列表,左边的URL是采集的列表页面的URL,如果采集的有分页的话,那么这里会有多项,右边的VIEW预览链接会链接到本列表页所对应的采集内容页列表,此列表页会列表当前列表页对应的每个信息的链接地址,即URL

四:如果采集规则正确的话,但是点预览的时候仍然显示一片空白的话,那么请清空备份的采集数据或者修改匹配正则表达式或者可以尝试精简采集正则,比如
<img src="[!--titlepic--]" width="165" height="103" border="0" / ></a></td>
精简之后
<img src="[!--titlepic--]" width="165"

五:所有的采集正则表达式正则必须有结尾,不能直接以标签结尾,比如下面的信息链接区域正则:
<td height="449" valign="top">[!--smallurl--]
上面的是错误的,正确的可以是下面的
<td height="449" valign="top">[!--smallurl--]<td width="20">&nbsp;</td>


六:采集常见问题解决办法:
1:采集内容页列表预览的时候同样的URL出现了两次,而PIC循环到后面的一半的时候却匹配不到了
解决办法:因为信息页链接正则的匹配可能是贪婪匹配,所以导致了匹配了两次,所以解决的办法就是增加正则的字符,避免被贪婪匹配

2:如果预览的列表都正常,但是正式采集的时候仍然采集不到的时候的时候,其原因是内容页的正则匹配不到内容页的内容,这个在采集内容页列表在点击右边的某个预览的时候你就会发现仍然匹配不到内容的

3:如果采集规则都正常,并且采集页面列表也能正常显示采集的URL,但是采集内容页列表却仍然显示一片空白,而且清空备分的采集数据之后,仍然是空白的话,可以点击审核采集,将之前审核采集来的信息全部删除,再次预览就正常了,这里不明白,为什么清空备分的采集数据之后,点击审核采集里面仍然有采集数据

还有要注意,如果采集的正则需要更多的HTML代码加以区别的话,而且HTML代码之间有空格或换行的话,这个空间或换行最好不删除,也让空格或换行作为过滤的一个条件

相关阅读

如何更换本机DNS

计算机上网需要dns解析域名方可将域名和空间服务器上内容对应起来,所以能上网的计算机都要配置一个dns进行解析域名。不同网络不同地区使用的dns各不相同的,而这个dns是由您当前网络供应商提供,更改本机DNS可以测试域名解析和网站访问(通过以下操作后,域名解析正常,可以ping到域名对应的ip,以及网站可以正常访问,说明您本地网络供应商提供给您计算机上网的d…

了解详情 >>

用火狐打开百度一直加载s1.bdstatic.com的解决办…

一直用火狐浏览器,火狐浏览器插件多,很合适网页开发人员使用,以前一直用的好好的,但是今天使用的时候突然发现没有以前好用了,打开百度的官网一直很卡,通过FIREBGU发现在打开百度官网的时候一直会加载s1.bdstatic.com这个网站,无语,怎么打开百度的官网还需要链接s1.bdstatic.com这个网站这个网站吗?难道是百度被黑了,或者是自己的浏览器被…

了解详情 >>

如何让你的PHP网站变得更安全

安全配置一(1)打开php的安全模式php的安全模式是个非常重要的内嵌的安全机制,能够控制一些php中的函数,比如system(),同时把很多文件操作函数进行了权限控制,也不允许对某些关键文件的文件,比如/etc/passwd,但是默认的php.ini是没有打开安全模式的,我们把它打开:safe_mode=on(2)用户组安全当safe_mode打开时,sa…

了解详情 >>

过滤所有标点符号的函数详解

为了避免用户输入的一些特殊标点对数据查询造成干扰,所以对特殊的标点符号的过滤是很有必要,下面是过滤所有标点符号这个函数的详细说明所有的标点符号~|`|!|@|#|$|%|^|&amp;|&#39;|*|(|)|+||||=|-|_|[|]|}|{|;|&quot;|:|?|&gt;|&lt;|,|.|/|��|��|��|��|��|��|}|��|��|�…

了解详情 >>

如何将程序添加到右键菜单中?

方法一:在HKEY_CLASSES_ROOT*shell下面添加sublime_textCommand,修改Command项的默认值的数据数值为&quot;D:我的文档sublimetext3sublime_text.exe&quot;&quot;%1&quot;改了之后此方法你会发现不管选择什么类型的文件都会出现在右键菜单中方法二:修改HKEY_CLASS…

了解详情 >>

FTP上的文件不宜在线编辑

知道FTP软件使用的都知道,打开软件登录某一空间后,一边是本地的文件,另一边是服务器上的文件,而FTP软件就是连接本地与虚拟主机的桥梁,因为有了该软件,线上线下的上传下载就显得非常的简单。一般情况下,如果要对服务器上的文件进行修改,可以先将其下载到本地,再用dr将其打开进行编辑,待编辑到满意后,再上传上去,覆盖以前的文件,或是将以前的文件改个名字,直接上传上…

了解详情 >>

Copyright @ 2008-2019   www.sznest.net   All rights reserved  网巢网是一家专业为企业提供免费建站、自助建站的模板建站公司     友情链接:香港张元洪律师行   

微信

移动端

客服

顶部