怎么样采集别人网站的数据?

所属栏目:建站教程 更新时间:2023-02-16 点击: 文章来源:https://www.sznest.net/jzjc/3654.html

我们公司的网站采集功能,即可以采集文字,也可以采集图片,还可以采集产品详情页的属性名、属性值,即能采集标题图片在列表页的情况,还可以采集标题图片在详情页的情况,即可以单页采集,也可以多页采集,即可以多条件采集,也可以多条件过滤,但是要成功的采集别人网站的数据,需要在自己的网站后台先添加采集规则,下面是添加采集规则的详细说明,请仔细阅读。

脚本暂停时间(秒):必填,值越大采集成功率越高(取值范围1到255),但是采集时间越长,默认设置1秒。
列表页url默认页:    必填,一般是指不带页码的列表页url。
开头页码:必填,表示从第几页开始采集,无翻页时请填写1。
结尾页码:必填,表示采集到多少页为止,,无翻页时请填写1,采集过程中如出现网络故障,尝试减少采集页的数量。
标题最小中文字数:必填,只采集标题中文字数大于最小中文数的详情页。
标题最大中文字数:必填,只采集标题中文字数小于最大中文数的详情页。
详情最小中文字数     必填,如果设置为0表示不限制,否则只采集详情中文字数大于最小中文数的详情页。
仅采集包含:选填,标题与内容中都包含时才采集,有多个值时每个值不允许重复及被其它值包含,只允许输入中英文数字和英文逗号。
包含不采集:选填,标题或内容中包含时不采集,有多个值时每个值不允许重复及被其它值包含,同时每个值不允许与仅采集包含中的任何值相同或相互包含,也不允许与查找替换等号前面的值相同或相互包含,只允许输入中英文数字和英文逗号。
标题与详情查找替换:选填,等号是查找与替换的分隔符,等号前面的是要查找的字符,后面是要替换的字符,如果等号后面为空表示替换为空,如果有多组,中间用英文逗号隔开,有多组时,每组等号前面的每个值不允许重复及被其它值包含,只允许输入中英文数字和英文逗号和等号。
带参数的列表页url:选填,结尾页码大于1时必填,必填时页码用endpage替换,示例:域名/news.php?cid=8&page=endpage。
列表页id正则:必填。
带参数的详情页url:必填,id值用idvalue来替换。
列表页标题正则:列表页标题正则与详情页标题正则必须并且只能二选一填写一项。
详情页标题正则:列表页标题正则与详情页标题正则必须并且只能二选一填写一项。
详情页标签循环体正则:获取循环体的固定写法是(.*?),获取循环体的前面与后面还必须加上标识符。
详情页标签文本正则:从循环体中去获取标签文本数组。
没匹配到标签时是否跳过:是与否,二选一。
详情页详情正则:必填。     
详情页详情过滤正则:选填,过滤图片正则示例:/<img[^>]{1,}>/i,不支持圆括号引用
详情页详情是否过滤超链接:是与否,二选一。

添加了采集规则之后,然后就可以采集别人网站的数据了,采集时无须人工干涉,如果采集出现故障或被暂停、或者采集完成,都会有声音提示。

下面是采集规则中正则表达式的特别要求,请一定要遵守。
1:圆括号()、中括号[]、花括号{}必须成对出现。
2:圆括号()、中括号[]、花括号{}不能出现交叉。
3:圆括号()只能出现一次并且必须出现一次。
4:空格不能用\s表示、数字不能用\d表示。
5:()[]?+*.等作为普通字符时不用转义。
6:()[]?+*等作为普通字符时用.来代替。
7:开头与结尾加/,如果有修饰符加到最后一个/后面。
8:所有英文字符必须全部转换成小写。
9:多个空格需要换成一个空格(不要使用Tab键)

下面是自动采集过程中的特别提醒,请一定要遵守。
1:在采集过程中不要点击后台的其它链接,否则导致页面阻塞。
2:在采集过程中不要刷新当前页面,否则也会导致页面阻塞。
3:如果页面被阻塞,请耐心等待,等待时间取决于采集的数据量,采集的越多,需要等待的时间越长。

什么是页面阻塞?
即点击其它任何链接反应相当慢,感觉像卡住了,其实不是卡住了,只是你点击其它链接时服务器就暂时把你的这次请求给延后了。

为什么请求会延后?
因为在采集时需要占用服务器大量的内存和CPU资源,如果在采集的同时又点击其它链接或者刷新当前页面就是再次向服务器发起请求,导致服务器越来越忙,既然他忙的不可开交,那么他短时间之内肯定是无法响应你的第二次请求了,只到服务器把你的第一次请求采集的事情做完了,才会响应你的第二次请求 为什么采集会中断?
采集不仅占用大量的服务器的内存和CPU资源,而且消耗大量的流量,从而影响到服务器稳定和安全,所以为了避免这种情况,所有的服务器都对采集行为作了限制,从而导致采集中断?

如何降低采集中断的概率?
减少采集页的数量或增加脚本暂停时间都可以提高被中断的概率。

相关阅读

如何下载安装火狐浏览器以及解决无法打开的问题?

怎么下载安装火狐浏览器?一:火狐浏览器的官网地址:http://www.firefox.com.cn/二:在官网的首页点击“下载Firefox”这个按钮。三:下载下来之后,点击“Firefox-ESR-full-latest.exe”就可以直接安装。如果安装成功之后打开的时候提示配置文件缺失怎么办?如果在打开过程中出现“配置文件缺失,无法加载您的Firefo…

了解详情 >>

如何只展开body这个节点的下一级节点的代码呢?

这里以演示站点一在线留言这个网页的body这个节点为例来说明这个问题。1:用火狐浏览器打开演示站点一的在线留言2:按F12打开Web开发者工具再点击一下查看器或者按组合键Ctrl+Shift+C3:此时默认是定位到body这一行代码,背景为蓝色,body这个节点下的下一级节点被展开,而更深层次的节点则被折叠隐藏起来了,见下图如果多次使用选取网页中的元素这个工…

了解详情 >>

如何获取当前网页请求资源的URL地址?

这里以获取演示站点一PC站的联系我们这个网页请求资源的URL地址为例来说明这个问题。1:用火狐浏览器打开演示站点一PC站的联系我们,【不知道如何下载安装火狐浏览器的或者安装成功之后无法打开请点击这里】?2:按F12打开Web开发者工具,默认是打开了【网络】这个选项卡(如果默认打开不是这个选项卡,请点击网络切到到这个选项卡),在此选项卡上查看禁用缓存有没有被勾…

了解详情 >>

如何填写或查看图片的宽度比与高度比?

1:用火狐浏览器打开网页,如果页面较长,需要拉至最底下,以请求所有的图片资源,同时火狐浏览器会记录每张图片的网址及默认尺寸,如果此图片需要被缩放,那么也会记录缩放之后的尺寸。2:点击火狐浏览器工具菜单下的页面信息(如果找不到菜单按Ctrl+I效果是一样的)3:点击媒体,点击网址下面的图片网址,直到找到你要找的图片为止,找到图片之后,在其下面就能看到当前图片的…

了解详情 >>

如何配置邮件服务器?

配置好邮件服务器之后,可以接邮件服务器发送的消息,比如后台更改密码之后可以自动将后台账号的密码发送到后台管理员的密保邮箱,前台用户留言之后自动将留言信息发送到后台管理员的密保邮箱,那么如何配置邮件服务器呢?在配置邮件服务器之前需要先获取网易客户端授权密码,下面是获取网易客户端授权密码的7个步骤1:用电脑打开网易的官网https://www.163.com/2…

了解详情 >>

如何修改联系我们中百度地图的经度纬度等信息?

在左边找到联系我们下面的百度地图经度、纬度等信息,然后点击进入即可修改(百度地图经度与纬度信息获取请登陆百度API创建地图中去获取http://api.map.baidu.com/lbsapi/creatmap/,X表示经度,Y表示纬度)

了解详情 >>

Copyright @ 2008-2019   www.sznest.net   All rights reserved  网巢网是一家专业为企业提供免费建站、自助建站的模板建站公司     友情链接:香港张元洪律师行   

微信

移动端

客服

顶部