http://www.sufeinet.com/plugin.php?id=keke_group

苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 3509|回复: 4

[求助] 求助!!!!!判断一个页面是否做了更新的办法????

[复制链接]
发表于 2014-4-5 21:13:05 | 显示全部楼层 |阅读模式


我用HttpHelper抓取网页,发现一个很大的问题,每次抓取都会重新down页面,整个程序一天下来直接占用好几个G的流量空间

所以我想有没有办法能判断一个网页是否作了更新,如果作了更新我才load下来分析抓取

在网上看了帖子有说用Headers里面的etag,且修改日期,但对于动态页面好像有点问题。


另一种方法说是给Response的Stream使用MD5(或者SHA1)签名,但这种方式也是要load所有的源码之后才进行的。。。。


不知道大家有没有什么好的办法


我使用过人家的网页监控软件,他们一直开着所产生的流量没有我的大,不知道人家是怎么实现的。




1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2014-4-6 12:06:53 | 显示全部楼层
不管用什么方法都是必须先请求下载之后才可以做的,所以不必纠结这块。这是硬伤。只能想办法减少请求,或者是在服务器端做好更新日志,判断一下是否更新。如果网站不是自己的,这个就难办了。如果一天或者是几个小时几分钟请求一下应该也是没事的吧。
 楼主| 发表于 2014-4-6 12:09:52 | 显示全部楼层
站长苏飞 发表于 2014-4-6 12:06
不管用什么方法都是必须先请求下载之后才可以做的,所以不必纠结这块。这是硬伤。只能想办法减少请求,或者 ...

苏飞您好:

我做的是一个股票的信息的实时抓取,实时度要求非常高,基本不到1秒就会抓一次,所以才会出现这样的情况
发表于 2014-4-6 12:15:38 | 显示全部楼层
danedai 发表于 2014-4-6 12:09
苏飞您好:

我做的是一个股票的信息的实时抓取,实时度要求非常高,基本不到1秒就会抓一次,所以才会 ...

Http就是这种工作原理,这个没什么好的办法,
 楼主| 发表于 2014-4-6 12:23:18 | 显示全部楼层
站长苏飞 发表于 2014-4-6 12:15
Http就是这种工作原理,这个没什么好的办法,

了解了,不过还是要谢谢你
您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-11-26 03:54

© 2014-2021

快速回复 返回顶部 返回列表