苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 8244|回复: 5

[其他] 如何抓取同步100万条数据

[复制链接]
发表于 2015-3-20 10:29:33 | 显示全部楼层 |阅读模式
100金钱
我想对网站抓取数据分析,数据量有点大,大概有100万条,大家有什么好的思路希望提供一下。


我考虑的想法:
我想抓取一个网站的数据,抓取到本地建数据库,然后本地我写个程序对我需要进行分类分析。数据大概有100万条.

而且我想尽量使我本地库保持与网站上的数据同步,最差不超过1天的间隔,网上的数据每分每秒都有更新

但数据太过庞大,首次抓取估计相当费时,那么如何处理二次抓取呢。

我主要想对网站上的数据进行分类标记筛选等处理分析。

也许有些要点,我还没有想到提到,希望做过这些的大牛给个思路建议

包括性能方面,希望多给些建议。



1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2015-3-20 12:48:25 | 显示全部楼层
100万条如果是单纯的抓取,如果多线程就行了,完全没有问题,这个量开几十个线程一天就能轻松的跑完
回复

使用道具 举报

发表于 2015-3-20 12:49:06 | 显示全部楼层
我当前用这个http://www.sufeinet.com/thread-13-1-1.html跑域名一天要吧跑三千多万
回复

使用道具 举报

 楼主| 发表于 2015-3-20 12:53:09 | 显示全部楼层
站长苏飞 发表于 2015-3-20 12:49
我当前用这个http://www.sufeinet.com/thread-13-1-1.html跑域名一天要吧跑三千多万

苏哥,第二次抓取有什么便捷方法吗

回复

使用道具 举报

发表于 2015-3-20 13:01:23 | 显示全部楼层
学无止境 发表于 2015-3-20 12:53
苏哥,第二次抓取有什么便捷方法吗

和第一次相同就行了吧。或者是记录下每天数据的页面,可直接提取。这个要具体情况而定
回复

使用道具 举报

 楼主| 发表于 2015-3-20 23:51:47 | 显示全部楼层
谢谢苏哥,希望更多人给提提见议。
100金钱给站长,没太大意义。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-12-23 16:07

© 2014-2021

快速回复 返回顶部 返回列表