如何抓取同步100万条数据

学无止境 · 发表于 2015-3-20 10:29:33

我想对网站抓取数据分析，数据量有点大，大概有100万条，大家有什么好的思路希望提供一下。

我考虑的想法：
我想抓取一个网站的数据，抓取到本地建数据库，然后本地我写个程序对我需要进行分类分析。数据大概有100万条.

而且我想尽量使我本地库保持与网站上的数据同步，最差不超过1天的间隔，网上的数据每分每秒都有更新

但数据太过庞大，首次抓取估计相当费时，那么如何处理二次抓取呢。

我主要想对网站上的数据进行分类标记筛选等处理分析。

也许有些要点，我还没有想到提到，希望做过这些的大牛给个思路建议

包括性能方面，希望多给些建议。

站长苏飞 · 发表于 2015-3-20 12:48:25

100万条如果是单纯的抓取，如果多线程就行了，完全没有问题，这个量开几十个线程一天就能轻松的跑完

站长苏飞 · 发表于 2015-3-20 12:49:06

我当前用这个http://www.sufeinet.com/thread-13-1-1.html跑域名一天要吧跑三千多万

学无止境 · 发表于 2015-3-20 12:53:09

站长苏飞发表于 2015-3-20 12:49
我当前用这个http://www.sufeinet.com/thread-13-1-1.html跑域名一天要吧跑三千多万

苏哥，第二次抓取有什么便捷方法吗

站长苏飞 · 发表于 2015-3-20 13:01:23

学无止境发表于 2015-3-20 12:53
苏哥，第二次抓取有什么便捷方法吗

和第一次相同就行了吧。或者是记录下每天数据的页面，可直接提取。这个要具体情况而定

学无止境 · 发表于 2015-3-20 23:51:47

谢谢苏哥，希望更多人给提提见议。
100金钱给站长，没太大意义。

		自动登录	找回密码
密码			马上注册

[其他] 如何抓取同步100万条数据

相关帖子