苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 3860|回复: 4

[其他] task下是否应该还可以嵌套使用Parallel语句?

[复制链接]
发表于 2016-3-23 00:45:23 | 显示全部楼层 |阅读模式
请教大伙个问题啊

业务场景是这样的:

一个采集程序需要采集歌手数据,包含6个字段(代表作、专辑、性别、出道日期、国籍、爱好)。这6个待采集的数据字段分布在6批不同的网址,每批网址有10w个(就是说一共需要采集60w网址)。

问题1:为了提高采集速度,我是否应该在程序中开启6个task去执行采集任务,然后在每个task中再使用Parallel.foreach 去采集对应的10w个网址?

问题2:为了提高采集速度,是否应该为这6个待采集字段建立6个数据表,以免多个线程同时写入一个表导致写入速度慢?

求可行的方法。

谢谢。@站长苏飞


1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2016-3-23 08:24:01 | 显示全部楼层
我只是路过打酱油的。
发表于 2016-3-23 08:25:13 | 显示全部楼层
如果这几个网址有ID,或者唯一值能找他我们的对应关系,可以选择分表存储 ,然后跑完之后再合并,本地处理数据库很快,相互导入一下即可。
 楼主| 发表于 2016-3-23 13:05:57 | 显示全部楼层
@站长苏飞
老大,第一个问题还没解答呀。
是不是应该在程序里建立6个task,然后么个task语句里面再嵌套Parallel.foreach去遍历10w个网址?

谢谢
发表于 2016-3-23 14:18:34 | 显示全部楼层
tylrr 发表于 2016-3-23 13:05
@站长苏飞
老大,第一个问题还没解答呀。
是不是应该在程序里建立6个task,然后么个task语句里面再嵌套P ...

带宽不受限制的情况下,可以,如果带宽有限制,或者比较小意义不大,跟一个差不多。这个你试试吧。安说是应该快一点的。

回复的时候单击我下方的回复,你直接回复是回复的楼主,我看不到消息 不能及时回复你
您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2025-1-1 16:19

© 2014-2021

快速回复 返回顶部 返回列表