http://www.sufeinet.com/plugin.php?id=keke_group

苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 5466|回复: 2

[其他] 求多线程爬虫思路

[复制链接]
发表于 2013-4-15 18:59:40 | 显示全部楼层 |阅读模式
我想写一个多线程的爬虫,给爬虫一个URL,然后它先爬这个URL,在把返回的页面链接加入爬虫的List列表中,然后继续往下爬行。
我现在遇到的问题是,软件设置了10个线程同行爬行,如果List列表中的URL大于10的话就没问题,关键是刚开始List列表中只有1条记录,所以软件运行后只能有一个线程能活下来,然后的九个线程都会变成运行完毕状态


1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2013-4-15 19:21:46 | 显示全部楼层
那是因为你取不到URl时结束了线程,你在线程里应该做个死循环,一直获取List里的URl,如果没有数据就停几秒后再去获取,不要停止
 楼主| 发表于 2013-4-15 21:31:42 | 显示全部楼层
问题解决了,主要是定义了一个静态的Starti的变量,判断如果为0的话就证明是第一条线程,然后就等待第一条线程运行一次“while (ConTask.RunType)”里的代码才开始让其他线程进入

[code=csharp]    /// <summary>
    /// 爬虫运行类
    /// </summary>
    class SpiderRun
    {
        /// <summary>
        /// 判断是否为第条线程
        /// </summary>
        private static int Starti = 0;

        private void Run()
        {
            while (Starti == 1)
            {
                Thread.Sleep(2000);
            }
            if (Starti == 0)
            {
                Starti = 1;
            }
            HttpHelper Http = new HttpHelper();
            HttpItem Hitem = new HttpItem()
            {
                 URL = "",
                 ResultType = ResultType.String
            };

            while (ConTask.RunType)
            {
                UrlClass task = ConTask.GetTask();
                if (task == null) continue;
                Hitem.URL = task.Url;
                ConTask.WriteLine(Thread.CurrentThread.Name.ToString()+ "号蜘蛛正在爬行:" + task.Url + "{换行}");
                string HtmlStr = Http.GetHtml(Hitem).Html;
                Hashtable urlList = ConTask.GetUrlArrList(task.Url, HtmlStr);
                foreach (DictionaryEntry url in urlList)
                {
                    if (ConTask.OldList.ContainsValue(url.Value)) continue;
                    Regex reg = new Regex(@"^http:\/\/([\w-]+(\.[\w-]+)+(\/[\w-.\/\?%&=\u4e00-\u9fa5]*)?)?$");
                    bool m = reg.IsMatch(url.Value.ToString());
                    if (!m) continue;
                    if (url.Value.ToString().Replace("http://", "").Replace("HTTP://", "").Trim().Length < 5) continue;
                    ConTask.OldList.Add(new RandClass(35).randStr,url.Value);
                    ConTask.taskList.Add(new UrlClass(url.Key.ToString(), url.Value.ToString()));
                }
                if (Starti == 1) Starti = 2;
            }
            ConTask.RunThreadCount--;
            if (ConTask.RunThreadCount < 1)
            {
                if (ConTask.IsStopType)
                {
                    ConTask.WriteLine("[任务已经于 " + DateTime.Now.ToString() + " 终止运行!]{换行}");
                    ConTask.Threads = null;
                }
                else
                {
                    ConTask.WriteLine("[任务运行完毕!]{换行}");
                }
            }
            if (ConTask.softMainFrm != null) ConTask.softMainFrm.TaskFinish();
        }

        public void Start()
        {
            ConTask.RunType = true;
            SpiderRun.Starti = 0;
            //if (ConTask.ThreadCount > ConTask.taskList.Count) ConTask.ThreadCount = 1;
            ConTask.Threads = new System.Threading.Thread[ConTask.ThreadCount];
            ConTask.RunThreadCount = 0;
            for (int i = 0; i < ConTask.ThreadCount; i++)
            {
                ConTask.Threads = new System.Threading.Thread(new System.Threading.ThreadStart(Run));
                ConTask.Threads.Name = i.ToString();
                ConTask.Threads.IsBackground = true;
                ConTask.RunThreadCount++;
                ConTask.Threads.Start();
            }
        }
    }[/code]
您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-11-25 04:13

© 2014-2021

快速回复 返回顶部 返回列表