苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 6285|回复: 2

[HttpHelper] 搜狗 微信文章 抓取

[复制链接]
发表于 2016-3-29 10:53:48 | 显示全部楼层 |阅读模式
搜狗 微信文章 用代理IP频繁 抓取页面 源码,怎么用httphelp类 解决 出现验证码的问题?


1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2016-3-29 11:07:31 | 显示全部楼层
Htttphelper也可以设置代理的
 楼主| 发表于 2016-3-29 17:01:04 | 显示全部楼层
private static string GetResultHtml(string urls)
        {
            string proxys = "";
            proxys = AvailableProxys();
            HttpItem item = new HttpItem()
            {
                URL = urls,
                Encoding = null,
                //Encoding = Encoding.Default,
                Method = "get",
                Timeout = 50000,
                ReadWriteTimeout = 10000,
                IsToLower = false,
                Cookie = ch.Cookie,//传入的cookie值
                UserAgent = userAgentLiShi,//userAgentLiShi 随机获取的userAgent
                Accept = "text/html, application/xhtml+xml, */*",//    可选项有默认值
                //ContentType = "text/html",//返回类型    可选项有默认值
                //Referer = "http://www.sufeinet.com",//来源URL     可选项
                Allowautoredirect = true,//是否根据301跳转     可选项
                //CerPath = "d:\\123.cer",//证书绝对路径     可选项不需要证书时可以不写这个参数
                //Connectionlimit = 1024,//最大连接数     可选项 默认为1024
                //Postdata = "C:\\PERKYSU_20121129150608_ScrubLog.txt",//Post数据     可选项GET时不需要写
                PostDataType = PostDataType.FilePath,//默认为传入String类型,也可以设置PostDataType.Byte传入Byte类型数据
                ProxyIp = proxys,//代理端口号
                //ProxyPwd = "123456",//代理服务器密码     可选项
                //ProxyUserName = "administrator",//代理服务器账户名     可选项
                ResultType = ResultType.Byte,//返回数据类型,是Byte还是String
                PostdataByte = System.Text.Encoding.Default.GetBytes("UTF-8"),//如果PostDataType为Byte时要设置本属性的值
                CookieCollection = new System.Net.CookieCollection(),//可以直接传一个Cookie集合进来
            };
            //item.Header.Add("测试Key1", "测试Value1");
            //item.Header.Add("测试Key2", "测试Value2");
            //得到HTML代码
            HttpResult result = hh.GetHtml(item);
            //取出返回的Cookie
            string cookie = result.Cookie;
            //返回的Html内容
            string html = result.Html;
            if (result.StatusCode == System.Net.HttpStatusCode.OK)
            {
                //表示访问成功,具体的大家就参考HttpStatusCode类
            }
            //表示StatusCode的文字说明与描述
            //string statusCodeDescription = result.StatusDescription;
            return html;
        }

这是我用httphelp类设置的参数 我也设置代理了 ,但会抓取几次之后还是会出现验证码,再随机换一个代理端口号 还是 会出现 “用户您好:您的访问过于频繁,为确认本次访问为正常用户行为,需要您协助验证。”
您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2025-1-1 15:35

© 2014-2021

快速回复 返回顶部 返回列表