苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 3258|回复: 4

[其他] get采集不到数据

[复制链接]
发表于 2013-10-12 09:05:58 | 显示全部楼层 |阅读模式
使用老大的开发助手采集不到任何数据,但是通过咱们网站的在线工具却能采集到,怀疑是不是有cookie啥的限制啊
代码如下
  1.     HttpHelper http = new HttpHelper();  
  2.     HttpItem item = new HttpItem()  
  3.     {  
  4.         URL = "http://corp.1688.com/company/category_company_list_58_1.htm",//URL     必需项  
  5.         Method = "GET",//URL     可选项 默认为Get  
  6.         Timeout = 100000,//连接超时时间     可选项默认为100000  
  7.         ReadWriteTimeout = 30000,//写入Post数据超时时间     可选项默认为30000  
  8.         IsToLower = false,//得到的HTML代码是否转成小写     可选项默认转小写  
  9.         Cookie = "",//字符串Cookie     可选项  
  10.         UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0",//用户的浏览器类型,版本,操作系统     可选项有默认值  
  11.         Accept = "text/html, application/xhtml+xml, */*",//    可选项有默认值  
  12.         ContentType = "text/html",//返回类型    可选项有默认值  
  13.         Referer ="",//来源URL     可选项  
  14.         //Allowautoredirect = true,//是否根据301跳转     可选项  
  15.         //CerPath = "d:\123.cer",//证书绝对路径     可选项不需要证书时可以不写这个参数  
  16.         //Connectionlimit = 1024,//最大连接数     可选项 默认为1024  
  17.         Postdata = "",//Post数据     可选项GET时不需要写  
  18.         //ProxyIp = "192.168.1.105",//代理服务器ID     可选项 不需要代理 时可以不设置这三个参数  
  19.         //ProxyPwd = "123456",//代理服务器密码     可选项  
  20.         //ProxyUserName = "administrator",//代理服务器账户名     可选项  
  21.         //ResultType = ResultType.String,//返回数据类型,是Byte还是String  
  22.     };  
  23.     HttpResult result = http.GetHtml(item);  
  24.     string html = result.Html;  
  25.     string cookie = result.Cookie;  
  26.     byte[] b = result.ResultByte;  
复制代码


1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2013-10-12 09:10:25 | 显示全部楼层
好些属性你都选择试试,不要直接一放就想得到结婚,我之所以开发那么多属性在里面,就是让你们组合方便 的,
QQ截图20131012091029.jpg
选择上这个就行了
你没发现你的页面有跳转吗?
[code=csharp]            HttpHelper http = new HttpHelper();
            HttpItem item = new HttpItem()
            {
                URL = "http://corp.1688.com/company/category_company_list_58_1.htm",//URL     必需项   
                Method = "get",//URL     可选项 默认为Get   
                IsToLower = false,//得到的HTML代码是否转成小写     可选项默认转小写   
                Cookie = "",//字符串Cookie     可选项   
                Referer ="",//来源URL     可选项   
                Postdata = "",//Post数据     可选项GET时不需要写   
                Timeout = 100000,//连接超时时间     可选项默认为100000   
                ReadWriteTimeout = 30000,//写入Post数据超时时间     可选项默认为30000   
                UserAgent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)",//用户的浏览器类型,版本,操作系统     可选项有默认值   
                ContentType = "text/html",//返回类型    可选项有默认值   
                Allowautoredirect = true,//是否根据301跳转     可选项   
                //CerPath = "d:\123.cer",//证书绝对路径     可选项不需要证书时可以不写这个参数   
                //Connectionlimit = 1024,//最大连接数     可选项 默认为1024   
                ProxyIp = "",//代理服务器ID     可选项 不需要代理 时可以不设置这三个参数   
                //ProxyPwd = "123456",//代理服务器密码     可选项   
                //ProxyUserName = "administrator",//代理服务器账户名     可选项   
            };
            HttpResult result = http.GetHtml(item);
            string html = result.Html;
            string cookie = result.Cookie;
[/code]
 楼主| 发表于 2013-10-12 09:17:47 | 显示全部楼层
站长苏飞 发表于 2013-10-12 09:10
好些属性你都选择试试,不要直接一放就想得到结婚,我之所以开发那么多属性在里面,就是让你们组合方便 的 ...

这个选项还真不知道,看来基础还是不行,得认真学习学习了,在此感谢老大
发表于 2013-10-12 09:21:24 | 显示全部楼层
wxfy2011 发表于 2013-10-12 09:17
这个选项还真不知道,看来基础还是不行,得认真学习学习了,在此感谢老大

下次再有问题可以先随便选择几个属性进行测试,有那个工具就是测试方便,多换几个属性,说不定就行了。
比写代码测试要快
 楼主| 发表于 2013-10-12 09:24:35 | 显示全部楼层
站长苏飞 发表于 2013-10-12 09:21
下次再有问题可以先随便选择几个属性进行测试,有那个工具就是测试方便,多换几个属性,说不定就行了。
...

好的,OK,谢谢老大
您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-12-28 13:22

© 2014-2021

快速回复 返回顶部 返回列表