苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 4330|回复: 5

[其他] HttpHelper的疑问

[复制链接]
发表于 2014-4-12 09:13:55 | 显示全部楼层 |阅读模式
苏飞大侠:
你好.按照你的类和代码,我写了一个小程序,从百度的关键字搜索中,抓取结果的前十位.
结果每次运行时,第一次得到的都不是想要的.(html源码只有短短的几行)
只有第二次运行,才会得到想要的结果,不知问题出在哪?

      
[C#] 纯文本查看 复制代码
private void button1_Click(object sender, EventArgs e)
        {
            HttpHelper http = new HttpHelper();
            HttpItem item = new HttpItem()
            {
                URL = "http://www.baidu.com/s?wd=sufeinet&rsv_bp=&bar=&rsv_spt=&rsv_sug3=&rsv_sug=&rsv_sug1=&rsv_sug4=&inputT=&tn=99181064_hao_pg&ie=utf-8&",//URL     必需项    
                Method = "get",//URL     可选项 默认为Get   
                IsToLower = false,//得到的HTML代码是否转成小写     可选项默认转小写   
                Cookie = "",//字符串Cookie     可选项   
                Referer = "",//来源URL     可选项   
                Postdata = "",//Post数据     可选项GET时不需要写   
                Timeout = 100000,//连接超时时间     可选项默认为100000    
                ReadWriteTimeout = 30000,//写入Post数据超时时间     可选项默认为30000   
                UserAgent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)",//用户的浏览器类型,版本,操作系统     可选项有默认值   
                ContentType = "text/html",//返回类型    可选项有默认值   
                Allowautoredirect = false,//是否根据301跳转     可选项   
                //CerPath = "d:\123.cer",//证书绝对路径     可选项不需要证书时可以不写这个参数   
                //Connectionlimit = 1024,//最大连接数     可选项 默认为1024    
                ProxyIp = "",//代理服务器ID     可选项 不需要代理 时可以不设置这三个参数    
                //ProxyPwd = "123456",//代理服务器密码     可选项    
                //ProxyUserName = "administrator",//代理服务器账户名     可选项   
                ResultType = ResultType.String
            };
            HttpResult result = http.GetHtml(item);
            string html = result.Html;
            string cookie = result.Cookie;
            textBox1.Text= html;
        }


第一次运行时,  textBox1.Text= html;  只有短短的几行。第二次运行时  textBox1.Text中才有<!--STATUS OK-->  不知是不是操作有问题


1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2014-4-12 09:31:59 | 显示全部楼层
没发现啊我这边测试正常,另外你的URl后面多一个&
 楼主| 发表于 2014-4-12 09:48:47 | 显示全部楼层
谢了.不过太有意思了.我是"复制","粘贴"的啊.怎么会多出一个&. ?
我刚才删除了,PASS
我又用"百度"--"sufeinet"了一下.结果网址 又变成http://www.baidu.com/s?wd=sufein ... 2=0&inputT=2907
了?
发表于 2014-4-12 09:52:50 | 显示全部楼层
你输入那么多干什么,只需要一个参数就行了。http://www.baidu.com/s?wd=sufeinet 这样就够了

参考http://www.sufeinet.com/thread-380-1-1.html
 楼主| 发表于 2014-4-12 09:55:13 | 显示全部楼层
"没发现啊我这边测试正常,另外你的URl后面多一个&"

不是 "另外你的URl后面多一个&",而是"utf=8&",将&去掉即可.
"
发表于 2014-4-12 09:56:54 | 显示全部楼层
dyyyj 发表于 2014-4-12 09:55
"没发现啊我这边测试正常,另外你的URl后面多一个&"

不是 "另外你的URl后面多一个&",而是"utf=8&",将&去 ...

哦,可以了?,百度自己会生成很多参数我们只需要选择有用的,没用的直接K,呵呵
您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2025-1-8 02:38

© 2014-2021

快速回复 返回顶部 返回列表