苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 4174|回复: 2

[求助] 使用HttpHelper的自动识别编码,结果还是乱码

[复制链接]
发表于 2013-7-25 13:01:11 | 显示全部楼层 |阅读模式
  1. 目标网址是:http://www.chinawin.org
复制代码
[code=csharp]HttpHelper http = new HttpHelper();
            HttpItem item = new HttpItem()
            {
                URL = "http://www.chinawin.org",//URL     必需项  
                Method = "GET",//URL     可选项 默认为Get  
                Timeout = 100000,//连接超时时间     可选项默认为100000  
                ReadWriteTimeout = 15000,//写入Post数据超时时间     可选项默认为30000  
                IsToLower = false,//得到的HTML代码是否转成小写     可选项默认转小写  
                Cookie = "",//字符串Cookie     可选项  
                UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0",//用户的浏览器类型,版本,操作系统     可选项有默认值  
                Accept = "text/html, application/xhtml+xml, */*",//    可选项有默认值  
                ContentType = "text/html",//返回类型    可选项有默认值  
                Referer = "http://www.baidu.com",//来源URL     可选项   
            };
            HttpResult result = http.GetHtml(item);
            string html = result.Html;[/code]


1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2013-7-25 13:25:17 | 显示全部楼层
这个网站 是个特殊,一看就知道是特别特别垃圾的代码,因为作者的网页本来是Utf-8的编码,但是确在页面上设置了
  1. <meta content="text/html; charset=gb2312" http-equiv="Content-Type">
复制代码
这样Httphelper类会认为是GB2312所以出现乱码,
你直接设置成utf-8就行了,代码如下
[code=csharp]            HttpHelper http = new HttpHelper();
            HttpItem item = new HttpItem()
            {
                URL = "http://www.chinawin.org",//URL     必需项   
                Encoding = System.Text.Encoding.GetEncoding( "utf-8"),//URL     可选项 默认为Get   
            };
            HttpResult result = http.GetHtml(item);
            string html = result.Html;
            string cookie = result.Cookie;
[/code]
 楼主| 发表于 2013-7-25 14:42:36 | 显示全部楼层
站长苏飞 发表于 2013-7-25 13:25
这个网站 是个特殊,一看就知道是特别特别垃圾的代码,因为作者的网页本来是Utf-8的编码,但是确在页面上设 ...

好的~谢谢老大~~{:soso_e113:}
您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-12-23 19:09

© 2014-2021

快速回复 返回顶部 返回列表