http://www.sufeinet.com/plugin.php?id=keke_group

苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 7648|回复: 13

[其他] 为什么HttpHelper类可以忽视编码呢?

[复制链接]
发表于 2013-10-10 15:58:27 | 显示全部楼层 |阅读模式
而我自己写的,有时候却是乱码,啊,为啥


1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2013-10-10 16:22:15 | 显示全部楼层
我这里有个基础的说明可以看看http://www.sufeinet.com/thread-6-1-1.html
发表于 2013-10-10 16:02:26 | 显示全部楼层
因为我在类里面做了自动认识编码的部分,只要你不设置就会自动识别,会极小的影响一下性能,可忽略不计的,你自己写的,设置 的如果不对,或者是没有设置是肯定会乱码的
发表于 2013-10-10 16:08:21 | 显示全部楼层
看下你采集的网站的编码,自己设置成对应的编码就是了。
发表于 2013-10-10 16:11:26 | 显示全部楼层
qq576733600 发表于 2013-10-10 16:08
看下你采集的网站的编码,自己设置成对应的编码就是了。

如果是普通的确实可以这样,但如果要写一个抓取不同网站的就比较麻烦了,还有使用自动识别的比较方便,一不怕变而不怕不同
 楼主| 发表于 2013-10-10 16:12:56 | 显示全部楼层
qq576733600 发表于 2013-10-10 16:08
看下你采集的网站的编码,自己设置成对应的编码就是了。

[code=csharp] public string GetHtmlByGetMethod(string url)
        {
            _httpWebRequest = WebRequest.Create(url) as HttpWebRequest;
            _httpWebRequest.Method = "GET";
            _httpWebRequest.UserAgent = "  Mozilla/5.0 (Windows NT 6.1; WOW64; rv:24.0) Gecko/20100101 Firefox/24.0";
            HttpWebResponse response = _httpWebRequest.GetResponse() as HttpWebResponse;

            using (Stream responseStream = response.GetResponseStream())
            {
                using (StreamReader reader = new StreamReader(responseStream, DefaultEncoding))
                {
                    return reader.ReadToEnd();
                }
            }
        }[/code]
啊,这样不行吗

 楼主| 发表于 2013-10-10 16:20:34 | 显示全部楼层
站长苏飞 发表于 2013-10-10 16:11
如果是普通的确实可以这样,但如果要写一个抓取不同网站的就比较麻烦了,还有使用自动识别的比较方便,一 ...

对啊,我就是要做一个可以采集不同网站的啊,所以需要自动识别,但看苏飞写的,有GZIP,内存流之类,不是很明白
发表于 2013-10-10 16:21:27 | 显示全部楼层
bianxinhuan 发表于 2013-10-10 16:20
对啊,我就是要做一个可以采集不同网站的啊,所以需要自动识别,但看苏飞写的,有GZIP,内存流之类,不是很明白 ...

不用明白啊,直接用就是了,用的多了,时间一长就懂了,懂不懂都不影响你写代码的
发表于 2013-10-10 16:24:16 | 显示全部楼层
我用的也是自动识别的。 还是会有个个别是识别不出来的。就得自己写下编码。大部分没有问题。
发表于 2013-10-10 16:32:06 | 显示全部楼层
qq576733600 发表于 2013-10-10 16:24
我用的也是自动识别的。 还是会有个个别是识别不出来的。就得自己写下编码。大部分没有问题。

我测试过上千万的网站,有识别不到的都修正了,如果你有那个网站识别不到,或者是发现那个识别不了,可以反映给我http://www.sufeinet.com/forum-135-1.html 这里有专门的反馈专区,如果反映的问题得到采用,会把你的用户名记录到更新日志中,




您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-11-23 09:40

© 2014-2021

快速回复 返回顶部 返回列表