http://www.sufeinet.com/plugin.php?id=keke_group

苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 3945|回复: 3

[HttpHelper] HttpHelper万能框架如何获得URL文件的编码?

[复制链接]
发表于 2015-11-20 21:34:25 | 显示全部楼层 |阅读模式

举例:假设我需要获得 http://news.sina.com.cn/c/nd/2015-11-20/doc-ifxkwuwx0254335.shtml 的编码格式是utf-8还是gb2312。
用HttpHelper万能框架我通过header获取,代码如下:
[C#] 纯文本查看 复制代码
WebHeaderCollection header = result.Header;
            string Charset = "";
            if (header != null)
            {
                string Content_Type = header["Content-Type"];
                Charset = StringHelper.LastRightStr(Content_Type, "charset=", false);
            }

这个方法经过我测试后发现,不是每次都准确获得编码格式。


求教有没有准确的方式?



1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2015-11-22 11:38:38 | 显示全部楼层
正则匹配
回复

使用道具 举报

 楼主| 发表于 2015-11-24 14:39:46 | 显示全部楼层

用代码能获取到。比如获取的utf-8,但实际是gb2312.
发表于 2015-11-26 09:23:23 | 显示全部楼层
解磊Allen 发表于 2015-11-24 14:39
用代码能获取到。比如获取的utf-8,但实际是gb2312.

是的有这种情况,,这种就手动处理下吧
您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-11-23 21:01

© 2014-2021

快速回复 返回顶部 返回列表