急！！后天就要答辩。HttpHelper的无视编码部分不太清楚

Kiiilo · 发表于 2013-6-7 22:43:36

               if (encoding == null)
                  {
                     Match meta = Regex.Match(Encoding.Default.GetString(RawResponse), "<meta([^<]*)charset=([^<]*)[\"']", RegexOptions.IgnoreCase);
                     string charter = (meta.Groups.Count > 2) ? meta.Groups[2].Value.ToLower() : string.Empty;   // 为什么正常情况下mata.Group有3个值
                     charter = charter.Replace("\"", "").Replace("'", "").Replace(";", "").Replace("iso-8859-1", "gbk"); // 最后一个替换不是很理解
                     if (charter.Length > 2)
                        encoding = Encoding.GetEncoding(charter);
                     else
                     {
                        if (string.IsNullOrEmpty(response.CharacterSet))
                              encoding = Encoding.UTF8;
                        else
                              encoding = Encoding.GetEncoding(response.CharacterSet);       //为什么这里能够保证编码出来的一定不是乱码？
                     }
                  }
                  //得到返回的HTML
                  result.Html = encoding.GetString(RawResponse);

能否请版主解答下... 顺便问下这个正则表达式

@"(?is)<a[^>]*?href=(['""]?)(?<url>[^'""\s>]+)\1[^>]*>(?<text>(?

?!</?a\b).)*)</a>";

我用来提取HTML页面链接的，对正则不太清楚，能否有高人能解释下这个正则.

时间紧迫~！！

站长苏飞 · 发表于 2013-6-8 09:11:12

  string charter = (meta.Groups.Count > 2) ? meta.Groups[2].Value.ToLower() : string.Empty; // 为什么正常情况下mata.Group有3个值
这里是一个Bug，已修复了，在这里我表示对你的感谢

                     charter = charter.Replace("\"", "").Replace("'", "").Replace(";", "").Replace("iso-8859-1", "gbk"); // 最后一个替换不是很理解
这里的iso-8859-1是一个编码，而他在Gbk之内，所以可能直接用Gbk代替iso-8859-1

encoding = Encoding.GetEncoding(response.CharacterSet);       //为什么这里能够保证编码出来的一定不是乱码？
这里是在所有情况下都无法取到编码时才会使用它，也就是说你一没有配置或者是指明编码，而网站的页面中又没有规定时才会使用这个，
这是一种机率问题，如果说绝对的无视编码我相信是不可能的，只能说是99%以上的，你要知道事情没有绝对。呵呵

qq576733600 · 发表于 2013-6-8 10:23:01

我自己写的程序，跟你的差不多，
先用请求中的编码，如果没有就用 meta 里面的编码
但是 meta 的编码也不能百分百准确。

站长苏飞 · 发表于 2013-6-8 10:41:21

qq576733600 发表于 2013-6-8 10:23
我自己写的程序，跟你的差不多，
先用请求中的编码，如果没有就用 meta 里面的编码
但是 meta 的编码 ...

99%的都是对的，除非你的网站是A编码，你非要在meta 里写成是B编码，但这是少数，如果是这样就使用CharacterSet，这样基本上可以解决了，你要想绝对的解决编码问题是不可能的，总要有一种是不行的，不过能达到95%以上就很不错了。

		自动登录	找回密码
密码			马上注册

[其他] 急！！后天就要答辩。HttpHelper的无视编码部分不太清楚

浏览过的版块