HttpHelper类在遇到网页编码不符的情况会乱码

小白菜 · 发表于 2017-2-17 21:45:49

ttpHelper打开一个网页的时候，如果当前网页指定的编码是<meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> 但是页面是gb2312的时候使用自动识别编码功能会导致抓取的网页显示乱码。

例子：

使用GBK编码打开这个网站就是正常的，一般情况下这个功能没有影响，但是我用来做网页爬虫抓取大量网站的标题的时候，可能就比较尴尬了，不知道大家是否遇见过相同的问题，请问一下大家有没有好的思路解决这个问题？

我现在使用多线程批量打开网站都是用的这个方法：

线程.png

就是使用for循环不断的产生新的线程，然后线程结束再关闭线程，感觉这样子做好浪费时间，程序运行的不快，不知道各位师兄们能否帮帮我指点一下。
我要做的事是：
打开一个txt
将txt的每一行分割一下，存成数组
循环这个数组，将每一行的数据使用一个线程去操作一下
然后再结束这个线程
......可能我表达不是很详细。不知道同是程序员的你们是不是能看懂

站长苏飞 · 发表于 2017-2-18 08:15:39

乱码这个问题确实存在，在这种情况下是识别不到了。只能编码的识别方案，不过那样做的成本太高了。

我走的是个概率解决方案

		自动登录	找回密码
密码			马上注册

[咨询站长] HttpHelper类在遇到网页编码不符的情况会乱码