苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

12
返回列表 发新帖
楼主: bianxinhuan

[其他] 为什么HttpHelper类可以忽视编码呢?

[复制链接]
发表于 2013-10-10 16:34:37 | 显示全部楼层
文件可以吗,今天就碰到个文件编码识别不对。
http://tv.sohu.com/frag/vrs_inc/phb_mv_day_50.js


1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2013-10-10 16:40:53 | 显示全部楼层
qq576733600 发表于 2013-10-10 16:34
文件可以吗,今天就碰到个文件编码识别不对。
http://tv.sohu.com/frag/vrs_inc/phb_mv_day_50.js

文件 的编码需要手动设置,我只识别网页的编码,文件编码与网页识别的方式差别比较大。
发表于 2013-10-10 16:56:47 | 显示全部楼层
站长苏飞 发表于 2013-10-10 16:40
文件 的编码需要手动设置,我只识别网页的编码,文件编码与网页识别的方式差别比较大。

http://yyk.39.net/search/t2/
采集这个页面
会提示 远程服务器返回错误: (502) 错误的网关。

需要加入
requestNew.Headers.Add("Accept-Encoding", "gzip,deflate,sdch");
就正常了
发表于 2013-10-10 17:01:41 | 显示全部楼层
qq576733600 发表于 2013-10-10 16:56
http://yyk.39.net/search/t2/
采集这个页面
会提示 远程服务器返回错误: (502) 错误的网关。

恩是的有些网站需要配置,这个用的多了就找到规律了,基本上能用到的情况的参数我都配置出来了,

如有什么问题到时候可以发帖子告诉我。
您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-12-28 12:41

© 2014-2021

快速回复 返回顶部 返回列表