http://www.sufeinet.com/plugin.php?id=keke_group

苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 4891|回复: 2

[HttpHelper] 爬虫遇到特殊cookie认证该如何办?

[复制链接]
发表于 2018-5-10 21:45:19 | 显示全部楼层 |阅读模式
我用HttpHelper做了一个简单的爬虫去抓取https://www.bitstamp.net/api/v2/order_book/btcusd/。但返回“"The server committed a protocol violation. Section=ResponseHeader Detail=CR must be followed by LF"。发现此网站使用第三方([size=15.3333px]Incapsula)的cookie验证机制,[size=15.3333px]Incapsula的技术支持这样解释:”Section=ResponseHeader Detail=CR must be followed by LF error occurs as a   response to our cookie classification method.
  Basically, CR tells the cursor to move to the first position on the same   line, while LF tells the cursor to move to the next line. Combining them   together (<CR><LF>) makes the same effect as “Enter” does. The   request/status line and other header fields must each end with   <CR><LF>
  
  The cookies that Incapsula sends are "broken" on purpose, and they   include content whose purpose is to test how the client responds to an   irregular cookie - as part of our classification process. While browsers are   capable of handling such cookies, most bots aren't, and this is what serves   as a first line of defense against them.“


大意是他们故意使用<CR><LF>这两个控制符来区分浏览器和爬虫,因为浏览器能够处理而爬虫一般没有预料到会出现这些控制符。网上有人建议在在app.config里加上
[C#] 纯文本查看 复制代码
<system.net> 
            <settings> 
                <httpWebRequest useUnsafeHeaderParsing="true"/> 
            </settings> 
    </system.net>


我试了好像不管用。我在HttpItem里hardcoded了我抓取的cookie,能用一阵子,最近又不能用了。 我想请教苏飞版主或其他高手该如何设置我的request参数或用其他办法绕过cookie验证。






1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
 楼主| 发表于 2018-5-10 22:53:39 | 显示全部楼层
暂时解决。办法类似于:http://www.sufeinet.com/thread-19828-1-1.html

询问分两步:1. 先询问母站,获取cookiecollection; 2. 进行询问前,设置cookiecollection为前面获得的值。Voila!

还得给POSTMAN赞一个
发表于 2018-5-11 18:02:26 | 显示全部楼层
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-11-22 13:57

© 2014-2021

快速回复 返回顶部 返回列表