苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 14649|回复: 11

[咨询站长] 有个网址不知道使用了什么反爬新技术,大家帮忙看下呢

[复制链接]
发表于 2020-12-21 20:59:59 | 显示全部楼层 |阅读模式
https://www.qcc.com/web/search?k ... 0%E5%85%AC%E5%8F%B8,这是企查查网用于查询的一个网址,抓包看了下cookie和header每次都没什么区别,但是用苏飞助手或者其它http测试都抓取不到下面的2个公司,抓出来的结果跟浏览器里的结果就是不同,不知道这是什么新技术反爬吗?大家有遇到过这种情况吗?


1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
 楼主| 发表于 2020-12-22 22:38:03 | 显示全部楼层
自己先顶下
发表于 2020-12-23 17:33:35 | 显示全部楼层
是请求头问题,你请求头中加入这一句
contenttype: text/html; charset=utf-8
就可以返回和网页相同的数据了,包括你说的下面的2个公司

注意: content和type中间没有横杠符号
@2949497060
 楼主| 发表于 2020-12-23 21:17:05 | 显示全部楼层
clrscr 发表于 2020-12-23 17:33
是请求头问题,你请求头中加入这一句
contenttype: text/html; charset=utf-8
就可以返回和网页相同的数 ...

老兄3牛掰啊我抓包里面咋没看见contenttype这个头呢?老兄你是用啥抓的啊?
 楼主| 发表于 2020-12-23 21:41:11 | 显示全部楼层
clrscr 发表于 2020-12-23 17:33
是请求头问题,你请求头中加入这一句
contenttype: text/html; charset=utf-8
就可以返回和网页相同的数 ...

貌似加了这个header还是不行呢,还是没有那2个公司的
发表于 2020-12-24 11:06:35 | 显示全部楼层
[C#] 纯文本查看 复制代码
 private static string GetHttp20201224105748()
        {
            SufeiUtil.HttpHelper http = new SufeiUtil.HttpHelper();
            SufeiUtil.HttpItem item = new SufeiUtil.HttpItem()
            {
                URL = "https://www.qcc.com/web/search?key=%E5%B9%BF%E5%B7%9E%E5%AE%89%E8%82%A4%E5%A0%82%E7%94%9F%E7%89%A9%E7%A7%91%E6%8A%80%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8",
                Method = "GET",
                ContentType = "",
                Cookie = "__guid=84250399.3243085855446564400.1607327083788.647; zg_did=%7B%22did%22%3A%20%221763c28f3b75e7-085bfa27e4ae99-3c604504-1fa400-1763c28f3b8702%22%7D; UM_distinctid=1763c28f85b48d-054e9a4a7365f4-3c604504-1fa400-1763c28f85c52b; CNZZDATA1254842228=813077936-1607326710-https%253A%252F%252Fwww.baidu.com%252F%7C1607326710; _uab_collina=160732708746904411338901; QCCSESSID=1cc9da5c4476b2aad9e67d4c31; monitor_count=5; zg_de1d1a35bfa24ce29bbf2c7eb17e6c4f=%7B%22sid%22%3A%201608715015291%2C%22updated%22%3A%201608715752018%2C%22info%22%3A%201608715015293%2C%22superProperty%22%3A%20%22%7B%5C%22%E5%BA%94%E7%94%A8%E5%90%8D%E7%A7%B0%5C%22%3A%20%5C%22%E4%BC%81%E6%9F%A5%E6%9F%A5%E7%BD%91%E7%AB%99%5C%22%7D%22%2C%22platform%22%3A%20%22%7B%7D%22%2C%22utm%22%3A%20%22%7B%7D%22%2C%22referrerDomain%22%3A%20%22www.sufeinet.com%22%2C%22cuid%22%3A%20%22undefined%22%2C%22zs%22%3A%200%2C%22sc%22%3A%200%7D",
            };
            item.Header.Add("ContentType", "text/html");
            SufeiUtil.HttpResult result = http.GetHtml(item);
            string html = result.Html;
            return html;
        }
发表于 2020-12-24 11:07:25 | 显示全部楼层
本帖最后由 clrscr 于 2020-12-24 11:09 编辑
2949497060 发表于 2020-12-23 21:41
貌似加了这个header还是不行呢,还是没有那2个公司的

啊这,上面附代码了,你运行试试,我测试是可以的
发表于 2020-12-24 11:08:13 | 显示全部楼层
2949497060 发表于 2020-12-23 21:17
老兄3牛掰啊我抓包里面咋没看见contenttype这个头呢?老兄你是用啥抓的啊?

用Fiddler,我也没看到
 楼主| 发表于 2020-12-24 13:38:19 | 显示全部楼层
clrscr 发表于 2020-12-24 11:08
用Fiddler,我也没看到

哦,我像你一样把WebRequest请求里的ContentType置为空就可以了,之前用的application/x-www-form-urlencoded或者text/html反而都不行,header也不用再另外加ContentType也可以,好奇怪啊!!那你是怎么发现的呢?
发表于 2020-12-25 14:34:16 | 显示全部楼层
2949497060 发表于 2020-12-24 13:38
哦,我像你一样把WebRequest请求里的ContentType置为空就可以了,之前用的application/x-www-form-urlenc ...

我说猜的你信吗
您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-12-25 16:13

© 2014-2021

快速回复 返回顶部 返回列表