苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 7369|回复: 7

[HttpHelper] 最近想爬取下百度的搜索结果,但是什么也爬不到!

[复制链接]
发表于 2020-4-1 16:57:00 | 显示全部楼层 |阅读模式
string kw = Convert.ToString(keywordsarylist[0]);
HttpHelper http = new HttpHelper();
HttpItem item = new HttpItem()
{
     URL = "http://www.baidu.com/s?wd=" + kw + "&pn=10&oq=" + kw + "&tn=baiduhome_pg&ie=utf-8&usm=1",//URL     必需项   
     Method = "GET",//URL     可选项 默认为Get     
     IsToLower = false,//得到的HTML代码是否转成小写     可选项默认转小写   
     UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0",  
     Accept = "text/html, application/xhtml+xml, */*",//    可选项有默认值   
     ContentType = "text/html",//返回类型    可选项有默认值   
     Referer = "http://www.baidu.com",//来源URL     可选项   
};
HttpResult result = http.GetHtml(item);
string respHtml = result.Html;


以上就是代码,我用的是万能框架dll,求各位大佬帮帮忙。



1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
 楼主| 发表于 2020-4-1 16:57:49 | 显示全部楼层
kw  是我输入的要查询的关键词
 楼主| 发表于 2020-4-1 16:59:01 | 显示全部楼层
有时返回的是百度的安全验证
https://wappass.baidu.com/static ... imestamp=1585731502
发表于 2020-4-2 07:50:52 | 显示全部楼层
百度新算法
 楼主| 发表于 2020-4-2 09:03:13 | 显示全部楼层

飞哥,这该怎么整呢
发表于 2020-4-2 09:33:44 | 显示全部楼层
分析一下算法吧,我最近也看到了,但还没研究
 楼主| 发表于 2020-4-2 09:42:57 | 显示全部楼层
站长苏飞 发表于 2020-4-2 09:33
分析一下算法吧,我最近也看到了,但还没研究

我刚刚试了下,不带cookie请求十几次就不行了,但是带了cookie请求的话我试了一百多次还可以,不知道这是不是个突破口
发表于 2020-4-2 09:56:10 | 显示全部楼层
可以通过换Cookie保持,算是一个不错的路,随着技术的进步,很少会有网站让直接爬取的,都需要来回的调整策略。
您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-12-25 15:25

© 2014-2021

快速回复 返回顶部 返回列表