百度知道搜索结果列表页面爬不了了，大家看看

夏蝉声声 · 发表于 2021-1-9 09:48:03

知道内容页面可以爬。搜索结果列表页面总是爬不到数据。
比如百度知道搜索“温暖的抱抱”，返回“基础连接已经关闭: 连接被意外关闭”，是不是百度使用了反爬虫技术？
但是百度知道的内容页面还是可以爬的。关键是要能爬搜索结果列表页面。
站长大大研究一下。

夏蝉声声 · 发表于 2021-1-9 09:57:34

代码如下：

[C#] 纯文本查看 复制代码

 HttpHelper http = new HttpHelper();
            HttpItem item = new HttpItem()
            {
                URL = "https://zhidao.baidu.com/search?lm=0&rn=10&pn=0&fr=search&ie=gbk&word=love",//URL     必需项  
                Method = "GET",//URL     可选项 默认为Get  
                Timeout = 100000,//连接超时时间     可选项默认为100000  
                ReadWriteTimeout = 30000,//写入Post数据超时时间     可选项默认为30000  
                IsToLower = false,//得到的HTML代码是否转成小写     可选项默认转小写  
                Cookie = "",//字符串Cookie     可选项  
                UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0",//用户的浏览器类型，版本，操作系统     可选项有默认值  
                Accept = "text/html, application/xhtml+xml, */*",//    可选项有默认值  
                ContentType = "",//返回类型    可选项有默认值  
                Referer = "http://www.sufeinet.com",//来源URL     可选项  
                Allowautoredirect = false,//是否根据３０１跳转     可选项  
                AutoRedirectCookie = false,//是否自动处理Cookie     可选项  
                //CerPath = "d:\123.cer",//证书绝对路径     可选项不需要证书时可以不写这个参数  
                //Connectionlimit = 1024,//最大连接数     可选项 默认为1024  
                Postdata = "",//Post数据     可选项GET时不需要写  
                //ProxyIp = "192.168.1.105：2020",//代理服务器ID     可选项 不需要代理 时可以不设置这三个参数  
                //ProxyPwd = "123456",//代理服务器密码     可选项  
                //ProxyUserName = "administrator",//代理服务器账户名     可选项  
                //ResultType = ResultType.String,//返回数据类型，是Byte还是String  
            };
            item.Header.Add("ContentType", "text/html");
            HttpResult rts = http.GetHtml(item);
            string html= rts.Html;

站长苏飞 · 发表于 2021-1-9 15:14:46

[C#] 纯文本查看 复制代码

HttpHelper http = new HttpHelper();  
HttpItem item = new HttpItem()  
{  
    URL = "https://zhidao.baidu.com/search?lm=0&rn=10&pn=0&fr=search&ie=gbk&word=love",//URL     必需项  
    Method = "GET",//URL     可选项 默认为Get  
    Timeout = 100000,//连接超时时间     可选项默认为100000  
    ReadWriteTimeout = 30000,//写入Post数据超时时间     可选项默认为30000  
    IsToLower = false,//得到的HTML代码是否转成小写     可选项默认转小写  
    Cookie = "",//字符串Cookie     可选项  
    UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0",//用户的浏览器类型，版本，操作系统     可选项有默认值  
    Accept = "text/html, application/xhtml+xml, */*",//    可选项有默认值  
    ContentType = "text/html",//返回类型    可选项有默认值  
    Referer ="http://www.sufeinet.com",//来源URL     可选项  
    Allowautoredirect = False,//是否根据３０１跳转     可选项  
    AutoRedirectCookie = False,//是否自动处理Cookie     可选项  
    //CerPath = "d:\123.cer",//证书绝对路径     可选项不需要证书时可以不写这个参数  
    //Connectionlimit = 1024,//最大连接数     可选项 默认为1024  
    Postdata = "",//Post数据     可选项GET时不需要写  
    //ProxyIp = "192.168.1.105：2020",//代理服务器ID     可选项 不需要代理 时可以不设置这三个参数  
    //ProxyPwd = "123456",//代理服务器密码     可选项  
    //ProxyUserName = "administrator",//代理服务器账户名     可选项  
    ResultType = ResultType.String,//返回数据类型，是Byte还是String  
};  
HttpResult result = http.GetHtml(item);  
string html = result.Html;

oyehko · 发表于 2021-1-22 13:21:09

百度知道的搜索从2019年12月份左右就已经开始有防爬虫了，连百度搜索都有防爬虫

		自动登录	找回密码
密码			马上注册

[HttpHelper] 百度知道搜索结果列表页面爬不了了，大家看看