http://www.sufeinet.com/plugin.php?id=keke_group

苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 15062|回复: 13

[HttpHelper] 网站数据爬取中遇到的问题,希望大家解惑

[复制链接]
发表于 2015-5-5 11:30:41 | 显示全部楼层 |阅读模式
1金钱
有个网站提供了一个在线演示获取数据的界面,用浏览器操作是可以获取数据的,但是用程序模拟登录后什么都获取不到

http://www.juhe.cn/



1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
 楼主| 发表于 2015-5-5 11:34:21 | 显示全部楼层
            HttpHelper http = new HttpHelper();
            HttpItem item = new HttpItem()
            {
                URL = "http://www.juhe.cn/d/cellmap/api.php",//URL     必需项   
                Method = "post",//URL     可选项 默认为Get   
                IsToLower = false,//得到的HTML代码是否转成小写     可选项默认转小写   
                Cookie = cookie,//字符串Cookie     可选项   
                Referer ="http://www.juhe.cn/",//来源URL     可选项   
                Postdata = "action=singlegsm&mnc=0&lac=17695&cid=28655&hex=10",//Post数据     可选项GET时不需要写   
                Timeout = 100000,//连接超时时间     可选项默认为100000   
                ReadWriteTimeout = 30000,//写入Post数据超时时间     可选项默认为30000   
                UserAgent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)",//用户的浏览器类型,版本,操作系统     可选项有默认值   
                ContentType = "text/html",//返回类型    可选项有默认值   
                Allowautoredirect = false,//是否根据301跳转     可选项   
                //CerPath = "d:\123.cer",//证书绝对路径     可选项不需要证书时可以不写这个参数   
                //Connectionlimit = 1024,//最大连接数     可选项 默认为1024   
                ProxyIp = "",//代理服务器ID     可选项 不需要代理 时可以不设置这三个参数   
                //ProxyPwd = "123456",//代理服务器密码     可选项   
                //ProxyUserName = "administrator",//代理服务器账户名     可选项   
                ResultType = ResultType.String
            };
            HttpResult result = http.GetHtml(item);
            string html = result.Html;
            cookie = result.Cookie;
            richTextBox1.Clear();
            richTextBox1.AppendText(html + "\r\n\r\n");

用网页提交这个表单都能正常获得JSON返回值,但是不知道为何用程序模拟的时候总是空
回复

使用道具 举报

发表于 2015-5-5 11:38:12 | 显示全部楼层
这个是需要登录之后才能访问的吧。提供一个抓到的包看看。
回复

使用道具 举报

 楼主| 发表于 2015-5-5 11:45:26 | 显示全部楼层
POST http://www.juhe.cn/d/cellmap/api.php HTTP/1.1
Host: www.juhe.cn
Connection: keep-alive
Content-Length: 49
Accept: */*
Origin: http://www.juhe.cn
X-Requested-With: XMLHttpRequest
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2383.0 Safari/537.36
Content-Type: application/x-www-form-urlencoded; charset=UTF-8
Referer: http://www.juhe.cn/d/cellmap/gsm.php
Accept-Encoding: gzip, deflate
Accept-Language: zh-CN,zh;q=0.8
Cookie: Hm_lvt_82618066a54b9618372349e866511f60=1430384772,1430709153,1430787065; Hm_lpvt_82618066a54b9618372349e866511f60=1430797380; pgv_pvi=3562354688; PHPSESSID=em4s7hbjmm16bmqa3cauapt2o4; JuheChannel=jHYmFpZHU%3D; IESESSION=alive; pgv_si=s3152199680; Hm_lvt_5d12e2b4eed3b554ae941c0ac43c330a=1430711073,1430787062,1430787069,1430794888; Hm_lpvt_5d12e2b4eed3b554ae941c0ac43c330a=1430796284; Hm_lvt_0d9630c30ceb9d86c445d5efedea60f8=1430728019,1430787062,1430787069,1430794888; Hm_lpvt_0d9630c30ceb9d86c445d5efedea60f8=1430796284

action=singlegsm&mnc=0&lac=17695&cid=28655&hex=10
回复

使用道具 举报

 楼主| 发表于 2015-5-5 11:45:48 | 显示全部楼层
{"code":"1","info":"\u67e5\u8be2\u6210\u529f!","data":{"MCC":"460","MNC":"0","LAC":"17695","CELL":"28655","LNG":"120.721532","LAT":"31.298694","O_LNG":"120.725886773","O_LAT":"31.296684299045","PRECISION":"1130","ADDRESS":"\u6c5f\u82cf\u7701\u82cf\u5dde\u5e02\u5434\u4e2d\u533a\u91d1\u9e21\u6e56\u5927\u9053"}}
回复

使用道具 举报

发表于 2015-5-5 11:54:29 | 显示全部楼层
[C#] 纯文本查看 复制代码
            HttpHelper http = new HttpHelper();
            HttpItem item = new HttpItem()
            {
                URL = "http://www.juhe.cn/d/cellmap/api.php",//URL     必需项    
                Method = "post",//URL     可选项 默认为Get   
                IsToLower = false,//得到的HTML代码是否转成小写     可选项默认转小写   
                Cookie = "Hm_lvt_82618066a54b9618372349e866511f60=1430384772,1430709153,1430787065; Hm_lpvt_82618066a54b9618372349e866511f60=1430797380; pgv_pvi=3562354688; PHPSESSID=em4s7hbjmm16bmqa3cauapt2o4; JuheChannel=jHYmFpZHU%3D; IESESSION=alive; pgv_si=s3152199680; Hm_lvt_5d12e2b4eed3b554ae941c0ac43c330a=1430711073,1430787062,1430787069,1430794888; Hm_lpvt_5d12e2b4eed3b554ae941c0ac43c330a=1430796284; Hm_lvt_0d9630c30ceb9d86c445d5efedea60f8=1430728019,1430787062,1430787069,1430794888; Hm_lpvt_0d9630c30ceb9d86c445d5efedea60f8=1430796284",//字符串Cookie     可选项   
                Referer ="http://www.juhe.cn/d/cellmap/gsm.php",//来源URL     可选项   
                Postdata = "action=singlegsm&mnc=0&lac=17695&cid=28655&hex=10",//Post数据     可选项GET时不需要写   
                Timeout = 100000,//连接超时时间     可选项默认为100000    
                ReadWriteTimeout = 30000,//写入Post数据超时时间     可选项默认为30000   
                UserAgent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)",//用户的浏览器类型,版本,操作系统     可选项有默认值   
                ContentType = "application/x-www-form-urlencoded",//返回类型    可选项有默认值   
                Allowautoredirect = false,//是否根据301跳转     可选项   
                //CerPath = "d:\123.cer",//证书绝对路径     可选项不需要证书时可以不写这个参数   
                //Connectionlimit = 1024,//最大连接数     可选项 默认为1024    
                ProxyIp = "",//代理服务器ID     可选项 不需要代理 时可以不设置这三个参数    
                //ProxyPwd = "123456",//代理服务器密码     可选项    
                //ProxyUserName = "administrator",//代理服务器账户名     可选项   
                ResultType = ResultType.String
            };
            HttpResult result = http.GetHtml(item);
            string html = result.Html;
            string cookie = result.Cookie;


回复

使用道具 举报

发表于 2015-5-5 11:54:57 | 显示全部楼层
http://httphelper.sufeinet.com/万能框架可以直接访问
回复

使用道具 举报

 楼主| 发表于 2015-5-5 13:47:41 | 显示全部楼层
httphelper类为什么不可以呢?您6楼给出的代码跟我用你的小助手生成的代码没有什么区别啊,请指导
回复

使用道具 举报

发表于 2015-5-5 13:50:35 | 显示全部楼层
迈克老猫 发表于 2015-5-5 13:47
httphelper类为什么不可以呢?您6楼给出的代码跟我用你的小助手生成的代码没有什么区别啊,请指导

没有什么区别,你再看看有没有,直接复制我的代码执行是肯定可以成功的
回复

使用道具 举报

 楼主| 发表于 2015-5-5 14:00:30 | 显示全部楼层
我用您的在线万能框架试了一下,还是返回空值呢
无标题.jpg
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-11-24 07:00

© 2014-2021

快速回复 返回顶部 返回列表