http://www.sufeinet.com/plugin.php?id=keke_group

苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 9010|回复: 5

[HttpHelper] 淘宝搜索商品列表抓取问题

[复制链接]
发表于 2015-6-4 13:42:40 | 显示全部楼层 |阅读模式
1金钱
淘宝搜索商品列表抓取问题,如搜索硬盘,http://s.taobao.com/search?q=硬盘,获取到的列表页面,抓取列表中的:商品名称、店铺名,价格,付款数、评论数。现在用HttpHelper获取到的html中body没有商品列表数据,只有在script中有一段相关的json数据。但如果用webBrowser1.Document.Body.InnerHtml,就可以获取到,再通过CSS选择器,获取数据。这个有谁做过,可否提供下方法,有偿也可以。



1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2015-6-4 14:03:35 | 显示全部楼层
这个内容 使用Httphelper可以轻松的获取吧
[C#] 纯文本查看 复制代码
            HttpHelper http = new HttpHelper();
            HttpItem item = new HttpItem()
            {
                URL = "http://s.taobao.com/search?q=%E7%A1%AC%E7%9B%98&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20150604&ie=utf8",//URL     必需项    
                Method = "get",//URL     可选项 默认为Get   
                IsToLower = false,//得到的HTML代码是否转成小写     可选项默认转小写   
                Cookie = "",//字符串Cookie     可选项   
                Referer ="",//来源URL     可选项   
                Postdata = "",//Post数据     可选项GET时不需要写   
                Timeout = 100000,//连接超时时间     可选项默认为100000    
                ReadWriteTimeout = 30000,//写入Post数据超时时间     可选项默认为30000   
                UserAgent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)",//用户的浏览器类型,版本,操作系统     可选项有默认值   
                ContentType = "text/html",//返回类型    可选项有默认值   
                Allowautoredirect = false,//是否根据301跳转     可选项   
                //CerPath = "d:\123.cer",//证书绝对路径     可选项不需要证书时可以不写这个参数   
                //Connectionlimit = 1024,//最大连接数     可选项 默认为1024    
                ProxyIp = "",//代理服务器ID     可选项 不需要代理 时可以不设置这三个参数    
                //ProxyPwd = "123456",//代理服务器密码     可选项    
                //ProxyUserName = "administrator",//代理服务器账户名     可选项   
                ResultType = ResultType.String
            };
            HttpResult result = http.GetHtml(item);
            string html = result.Html;
            string cookie = result.Cookie;

回复

使用道具 举报

发表于 2015-6-4 14:08:43 | 显示全部楼层
获取之后通知我的Json工具生成 一个对象然后反序列化一下完事

http://tool.sufeinet.com/Creater ... 8d7edc718d0be5adccf
回复

使用道具 举报

 楼主| 发表于 2015-6-4 15:06:46 | 显示全部楼层
本帖最后由 lzb821 于 2015-6-4 15:08 编辑

多谢苏飞回复
我想知道,你的这个链接,后面的参数j是什么意思,这个参数从哪里来,为什么会直接自动填写入那个json数据,是在你们的服务器上有存吗?http://tool.sufeinet.com/Creater ... 8d7edc718d0be5adccf
还有就是,我是一个新手,不知道获取到html数据后,如何将那段json提取后并调用解析出来。调用解析这部分是否要用到万能框架里面的内容,如果是的话,我就去购买。完全新手,见谅。有没有整个例子的简单流程的教程
回复

使用道具 举报

 楼主| 发表于 2015-6-4 17:10:57 | 显示全部楼层
现在已用字符串截取的方式获取到了那个json串
回复

使用道具 举报

发表于 2015-6-4 21:28:52 | 显示全部楼层
用框架里面的把json转为类就行了,j是我服务器存储的id
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-11-24 04:18

© 2014-2021

快速回复 返回顶部 返回列表