苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 8332|回复: 11

[HttpHelper] 请教一下关于获取网页图片或源码的问题

[复制链接]
发表于 2016-7-7 11:19:18 | 显示全部楼层 |阅读模式
刚学Httphelper,实在是不行了。直接用代码生成器访问,例如淘宝网

public string GetHttp(string url)
        {
            HttpHelper http = new HttpHelper();
            HttpItem item = new HttpItem()
            {
                URL = url,//URL     必需项
                Method = "GET",//URL     可选项 默认为Get
                Timeout = 100000,//连接超时时间     可选项默认为100000
                ReadWriteTimeout = 30000,//写入Post数据超时时间     可选项默认为30000
                IsToLower = false,//得到的HTML代码是否转成小写     可选项默认转小写
                Cookie = "",//字符串Cookie     可选项
                UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0",//用户的浏览器类型,版本,操作系统     可选项有默认值
                Accept = "text/html, application/xhtml+xml, */*",//    可选项有默认值
                ContentType = "text/html",//返回类型    可选项有默认值
                Referer = "http://www.sufeinet.com",//来源URL     可选项
                //Allowautoredirect = False,//是否根据301跳转     可选项
                //AutoRedirectCookie = False,//是否自动处理Cookie     可选项
                //CerPath = "d:\123.cer",//证书绝对路径     可选项不需要证书时可以不写这个参数
                //Connectionlimit = 1024,//最大连接数     可选项 默认为1024
                Postdata = "",//Post数据     可选项GET时不需要写
                //ProxyIp = "192.168.1.105:2020",//代理服务器ID     可选项 不需要代理 时可以不设置这三个参数
                //ProxyPwd = "123456",//代理服务器密码     可选项
                //ProxyUserName = "administrator",//代理服务器账户名     可选项
                ResultType = ResultType.String,//返回数据类型,是Byte还是String
            };
            HttpResult result = http.GetHtml(item);
            string html = result.Html;
            string cookie = result.Cookie;
            return html;
        }


目的是获取网页源码,然后对源码进行处理获取所有的图片地址,然后我再下载图片。

不过这样写好像会出现问题,应该是网站没有加载完成,直接点击返回源码,然后分析发现图片地址只有一个...

应该怎么解决


1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2016-7-7 12:27:34 | 显示全部楼层
淘宝使用的Ajax请求,你要抓包到Ajax请求才能提取图片的。
 楼主| 发表于 2016-7-7 14:49:22 | 显示全部楼层
那好像就没办法解决了....对新手来说
发表于 2016-7-7 14:51:00 | 显示全部楼层
抓包分析一下就行了,没那么复杂
 楼主| 发表于 2016-7-7 14:54:09 | 显示全部楼层
站长苏飞 发表于 2016-7-7 12:27
淘宝使用的Ajax请求,你要抓包到Ajax请求才能提取图片的。

不对啊,那么我们右键源码是可以看到大部分图片链接的,这就说明地址是在源码的,代码应该也可以实现才对的吧
 楼主| 发表于 2016-7-7 15:19:43 | 显示全部楼层
站长苏飞 发表于 2016-7-7 14:51
抓包分析一下就行了,没那么复杂

不懂这一块,我应该怎么学习?
发表于 2016-7-7 15:22:49 | 显示全部楼层
MyNameGT 发表于 2016-7-7 15:19
不懂这一块,我应该怎么学习?

抓包不会百度一下一大把
 楼主| 发表于 2016-7-7 15:46:46 | 显示全部楼层
站长苏飞 发表于 2016-7-7 15:22
抓包不会百度一下一大把

囧,好的。

我已经迷糊了,用你的工具获取这个页面是可以获取到图片的,https://gd1.alicdn.com/imgextra/ ... XX_!!2141286258.jpg

但是我自己的正则却没有获取到,不知道是不是有问题.......我再试试

另外问下飞哥,生成的代码下面有一个ToImage,传入的byte参数应该是什么值?
发表于 2016-7-7 15:50:46 | 显示全部楼层
MyNameGT 发表于 2016-7-7 15:46
囧,好的。

我已经迷糊了,用你的工具获取这个页面是可以获取到图片的,https://gd1.alicdn.com/imgex ...

这个你不用管吧,只管使就行了,图片的流数据
 楼主| 发表于 2016-7-7 15:58:49 | 显示全部楼层
没参数过去我不知道怎么调用...

另外这个页面的源代码获取不到
https://gd1.alicdn.com/imgextra/ ... XX_!!2141286258.jpg
工具也是获取不到...

感谢飞哥耐心解答
您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2025-1-31 14:09

© 2014-2021

快速回复 返回顶部 返回列表