请教一下关于获取网页图片或源码的问题

MyNameGT · 发表于 2016-7-7 11:19:18

刚学Httphelper，实在是不行了。直接用代码生成器访问，例如淘宝网

public string GetHttp(string url)
      {
         HttpHelper http = new HttpHelper();
         HttpItem item = new HttpItem()
         {
            URL = url,//URL    必需项
            Method = "GET",//URL    可选项默认为Get
            Timeout = 100000,//连接超时时间    可选项默认为100000
            ReadWriteTimeout = 30000,//写入Post数据超时时间    可选项默认为30000
            IsToLower = false,//得到的HTML代码是否转成小写    可选项默认转小写
            Cookie = "",//字符串Cookie    可选项
            UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0",//用户的浏览器类型，版本，操作系统    可选项有默认值
            Accept = "text/html, application/xhtml+xml, */*",// 可选项有默认值
            ContentType = "text/html",//返回类型可选项有默认值
            Referer = "http://www.sufeinet.com",//来源URL    可选项
            //Allowautoredirect = False,//是否根据３０１跳转    可选项
            //AutoRedirectCookie = False,//是否自动处理Cookie    可选项
            //CerPath = "d:\123.cer",//证书绝对路径    可选项不需要证书时可以不写这个参数
            //Connectionlimit = 1024,//最大连接数    可选项默认为1024
            Postdata = "",//Post数据    可选项GET时不需要写
            //ProxyIp = "192.168.1.105：2020",//代理服务器ID    可选项不需要代理时可以不设置这三个参数
            //ProxyPwd = "123456",//代理服务器密码    可选项
            //ProxyUserName = "administrator",//代理服务器账户名    可选项
            ResultType = ResultType.String,//返回数据类型，是Byte还是String
         };
         HttpResult result = http.GetHtml(item);
         string html = result.Html;
         string cookie = result.Cookie;
         return html;
      }

目的是获取网页源码，然后对源码进行处理获取所有的图片地址，然后我再下载图片。

不过这样写好像会出现问题，应该是网站没有加载完成，直接点击返回源码，然后分析发现图片地址只有一个...

应该怎么解决

站长苏飞 · 发表于 2016-7-7 12:27:34

淘宝使用的Ajax请求，你要抓包到Ajax请求才能提取图片的。

MyNameGT · 发表于 2016-7-7 14:49:22

那好像就没办法解决了....对新手来说

站长苏飞 · 发表于 2016-7-7 14:51:00

抓包分析一下就行了，没那么复杂

MyNameGT · 发表于 2016-7-7 14:54:09

站长苏飞发表于 2016-7-7 12:27
淘宝使用的Ajax请求，你要抓包到Ajax请求才能提取图片的。

不对啊，那么我们右键源码是可以看到大部分图片链接的，这就说明地址是在源码的，代码应该也可以实现才对的吧

MyNameGT · 发表于 2016-7-7 15:19:43

站长苏飞发表于 2016-7-7 14:51
抓包分析一下就行了，没那么复杂

不懂这一块，我应该怎么学习？

站长苏飞 · 发表于 2016-7-7 15:22:49

MyNameGT 发表于 2016-7-7 15:19
不懂这一块，我应该怎么学习？

抓包不会百度一下一大把

MyNameGT · 发表于 2016-7-7 15:46:46

站长苏飞发表于 2016-7-7 15:22
抓包不会百度一下一大把

囧，好的。

我已经迷糊了，用你的工具获取这个页面是可以获取到图片的，https://gd1.alicdn.com/imgextra/ ... XX_!!2141286258.jpg

但是我自己的正则却没有获取到，不知道是不是有问题.......我再试试

另外问下飞哥，生成的代码下面有一个ToImage，传入的byte参数应该是什么值？

站长苏飞 · 发表于 2016-7-7 15:50:46

MyNameGT 发表于 2016-7-7 15:46
囧，好的。

我已经迷糊了，用你的工具获取这个页面是可以获取到图片的，https://gd1.alicdn.com/imgex ...

这个你不用管吧，只管使就行了，图片的流数据

MyNameGT · 发表于 2016-7-7 15:58:49

没参数过去我不知道怎么调用

...

另外这个页面的源代码获取不到
https://gd1.alicdn.com/imgextra/ ... XX_!!2141286258.jpg
工具也是获取不到...

感谢飞哥耐心解答

		自动登录	找回密码
密码			马上注册

[HttpHelper] 请教一下关于获取网页图片或源码的问题