http://www.sufeinet.com/plugin.php?id=keke_group

苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 19118|回复: 22

[咨询站长] 不会使用爬虫类实现采集阿里巴巴关键词搜索页面么

[复制链接]
发表于 2016-9-18 09:55:32 | 显示全部楼层 |阅读模式
我用站长提供的工具测试了一下有时候可以获取到html有时候不行,站长能帮忙写个示例么?怎么获取关键词搜索链接,怎么获取搜索页面的html代码 麻烦了!


1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2016-9-18 11:14:23 | 显示全部楼层
你直接输入当然是不行的,他这个关键字是需要转码的,
不能直接输入手机这样的关键字,而是要转码,

url = string.Format(url, HttpHelper.URLEncode(kw,Encoding.GetEncoding("gbk")), pagesize);

看这一行代码中的HttpHelper.URLEncode(kw,Encoding.GetEncoding("gbk"))部分这就是转码的过程
转过之后再用就行了。
回复 支持 1 反对 0

使用道具 举报

发表于 2016-9-18 10:07:41 | 显示全部楼层
[C#] 纯文本查看 复制代码
                       string url = "https://s.1688.com/selloffer/offer_search.htm?keywords={0}&beginPage={1}";                   string kw = "手机";
            string pagesize = "2";
            url = string.Format(url, HttpHelper.URLEncode(kw), pagesize);
            HttpHelper http = new HttpHelper();
            HttpItem item = new HttpItem()
            {
                URL = url,//URL     必需项
                Method = "GET",//URL     可选项 默认为Get
                Timeout = 100000,//连接超时时间     可选项默认为100000
                ReadWriteTimeout = 30000,//写入Post数据超时时间     可选项默认为30000
                IsToLower = false,//得到的HTML代码是否转成小写     可选项默认转小写
                Cookie = "",//字符串Cookie     可选项
                UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0",//用户的浏览器类型,版本,操作系统     可选项有默认值
                Accept = "text/html, application/xhtml+xml, */*",//    可选项有默认值
                ContentType = "text/html",//返回类型    可选项有默认值
            };
            HttpResult result = http.GetHtml(item);
            string html = result.Html;
            string cookie = result.Cookie;



发表于 2016-9-18 10:18:06 | 显示全部楼层
应该再加上个编码,要不可能不管用
[C#] 纯文本查看 复制代码
      string url = "https://s.1688.com/selloffer/offer_search.htm?keywords={0}&beginPage={1}";
            string kw = "手机";
            string pagesize = "2";
            url = string.Format(url, HttpHelper.URLEncode(kw,Encoding.GetEncoding("gbk")), pagesize);
            HttpHelper http = new HttpHelper();
            HttpItem item = new HttpItem()
            {
                URL = url,//URL     必需项
                Method = "GET",//URL     可选项 默认为Get
                Timeout = 100000,//连接超时时间     可选项默认为100000
                ReadWriteTimeout = 30000,//写入Post数据超时时间     可选项默认为30000
                IsToLower = false,//得到的HTML代码是否转成小写     可选项默认转小写
                Cookie = "",//字符串Cookie     可选项
                UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0",//用户的浏览器类型,版本,操作系统     可选项有默认值
                Accept = "textml, application/xhtml+xml, */*",//    可选项有默认值
                ContentType = "textml",//返回类型    可选项有默认值
            };
            HttpResult result = http.GetHtml(item);
            string html = result.Html;
            string cookie = result.Cookie;

            Response.Write(html);

 楼主| 发表于 2016-9-18 10:29:49 | 显示全部楼层
站长苏飞 发表于 2016-9-18 10:07
[mw_shl_code=csharp,true]                       string url = "https://s.1688.com/selloffer/offer_sea ...

这个搜索链接不可以  直接用关键词是乱码 跟实际搜索的结果不一样
 楼主| 发表于 2016-9-18 10:33:13 | 显示全部楼层
客服~小小 发表于 2016-9-18 10:18
应该再加上个编码,要不可能不管用
[mw_shl_code=csharp,true]      string url = "https://s.1688.com/se ...

谢谢  你好  这个搜索链接不可以  直接用关键词是乱码 跟实际搜索的结果不一样,然后就是这个代码我在工具里试过 好像 get几次就获取不到数据了
发表于 2016-9-18 10:35:49 | 显示全部楼层
86616395 发表于 2016-9-18 10:33
谢谢  你好  这个搜索链接不可以  直接用关键词是乱码 跟实际搜索的结果不一样,然后就是这个代码我在工 ...

我刚给你的代码也不可以吗?我刚测试过没有问题啊。另外工具和实际开发环境有所不同,要Copy代码测试
 楼主| 发表于 2016-9-18 10:38:46 | 显示全部楼层
客服~小小 发表于 2016-9-18 10:35
我刚给你的代码也不可以吗?我刚测试过没有问题啊。另外工具和实际开发环境有所不同,要Copy代码测试

https://s.1688.com/selloffer/offer_search.htm?keywords={0}&beginPage={1}  链接这样不可以  搜索出来的结果 关键词是乱码  跟实际搜索的结果不一样
发表于 2016-9-18 10:50:15 | 显示全部楼层
86616395 发表于 2016-9-18 10:38
https://s.1688.com/selloffer/offer_search.htm?keywords={0}&beginPage={1}  链接这样不可以  搜索出来 ...

我上面发给你的不是转过码了吗?
在三楼的代码,你复制就可以看到,站长发的是不行,但我发给你的是可以的吧
[C#] 纯文本查看 复制代码
      string url = "https://s.1688.com/selloffer/offer_search.htm?keywords={0}&beginPage={1}";
            string kw = "手机";
            string pagesize = "2";
            url = string.Format(url, HttpHelper.URLEncode(kw,Encoding.GetEncoding("gbk")), pagesize);
            HttpHelper http = new HttpHelper();
            HttpItem item = new HttpItem()
            {
                URL = url,//URL     必需项
                Method = "GET",//URL     可选项 默认为Get
                Timeout = 100000,//连接超时时间     可选项默认为100000
                ReadWriteTimeout = 30000,//写入Post数据超时时间     可选项默认为30000
                IsToLower = false,//得到的HTML代码是否转成小写     可选项默认转小写
                Cookie = "",//字符串Cookie     可选项
                UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0",//用户的浏览器类型,版本,操作系统     可选项有默认值
                Accept = "textml, application/xhtml+xml, */*",//    可选项有默认值
                ContentType = "textml",//返回类型    可选项有默认值
            };
            HttpResult result = http.GetHtml(item);
            string html = result.Html;
            string cookie = result.Cookie;

            Response.Write(html);

 楼主| 发表于 2016-9-18 11:01:00 | 显示全部楼层
客服~小小 发表于 2016-9-18 10:50
我上面发给你的不是转过码了吗?
在三楼的代码,你复制就可以看到,站长发的是不行,但我发给你的是可以 ...

不是那个问题   https://s.1688.com/selloffer/offer_search.htm?keywords=手机&beginPage=1这样打开直接结果是 111.JPG 而搜索结果是这样的
222.JPG
请问 你知道怎么获取链接么?
您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-12-22 20:04

© 2014-2021

快速回复 返回顶部 返回列表