苏飞论坛

标题: 采集Google遇到的问题 [打印本页]

作者: bluescharp    时间: 2014-1-16 12:53
标题: 采集Google遇到的问题
主要是想获取收录数。
但Google搜索结果页似乎加密了,如果需要采集,可能还得解析JS。于是想使用webbrowser控件直接获取源码,但不知道如何在 网页加载完毕 后,获取 解密后的 源码。搜了下,也没找到好的解决方法。

作者: 站长苏飞    时间: 2014-1-16 12:59
你看错了吧,没有加密,直接Get请求就能获取到,你只需要提取结果就行了
作者: bluescharp    时间: 2014-1-16 13:14
https://www.google.com.hk/webhp? ... mp;q=site:baidu.com

我用的Chorme浏览器,直接右键源码里找不到  "About 190,000,000 results"。 但右键->"审查元素",就能看到:
<div id="resultStats">About 190,000,000 results<nobr>  (0.09 seconds)&nbsp;</nobr></div>
作者: bluescharp    时间: 2014-1-16 13:14
站长苏飞 发表于 2014-1-16 12:59
你看错了吧,没有加密,直接Get请求就能获取到,你只需要提取结果就行了

https://www.google.com.hk/webhp? ... mp;q=site:baidu.com

我用的Chorme浏览器,直接右键源码里找不到  "About 190,000,000 results"。 但右键->"审查元素",就能看到:
<div id="resultStats">About 190,000,000 results<nobr>  (0.09 seconds)&nbsp;</nobr></div>

作者: 站长苏飞    时间: 2014-1-16 13:16
只要能取到190,000,000不就行了
作者: bluescharp    时间: 2014-1-16 13:48
站长苏飞 发表于 2014-1-16 13:16
只要能取到190,000,000不就行了

用的Httphelper获取google源码报错。

[C#] 纯文本查看 复制代码
“utf-8 http-equiv=content-type”不是受支持的编码名。
参数名: name


[C#] 纯文本查看 复制代码
            HttpHelper http = new HttpHelper();
            HttpItem item = new HttpItem()
            {
                //URL = "http://www.baidu.com/s?wd=site%3Abaidu.com",
                URL = "https://www.google.com.hk/webhp?hl=en#hl=en&newwindow=1&q=site:baidu.com",
                ResultType = ResultType.Byte,
            };
            HttpResult result = http.GetHtml(item);
            string html = result.Html;


作者: 站长苏飞    时间: 2014-1-16 15:20
bluescharp 发表于 2014-1-16 13:48
用的Httphelper获取google源码报错。

[C#] 纯文本查看 复制代码
“utf-8 http-equiv=content-type”不 ...

[mw_shl_code=csharp,true]            HttpHelper http = new HttpHelper();
            HttpItem item = new HttpItem()
            {
                URL = "https://www.google.com.hk/webhp?hl=en#hl=en&newwindow=1&q=site:baidu.com",//URL     必需项   
                Method = "get",//URL     可选项 默认为Get   
                IsToLower = false,//得到的HTML代码是否转成小写     可选项默认转小写   
                Cookie = "",//字符串Cookie     可选项   
                Referer ="",//来源URL     可选项   
                Postdata = "",//Post数据     可选项GET时不需要写   
                Timeout = 100000,//连接超时时间     可选项默认为100000   
                ReadWriteTimeout = 30000,//写入Post数据超时时间     可选项默认为30000   
                UserAgent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)",//用户的浏览器类型,版本,操作系统     可选项有默认值   
                ContentType = "text/html",//返回类型    可选项有默认值   
                Allowautoredirect = false,//是否根据301跳转     可选项   
                //CerPath = "d:\123.cer",//证书绝对路径     可选项不需要证书时可以不写这个参数   
                //Connectionlimit = 1024,//最大连接数     可选项 默认为1024   
                ProxyIp = "",//代理服务器ID     可选项 不需要代理 时可以不设置这三个参数   
                //ProxyPwd = "123456",//代理服务器密码     可选项   
                //ProxyUserName = "administrator",//代理服务器账户名     可选项   
                ResultType = ResultType.String
            };
            HttpResult result = http.GetHtml(item);
            string html = result.Html;
            string cookie = result.Cookie;
正常的啊,如果你不是下载的最新版Httphelper请下载最新版的

作者: bluescharp    时间: 2014-1-16 15:47
站长苏飞 发表于 2014-1-16 15:20
[mw_shl_code=csharp,true]            HttpHelper http = new HttpHelper();
            HttpItem ite ...

谢谢苏大的耐心回帖。
1. 编码需要手工指定,我加上了 "Encoding=Encoding.UTF8,",就可以获取,否则就不行。苏大不妨试试。可能是因为google页面里没有指定编码吧,baidu页面里就指定了utf-8,直接用HttpHelper获取无压力。
2. 获取到的Google搜索结果页是下面的代码...完全找不到<div id="resultStats">About 190,000,000 results<nobr>{:soso_e141:}


(, 下载次数: 55)