|
1金钱
抓京东页面的商品信息。
京东一个关键词的搜索结果页会有60个商品。我采用webbrowser来抓取。使用htmlagilitypack配合xpath来解析。
现在有个问题是:只能获取到30个商品的信息,外加最后一个“scroll_loading”。如下图:
如我采用360浏览器的调试工具,发现有30个商品。
当我把进度条拉到京东最底部的时候,60个商品就显示完整了。如下图:
我在项目里使用webbrowser调试的时候,发现及时把页面拉到最底部,也只能获取到前三十个商品的信息,而获取不到后三十个商品信息,请问站长这种情况怎么搞才能获取到完整的60个商品信息?
附部分代码:
while (webBrowser1.ReadyState != WebBrowserReadyState.Complete)
{
Application.DoEvents();
Thread.Sleep(10);
}
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(webBrowser1.DocumentText);
HtmlNodeCollection categoryNodeList = doc.DocumentNode.SelectNodes(@"//*[@id=""plist""]/ul/li");
MessageBox.Show(categoryNodeList.Count.ToString());
补充内容 (2015-7-9 18:03):
刚才看了一下获取到的源码页,貌似只获取了30个商品的信息,即使把浏览器控件拉到最底部也是30个。请问站长如何才能获取完整的搜索结果页的源码呢? |
|