如何采集javascript 生成的网页？爬虫怎么获取执行完js后的html源文件？

ZZG · 发表于 2013-5-28 10:12:40

爬虫怎么获取执行完js后的html源文件？如何采集javascript 生成的网页？采集过程中，很多页面是ajax 返回的结果，通过js 显示在网页上的。请问各位这样的网页怎么获取。这一般是网页加载完成。过10秒之后的网页内容。

站长苏飞 · 发表于 2013-5-28 10:20:37

爬虫是不能获取JS执行的代码的，所有的爬虫也都不会获取这些代码，这就是Ajax不利至Seo的地方。
如你想获取只有单独请求Ajax返回结果，因为Http本身是不会执行js的，执行JS的浏览器。你就是等上10年也不会有结果的，你说的过10秒之后的网页内容。那是在浏览器里可以看到。Http里是只有Html源代码的。不会有JS执行。
或者可以使用 webBrowser

ZZG · 发表于 2013-5-28 10:32:08

英雄所见略同

站长苏飞 · 发表于 2013-5-28 10:38:39

ZZG 发表于 2013-5-28 10:32
英雄所见略同

你打算怎么处理

qq576733600 · 发表于 2013-6-8 10:19:12

通过java的ScriptEnginee来执行这个js
C# 也有类似的方法。
不过我一般都是用的 webBrowser

massbetter · 发表于 2016-9-5 00:08:38

webBrowser 怎么执行这个js ？

		自动登录	找回密码
密码			马上注册

[其他] 如何采集javascript 生成的网页？爬虫怎么获取执行完js后的html源文件？