请教：分离网页上的数据

千牵若水 · 发表于 2013-6-7 01:04:44

最近打算做一个电影收藏的软件。比如说在一个电影资源网站，就拿电影资源网来做例子吧！我通过搜索得到搜索到的结果的页面，比如说这个页面http://www.ziyuan5.com/index.php?s=video/search ，我需要获得这部电影的信息，比如电影名、导演之类的，但是它服务器返回的数据是JS和html代码，目前我是通过分析html代码来将这些资料信息分离出来的。但是每次页面结构都不一样，所以很不方便而且容易出现异常。我想问的是有没有什么更好的办法可以获得这些数据呢

站长苏飞 · 发表于 2013-6-7 08:33:09

如果你确定不是抓自己的网站那没有办法，别人的网站，你无法确定他们会不会修改，只能跟着变化，我相信变化应该都不会太大，没有说一个网站天天变界面的吧。
这个属性你看看估计都有相同之处，写好正则就行了，这个主要是看你正则表达式写的怎么样了。
建议把这个信息配置出来，就是正则，如果网站有变化了，就需要修改配置文件，页不需要修改源代码

千牵若水 · 发表于 2013-6-8 11:23:53

嗯谢谢你的建议很好！

		自动登录	找回密码
密码			马上注册

[求助] 请教：分离网页上的数据

浏览过的版块