苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 8113|回复: 4

[HttpHelper] 求助飞哥,本人小白,求助这个网站数据抓取的思路

[复制链接]
发表于 2018-3-22 11:17:04 | 显示全部楼层 |阅读模式
刚刚接触飞哥的HttpHelper类,想实现真气网空气质量数据的抓取,下面是网址:https://map.zq12369.com/#/layer= ... ographic=113.657684,34.779972,11
我抓取了这个网页的数据:

<!DOCTYPE html><html lang="en"><head><meta charset="utf-8"><meta http-equiv="x-ua-compatible" content="ie=edge"><meta content="width=device-width,initial-scale=1,maximum-scale=1,user-scalable=0" name="viewport"><link rel="shortcut icon" href="/logo.png"><title>AiryMap::真气网全国风场气象辅合污染地图</title><meta name="keywords" content="PM2.5雾霾地图、污染地图、风场图、气象辅合地图、真气网环境大数据中心"><meta name="description" content="真气网AirMap。。。"><link href="/static/css/main.a72db4a3.css" rel="stylesheet"></head><body style="overflow:scroll;overflow-x:hidden;overflow-y:hidden"><div id="root"></div><div style="display:none"><script type="text/javascript">var cnzz_s_tag=document.createElement("script");cnzz_s_tag.type="text/javascript",cnzz_s_tag.async=!0,cnzz_s_tag.charset="utf-8",cnzz_s_tag.src="https://w.cnzz.com/c.php?id=1254317176&async=1";var root_s=document.getElementsByTagName("script")[0];root_s.parentNode.insertBefore(cnzz_s_tag,root_s)</script></div><script type="text/javascript" src="/static/js/main.082ab9f2.js"></script></body></html>
网页中没有包含我想要的空气质量数据,请问如果要抓取这个页面的数据,往下的实现思路是什么呢?


1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2018-3-22 12:59:06 | 显示全部楼层
这是一个动态的网页,你抓包看看,不仅仅是一个请求这个简单。
发表于 2018-3-22 13:00:28 | 显示全部楼层
要取单一一个城市的就单击它,应该会有一个请求,直接抓这个包应该就行了。
 楼主| 发表于 2018-3-22 17:36:46 | 显示全部楼层
我抓到包了,分析一下,确定数据包的请求地址是:
Request URL: https://map.zq12369.com/data//cu ... .txt?t=201803221700
但是返回的结果显示的都是乱码,能看出用了什么格式加密的吗?有没有方法解析出来?
发表于 2018-3-22 22:48:02 | 显示全部楼层
在抓取获取数据的时候,调整下编码格式试试
您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-12-26 14:47

© 2014-2021

快速回复 返回顶部 返回列表