http://www.sufeinet.com/plugin.php?id=keke_group

苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 5986|回复: 6

[求助] 一个过滤网站的采集

[复制链接]
发表于 2019-4-26 16:22:03 | 显示全部楼层 |阅读模式
http://www.sxzhongrun.cn/news_list.php?lanmu=25&c_id=13
这个网站直接打开需要执行一个js
按抓包的内容采集不到真实页面只是js代码,下面是抓包

    • Request URL:
      http://www.sxzhongrun.cn/news_list.php?lanmu=25&c_id=13
    • Request Method:
      GET
    • Status Code:

      200 OK
    • Remote Address:
      222.171.249.201:80

  • Response Headersview source
    • Cache-Control:
      no-store, no-cache, must-revalidate, post-check=0, pre-check=0
    • Connection:
      close
    • Content-Type:
      text/html;charset=utf-8
    • Date:
      Fri, 26 Apr 2019 08:15:38 GMT
    • Expires:
      Thu, 19 Nov 1981 08:52:00 GMT
    • Pragma:
      no-cache
    • Server:
      IIS
    • X-Powered-By:
      WAF/2.0
    • X-Powered-By:
      WAF/2.0

  • Request Headersview source
    • Accept:
      text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
    • Accept-Encoding:
      gzip, deflate, sdch
    • Accept-Language:
      zh-CN,zh;q=0.8
    • AlexaToolbar-ALX_NS_PH:
      AlexaToolbar/alxg-3.3
    • Connection:
      keep-alive
    • Cookie:
      safedog-flow-item=4BB79AF79A46646D16D11848D15ED48A; PHPSESSID=ur4aeho1pade07bas0rve8etv4; UM_distinctid=16a58adc713c2-0630c398f15345-d6a580b-100200-16a58adc714773; CNZZDATA1253261798=1571369698-1556265942-http%253A%252F%252Fwww.sxzhongrun.cn%252F%7C1556265942
    • DNT:
      1
    • Host:
      www.sxzhongrun.cn
    • Referer:
      http://www.sxzhongrun.cn/news_list.php?lanmu=25&c_id=13&WebShieldSessionVerify=ZSxGN4EDUJGxK92P0rOh
    • Upgrade-Insecure-Requests:
      1
    • User-Agent:
      Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2900.0 Iron Safari/537.36

  • Query String Parametersview sourceview URL encoded

  •             item = new HttpItem()
  •             {
  •                 URL = "http://www.sxzhongrun.cn/news_list.php?lanmu=25&c_id=13",//URL
  •                 Method = "get",//URL     可选项 默认为Get
  •                 Referer = "http://www.sxzhongrun.cn/news_list.php?lanmu=25&c_id=13&WebShieldSessionVerify=ZSxGN4EDUJGxK92P0rOh",
  •                 Cookie = "safedog-flow-item=4BB79AF79A46646D16D11848D15ED48A; PHPSESSID=ur4aeho1pade07bas0rve8etv4; UM_distinctid=16a58adc713c2-0630c398f15345-d6a580b-100200-16a58adc714773; CNZZDATA1253261798=1571369698-1556265942-http%253A%252F%252Fwww.sxzhongrun.cn%252F%7C1556265942",
  •                 Accept = "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
  •                 UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2900.0 Iron Safari/537.36"
  •             };
  •             HttpResult result = http.GetHtml(item);




1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
 楼主| 发表于 2019-4-26 16:23:21 | 显示全部楼层
最下是我写的代码!这样获取不到采集的页面!请大虾帮忙看下!
发表于 2019-4-27 10:14:42 | 显示全部楼层
http://www.sxzhongrun.cn/news_list.php?lanmu=25&c_id=13  用我的框架直接请求就行啊。能取到内容
发表于 2019-4-27 10:15:06 | 显示全部楼层
 楼主| 发表于 2019-5-8 16:18:47 | 显示全部楼层
要怎么弄?我弄了几次都是没抓到需要的数据
通过
http://tool.sufeinet.com/HttpHel ... anmu=25&c_id=13
设定Header 总显示未将对象引用设置到对象的实例。  
 楼主| 发表于 2019-5-8 16:21:57 | 显示全部楼层
view plainprint?
返回的Header:  
Connection:Close  
Pragma:no-cache  
Content-Length:435  
Cache-Control:no-store  
Content-Type:text/html; Charset=gb2312  
Date:Wed, 08 May 2019 08:21:57 GMT  
Server:IIS  
  
  
返回的Cookie:  
  
  
最后访问URL:http://www.sxzhongrun.cn/news_list.php?lanmu=25&c_id=13  
  
301跳转URL:  
  
返回的HTML:  
<html><head><meta http-equiv="Content-Type" content="text/html; charset=gb2312" /><meta http-equiv="pragma" content="no-cache" /><meta http-equiv="cache-control" content="no-store" /><meta http-equiv="Connection" content="Close" /><script>function JumpSelf(){   self.location="/news_list.php?lanmu=25&c_id=13&WebShieldSessionVerify=vpjXA6tzKVZS48FCSRkx";}</script><script>setTimeout("JumpSelf()",700);</script></head><body></body></html>  
 楼主| 发表于 2019-5-11 16:59:27 | 显示全部楼层
求飞哥 指教下!
您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-11-22 06:51

© 2014-2021

快速回复 返回顶部 返回列表