苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 7473|回复: 6

[学生提问] 第一次遇见一个防采集这么厉害的网站

[复制链接]
发表于 2019-5-20 09:25:52 | 显示全部楼层 |阅读模式
需要采集的网站 http://ggzy.xzsp.tj.gov.cn/jyxx/index_1.jhtml 是个列表  直接get 可以获取到数据!<a href="http://ggzy.xzsp.tj.gov.cn:80/jyxxcgjg/921893.jhtml" target="_blank">
上面是详细页面的连接地址!关键问题来了:
在网页中直接点这个地址.URL变成了 http://ggzy.xzsp.tj.gov.cn/jyxxcgjg/lT2qya3oMxf2KamI87wI4Q.jhtml,
而且是在浏览器中 输入http://ggzy.xzsp.tj.gov.cn:80/jyxxcgjg/921893.jhtml 返回403错误,
关键是我查询了baidu  ,上面显示的信息是收录了,
这个问题感觉很困惑!有谁知道吗 ?


1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
 楼主| 发表于 2019-5-20 10:29:25 | 显示全部楼层
有个问题搞不懂的就是!URL鼠标点击可以打开!但是右键在新窗口打开就不行了!403错误.
发表于 2019-5-20 16:07:00 | 显示全部楼层
抓包看看,是不是对来源做了限制
发表于 2019-5-20 16:08:07 | 显示全部楼层
这应该是文章给删除了,死链接
 楼主| 发表于 2019-5-21 08:15:34 | 显示全部楼层
不是的,连接有效,但是必须鼠标点击,我设置了 Referer 也一样没用,点击连接以后URL是变了的
 楼主| 发表于 2019-5-21 08:17:03 | 显示全部楼层
还有问题是百度都收录了,没有完全屏蔽爬虫,这个真不知道了。。
发表于 2019-5-31 17:51:57 | 显示全部楼层
本帖最后由 lt11881 于 2019-5-31 18:01 编辑

js在页面执行
[JavaScript] 纯文本查看 复制代码
var srcs = CryptoJS.enc.Utf8.parse("文章id");var k = CryptoJS.enc.Utf8.parse("qnbyzzwmdgghmcnm");
var en = CryptoJS.AES.encrypt(srcs, k, {
    mode: CryptoJS.mode.ECB,
    padding: CryptoJS.pad.Pkcs7
});
var ddd = en.toString();
ddd = ddd.replace(/\//g, "^");
ddd = ddd.substring(0, ddd.length - 2);



ddd就是加密后的那一串


您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-12-25 16:04

© 2014-2021

快速回复 返回顶部 返回列表