苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 5972|回复: 4

[HttpHelper] getAList为何只能取得一半的a标签

[复制链接]
发表于 2017-8-25 14:21:46 | 显示全部楼层 |阅读模式
"</strong>\n</div>\n<ol><label><em>1</em><a href=\"http://www.loldytt.com/Juqingdianying/YDDWN/\">伊豆的舞女</a></label><b>剧情电影</b><span>有下载</span><strong>2015-10-05</strong></ol>\n<ol class=\"hang2\"><label><em>2</em><a href=\"http://www.loldytt.com/Juqingdianying/YWNL/\">艳舞女郎</a></label><b>剧情电影</b><span>有下载</span><strong>2015-08-30</strong></ol>\n<ol><label><em>3</em><a href=\"http://www.loldytt.com/Juqingdianying/SHWN/\">上海舞女</a></label><b>剧情电影</b><span>有下载</span><strong>2015-08-17</strong></ol>\n<ol class=\"hang2\"><label><em>4</em><a href=\"http://www.loldytt.com/Kongbudianying/CKYZTYWN/\">残酷移植脱衣舞女</a></label><b>恐怖电影</b><span>有下载</span><strong>2015-06-18</strong></ol>\n<ol><label><em>5</em><a href=\"http://www.loldytt.com/Juqingdianying/JWNHPWSN/\">街舞女孩/霹雳舞少女</a></label><b>剧情电影</b><span>有下载</span><strong>2015-06-15</strong></ol>\n<ol class=\"hang2\"><label><em>6</em><a href=\"http://www.loldytt.com/Aiqingdianying/WNCQ/\">舞女纯情</a></label><b>爱情电影</b><span>有下载</span><strong>2015-06-13</strong></ol>\n<div id=\"xinxii\">\n<div id=\"yx\">\n<ul>\n<li><div id=\"qjsoa\"><script src=\"http://img.linux001.com/forever/so3001.js\"></script></div></li>\n<li><div id=\"qjsob\"><script src=\"http://img.linux001.com/forever/so3002.js\"></script></div></li>\n<li><div id=\"qjsoc\"><script src=\"http://img.linux001.com/forever/so3003.js\"></script></div></li>\n</ul>\n</div>\n</div>\n<div id=\"xinxii\">\n<div id=\"yx\">\n<ul>\n<li><div id=\"qjsoa\"><script src=\"http://img.linux001.com/forever/so3004.js\"></script></div></li>\n<li><div id=\"qjsob\"><script src=\"http://img.linux001.com/forever/so3005.js\"></script></div></li>\n<li><div id=\"qjsoc\"><script src=\"http://img.linux001.com/forever/so3006.js\"></script></div></li>\n</ul>\n</div>\n</div>\n</div>\n<div"
用getAList从这个字符串中取a标签,只能到得3个。请问是什么原因?


1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2017-8-25 15:06:44 | 显示全部楼层
<a[\s\S]+?href[="']([\s\S]+?)["'\s+][\s\S]+?>([\s\S]+?)</a>
 楼主| 发表于 2017-8-25 16:11:00 | 显示全部楼层

我应该不用写正则表达式了吧。我想我应该直接调用getAList方法就行了吧
发表于 2017-8-25 16:11:51 | 显示全部楼层
cufer 发表于 2017-8-25 16:11
我应该不用写正则表达式了吧。我想我应该直接调用getAList方法就行了吧

这里的正则也不是万能的,会有漏洞,时常需要修复。呵呵
 楼主| 发表于 2017-8-25 16:30:52 | 显示全部楼层
哦,好吧
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-12-27 05:32

© 2014-2021

快速回复 返回顶部 返回列表