http://www.sufeinet.com/plugin.php?id=keke_group

苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

获取所有的A链接并生成List对象(href、text链接文本,html整个标签)

查看数: 16476 | 评论数: 7 | 收藏 0
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2014-9-11 08:22

正文摘要:

导读部分 【HttpHelper万能框架】教程目录贴  http://www.sufeinet.com/thread-9989-1-1.html 教程部分 我们在得到一个网页时,里面肯定会有或多或少的A连接。那么我们怎么样获取这些A链接呢。 ...

回复

xmt_yll 发表于 2015-12-30 10:27:48
List<AItem> alist = HttpHelper.GetAList(html);在vs 2010 编译中,提示无法转化。。不知道我应该设置那里?初学
redcat 发表于 2015-5-22 19:54:07
感觉提取标签没必要~~~~~可以采用集成jumony~ 功能就会强大很多了。
sanler 发表于 2015-5-18 00:06:11
给提个建议,增加两个参数,开始提取位置字符,结束位置字符,这样就可以提取某两个字符间的链接了。这个功能在获取帖子列表的时候很常见,可以过滤导航、友情链接等。
站长苏飞 发表于 2014-11-15 11:03:08
azon 发表于 2014-11-15 10:51
这个功能创意相当地好!
使用过程也发现一些疑问,如下图是http://www.amazon.com的内容

恩可以,这部分,我也在改革中,先谢谢你的好建议了
azon 发表于 2014-11-15 10:51:29
这个功能创意相当地好!
使用过程也发现一些疑问,如下图是http://www.amazon.com的内容

amazon首页

amazon首页


一、属性html提取的内容有时太多,很多其它标签的内容也全进来了。图中上半部分是正常的。下半部分的html基本上没法用了。
二、属性href提取的链接内容因为各个网站的不同,有时是完整链接,有时是二级路径,这时能否加个自动判断,形成完整路径?如图中的链接需要加上http://www.amazon.com才能形成可访问的完整链接。
三、属性text提取的一般是文本,但有时也发现提取的是图片的链接格式。如:<img src='//g-ec2.images-amazon.com/images/G/01/prime/piv/YourPrimePIV_fallback_CTA._V337321878_.jpg' />这种格式。能否也做个区分?纯文本或图片可选。

以上是使用这个功能的一点感受,不知老大能否考虑改进一下。
语言冒犯之处,敬请谅解哟。
huanghua1234 发表于 2014-10-17 10:05:16
强烈支持楼主ing……
ching126 发表于 2014-9-12 13:42:46
受教了学习中……

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-11-15 12:20

© 2014-2021

快速回复 返回顶部 返回列表