苏飞论坛»主页 › 苏飞工作室作品 › HttpHelper爬虫框架 › 获取所有的A链接并生成List对象（href、text链接文本，h ...

获取所有的A链接并生成List对象（href、text链接文本，html整个标签）

查看数: 16476 | 评论数: 7 | 收藏 0

关灯 | 提示：支持键盘翻页<-左右->

帖子模式

站长苏飞

发布时间: 2014-9-11 08:22

正文摘要:

导读部分【HttpHelper万能框架】教程目录贴 http://www.sufeinet.com/thread-9989-1-1.html 教程部分我们在得到一个网页时，里面肯定会有或多或少的A连接。那么我们怎么样获取这些A链接呢。 ...

xmt_yll 发表于 2015-12-30 10:27:48

List<AItem> alist = HttpHelper.GetAList(html);在vs 2010 编译中，提示无法转化。。不知道我应该设置那里？初学

redcat 发表于 2015-5-22 19:54:07

感觉提取标签没必要~~~~~可以采用集成jumony~ 功能就会强大很多了。

sanler 发表于 2015-5-18 00:06:11

给提个建议，增加两个参数，开始提取位置字符，结束位置字符，这样就可以提取某两个字符间的链接了。这个功能在获取帖子列表的时候很常见，可以过滤导航、友情链接等。

站长苏飞 发表于 2014-11-15 11:03:08

azon 发表于 2014-11-15 10:51
这个功能创意相当地好！
使用过程也发现一些疑问，如下图是http://www.amazon.com的内容

恩可以，这部分，我也在改革中，先谢谢你的好建议了

azon 发表于 2014-11-15 10:51:29

这个功能创意相当地好！
使用过程也发现一些疑问，如下图是http://www.amazon.com的内容

amazon首页

一、属性html提取的内容有时太多，很多其它标签的内容也全进来了。图中上半部分是正常的。下半部分的html基本上没法用了。
二、属性href提取的链接内容因为各个网站的不同，有时是完整链接，有时是二级路径，这时能否加个自动判断，形成完整路径？如图中的链接需要加上http://www.amazon.com才能形成可访问的完整链接。
三、属性text提取的一般是文本，但有时也发现提取的是图片的链接格式。如：<img src='//g-ec2.images-amazon.com/images/G/01/prime/piv/YourPrimePIV_fallback_CTA._V337321878_.jpg' />这种格式。能否也做个区分？纯文本或图片可选。

以上是使用这个功能的一点感受，不知老大能否考虑改进一下。
语言冒犯之处，敬请谅解哟。

huanghua1234 发表于 2014-10-17 10:05:16

强烈支持楼主ing……

ching126 发表于 2014-9-12 13:42:46

受教了学习中……

		自动登录	找回密码
密码			马上注册

获取所有的A链接并生成List对象（href、text链接文本，html整个标签）

正文摘要:

回复