分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程
HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成
HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子
List<AItem> alist = HttpHelper.GetAList(html);在vs 2010 编译中,提示无法转化。。不知道我应该设置那里?初学 |
感觉提取标签没必要~~~~~可以采用集成jumony~ 功能就会强大很多了。 |
给提个建议,增加两个参数,开始提取位置字符,结束位置字符,这样就可以提取某两个字符间的链接了。这个功能在获取帖子列表的时候很常见,可以过滤导航、友情链接等。 |
azon 发表于 2014-11-15 10:51 恩可以,这部分,我也在改革中,先谢谢你的好建议了 |
这个功能创意相当地好! 使用过程也发现一些疑问,如下图是http://www.amazon.com的内容 amazon首页 一、属性html提取的内容有时太多,很多其它标签的内容也全进来了。图中上半部分是正常的。下半部分的html基本上没法用了。 二、属性href提取的链接内容因为各个网站的不同,有时是完整链接,有时是二级路径,这时能否加个自动判断,形成完整路径?如图中的链接需要加上http://www.amazon.com才能形成可访问的完整链接。 三、属性text提取的一般是文本,但有时也发现提取的是图片的链接格式。如:<img src='//g-ec2.images-amazon.com/images/G/01/prime/piv/YourPrimePIV_fallback_CTA._V337321878_.jpg' />这种格式。能否也做个区分?纯文本或图片可选。 以上是使用这个功能的一点感受,不知老大能否考虑改进一下。 语言冒犯之处,敬请谅解哟。 |
强烈支持楼主ing…… |
受教了学习中…… |