苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 4592|回复: 0

[Asp.Net] 关于使用HtmlAgilityPack

[复制链接]
发表于 2016-1-26 15:17:00 | 显示全部楼层 |阅读模式
/// <summary>
        /// 根据输入的地址获取其文档节点对象
        /// </summary>
        /// <param name="url">地址</param>
        /// <returns></returns>
        public static HtmlAgilityPack.HtmlNode GetHtmlNodeFromLink(string url)
        {
            try{
                Uri uri = new Uri(url);

                HttpWebRequest request = (HttpWebRequest)WebRequest.Create(uri);
                WebResponse response = request.GetResponse();

                Stream stream = response.GetResponseStream();
                StreamReader read = new StreamReader(stream, Encoding.GetEncoding("gb2312"));
                string str = read.ReadToEnd();

                HtmlAgilityPack.HtmlDocument html = new HtmlAgilityPack.HtmlDocument();
                html.LoadHtml(str);
                return html.DocumentNode;
            }
            catch{return null;}
        }

        /// <summary>
        /// 根据输入的URL地址输出指定XPATH下的节点集合
        /// </summary>
        /// <param name="url">地址</param>
        /// <param name="xPath">过滤地址</param>
        /// <param name="imgs">过滤地址</param>
        /// <param name="links">过滤地址</param>
        /// <param name="title">标题</param>
        /// <returns></returns>
        public static bool GetGalleryInfo(HtmlAgilityPack.HtmlNode htmlNode,string xPath,ref string[] imgs, ref string[] links,ref string[] title)
        {
            try
            {
                HtmlNodeCollection hnc = htmlNode.SelectNodes(xPath);//"//div[@class='slideBannerA homeSlideAD1']"
                if (hnc.Count < 1)
                    return false;
                links = new string[hnc.Count];
                title = new string[hnc.Count];
                imgs = new string[hnc.Count];
                int i = 0;
                string cateDataRegex = @"background-image:url\((?<image>.+)\)";
                Regex re = new Regex(cateDataRegex, RegexOptions.IgnoreCase | RegexOptions.Singleline | RegexOptions.IgnorePatternWhitespace);
                foreach (HtmlNode node in hnc)
                {
                    HtmlAttributeCollection hac = node.Attributes;
                    links[i] = hac["href"].Value;
                    imgs[i] = hac["style"] == null ? hac["src2"].Value : re.Match(hac["style"].Value).Groups["image"].Value;
                    title[i++] = string.IsNullOrEmpty(hac["title"].Value) ? hac["alt"].Value : hac["title"].Value;
                }
                return true;
            }
            catch { return false; }
        }

        //调用

            string[] strLink;
            string[] strLinAlt;
            string[] strImg;
            string urls = "http://www.newegg.com.cn";
            HtmlAgilityPack.HtmlNode nodes = GetHtmlNodeFromLink(urls);
            GetGalleryInfo(nodes, "//div[@class='slideBannerA homeSlideAD1']/div[1]/div[1]/a", out strImg, out strLink,out strLinAlt);



1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2025-1-19 19:42

© 2014-2021

快速回复 返回顶部 返回列表