http://www.sufeinet.com/plugin.php?id=keke_group

苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 8132|回复: 3

[C#语言基础] XPath语法 在C#中使用XPath例子与用法

[复制链接]
发表于 2013-1-18 14:56:35 | 显示全部楼层 |阅读模式
                         XPath语法 在C#中使用XPath例子与用法
XPath可以快速定位到Xml中的节点或者属性。XPath语法很简单,但是强大够用,它也是使用xslt的基础知识。
示例Xml:
  1. <?xml version="1.0" encoding="utf-8" ?>
  2. <pets>
  3.   <cat color="black" weight="10">
  4.     <price>100</price>
  5.     <desc>this is a black cat</desc>
  6.   </cat>
  7.   <cat color="white" weight="9">
  8.     <price>80</price>
  9.     <desc>this is a white cat</desc>
  10.   </cat>
  11.   <cat color="yellow" weight="15">
  12.     <price>80</price>
  13.     <desc>this is a yellow cat</desc>
  14.   </cat>


  15.   <dog color="black" weight="10">
  16.     <price>100</price>
  17.     <desc>this is a black dog</desc>
  18.   </dog>
  19.   <dog color="white" weight="9">
  20.     <price>80</price>
  21.     <desc>this is a white dog</desc>
  22.   </dog>
  23.   <dog color="yellow" weight="15">
  24.     <price>80</price>
  25.     <desc>this is a yellow dog</desc>
  26.   </dog>
  27. </pets>
复制代码
XPath的语法:
1. XPath中的符号
符号
说明
示例
示例说明
/
表示从根节点开始选择
/pets
选择根节点pets
表示节点和子节点之间的间隔符
/pets/dog
选择pets节点下的dog节点
//xx
表示从整个xml文档中查找,而不考虑当前节点位置
//price
选择文档中所有的price节点
.
单个英文半角句点表示选择当前节点
/pets/.
选择pets节点
..
双点,表示选择父节点
/pets/dog[0]/..
表示pets节点,也就是第一个dog节点的父节点
@xx
表示选择属性
//dog/@color
表示选择所有dog节点的color属性集合
[…]
中括号表示选择条件,括号内为条件
//dog[@color=’white’]
所有color为white的dog节点
//dog[/price<100]
所有price字节点值小于100的dog节点
中括号内数字为节点索引,类似c#等语言中的数组,数组下标是从1开始的
//dog[1]
第1个dog节点
//dog[last()]
最后一个dog节点,last()是xPath内置函数
|
单竖杠表示合并节点结合
//dog[@color=’white’] | //cat[@color=’white’]
color属性为white的dog节点和color属性为white的cat节点
*
星号表示任何名字的节点或者属性
//dog/*
表示dog节点的所有子节点
//dog/@*
表示dog节点的所有属性节点

2. XPath数学运算符
+         加号表示加
-        表示数字相减
*        表示乘以
div        表示除以,这里数学上的除号/已经被用作节点之间分隔符了
mod        表示取余
3. XPath逻辑运算符
=        等于,相当于c#中的 ==
!=        不等于
>        大于
>=        大于等于
<        小于
<=        小于等于
and        并且 与关系
or        或者 或关系
4. XPath Axes 从字面翻译这个是XPath轴的意思,但根据我的理解这个翻译成XPath节点关系运算关键字更合适,就是一组关键字加上::双冒号表示和当前节点有关系的一个或者一组节点.
使用语法: axisname::nodetest[predicate] 即轴名字::节点名字[取节点条件]
具体说明如下:

关键字
说明
示例
示例说明
ancestor
当前节点的父祖节点
ancestor::pig
当前节点的祖先节点中的pig节点
ancestor-or-self
当前节点以及其父祖节点
ancestor::pig
attribute
当前节点的所有属性
attribute::weight
相当于@weightattribute::@是等价的
child
当前节点的所有字节点
child::*[name()!=’price’]
选择名字不是price的子节点
descendant
子孙节点
descendant::*[@*]
有属性的子孙节点
descendant-or-self
子孙节点以及当前节点
descendant-or-self::*
following
Xml文档中当前节点之后的所有节点
following::*
following-sibling
当前节点的同父弟弟节点
following-sibling::
preceding
Xml文档中当前节点之前的所有节点
preceding::*
namespace
选取当前节点的所有命名空间节点
namespace::*
parent
当前节点的父节点
parent::
相当于双点..
preceding-sibling
当前节点之后的同父兄节点
preceding-sibling::*
self
当前节点
self::*
相当于单点.


5. 常用的XPath函数介绍:
在XPath表达式中常用的函数有下面两个:
position() 表示节点的序号例如 //cat[position() = 2] 表示取序号为2的dog节点
last() 表示取最后一个节点 //cat[last()]
name() 表示当前节点名字 /pets/*[name() != 'pig'] 表示/pets下名字不是pig的子节点
XPath的函数还有很多,包括字符串函数,数字函数和时间函数等,具体可以参考w3的网站。
以上是XPath的语法,下面我们看下如何在.Net中使用XPath
在.Net中可以通过XPathDocument或者XmlDocument类使用XPath。XPathDocument是只读的方式定位Xml节点或者属性文本等,而XmlDocument则是可读写的。
如下代码示例展示了如何使用XPathDocument和XmlDocument
[code=csharp]using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Xml.XPath;
using System.Xml;

namespace UseXPathDotNet
{
    class Program
    {
        static void Main(string[] args)
        {
            UseXPathWithXPathDocument();

            UseXPathWithXmlDocument();

            Console.Read();
        }

        static void UseXPathWithXmlDocument()
        {
            XmlDocument doc = new XmlDocument();
            doc.Load("http://www.cnblogs.com/yukaizhao/rss");
            //使用xPath选择需要的节点
            XmlNodeList nodes = doc.SelectNodes("/rss/channel/item[position()<=10]");
            foreach (XmlNode item in nodes)
            {
                string title = item.SelectSingleNode("title").InnerText;
                string url = item.SelectSingleNode("link").InnerText;
                Console.WriteLine("{0} = {1}", title, url);
            }
        }

        static void UseXPathWithXPathDocument()
        {
            XPathDocument doc = new XPathDocument("http://www.cnblogs.com/yukaizhao/rss");
            XPathNavigator xPathNav = doc.CreateNavigator();
            //使用xPath取rss中最新的10条随笔
            XPathNodeIterator nodeIterator = xPathNav.Select("/rss/channel/item[position()<=10]");
            while (nodeIterator.MoveNext())
            {
                XPathNavigator itemNav = nodeIterator.Current;
                string title = itemNav.SelectSingleNode("title").Value;
                string url = itemNav.SelectSingleNode("link").Value;
                Console.WriteLine("{0} = {1}",title,url);
            }

        }
    }
}[/code]
XPath使用示例,请看下面的代码注释
[code=csharp]using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.IO;
using System.Xml;

namespace UseXPath1
{
    class Program
    {
        static void Main(string[] args)
        {
            string xml = @"<?xml version=""1.0"" encoding=""utf-8"" ?>
<pets>
  <cat color=""black"" weight=""10"" count=""4"">
    <price>100</price>
    <desc>this is a black cat</desc>
  </cat>
  <cat color=""white"" weight=""9"" count=""5"">
    <price>80</price>
    <desc>this is a white cat</desc>
  </cat>
  <cat color=""yellow"" weight=""15"" count=""1"">
    <price>110</price>
    <desc>this is a yellow cat</desc>
  </cat>


  <dog color=""black"" weight=""10"" count=""7"">
    <price>114</price>
    <desc>this is a black dog</desc>
  </dog>
  <dog color=""white"" weight=""9"" count=""4"">
    <price>80</price>
    <desc>this is a white dog</desc>
  </dog>
  <dog color=""yellow"" weight=""15"" count=""15"">
    <price>80</price>
    <desc>this is a yellow dog</desc>
  </dog>

    <pig color=""white"" weight=""100"" count=""2"">
    <price>8000</price>
    <desc>this is a white pig</desc>   
    </pig>
</pets>";

            using (StringReader rdr = new StringReader(xml))
            {
                XmlDocument doc = new XmlDocument();
                doc.Load(rdr);

                //取所有pets节点下的dog字节点
                XmlNodeList nodeListAllDog = doc.SelectNodes("/pets/dog");

                //所有的price节点
                XmlNodeList allPriceNodes = doc.SelectNodes("//price");

                //取最后一个price节点
                XmlNode lastPriceNode = doc.SelectSingleNode("//price[last()]");

                //用双点号取price节点的父节点
                XmlNode lastPriceParentNode = lastPriceNode.SelectSingleNode("..");

                //选择weight*count=40的所有动物,使用通配符*
                XmlNodeList nodeList = doc.SelectNodes("/pets/*[@weight*@count=40]");

                //选择除了pig之外的所有动物,使用name()函数返回节点名字
                XmlNodeList animalsExceptPigNodes = doc.SelectNodes("/pets/*[name() != 'pig']");
               

                //选择价格大于100而不是pig的动物
                XmlNodeList priceGreaterThan100s = doc.SelectNodes("/pets/*[price div @weight >10 and name() != 'pig']");
                foreach (XmlNode item in priceGreaterThan100s)
                {
                    Console.WriteLine(item.OuterXml);
                }

                //选择第二个dog节点
                XmlNode theSecondDogNode = doc.SelectSingleNode("//dog[position() = 2]");

                //使用xpath ,axes 的 parent 取父节点
                XmlNode parentNode = theSecondDogNode.SelectSingleNode("parent::*");

                //使用xPath选择第二个dog节点前面的所有dog节点
                XmlNodeList dogPresibling = theSecondDogNode.SelectNodes("preceding::dog");

                //取文档的所有子孙节点price
                XmlNodeList childrenNodes = doc.SelectNodes("descendant::price");
            }

            Console.Read();
        }
    }
}[/code]




1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2013-5-9 10:56:20 | 显示全部楼层
真是难得给力的帖子啊,强烈支持楼主。
发表于 2013-5-21 08:20:08 | 显示全部楼层
正在转到htmlagilitypack,

以前用的mshtml,有一些问题没有办法处理,

这个教程不错!
发表于 2016-4-1 21:19:57 | 显示全部楼层
这个可以,但是用链接就不行了,郁闷
您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-12-19 05:06

© 2014-2021

快速回复 返回顶部 返回列表