我简单的贴上两个方法,其实就是做小偷或者采集程序,常常用到的一些处理html的一些方法。我这也不是很全,贴几个,站长有其他好的代码,一定要加进框架里啊。。
[C#] 纯文本查看 复制代码 /// <summary>
/// 执行正则提取出值
/// </summary>
/// <param name="RegexString">正则表达式</param>
/// <param name="RemoteStr">HtmlCode源代码</param>
/// <returns></returns>
public string GetRegValue(string RegexString, string RemoteStr)
{
string MatchVale = "";
Regex r = new Regex(RegexString);
Match m = r.Match(RemoteStr);
if (m.Success)
{
MatchVale = m.Value;
}
return MatchVale;
}
[C#] 纯文本查看 复制代码 /// <summary>
/// 替换HTML源代码
/// </summary>
/// <param name="HtmlCode">html源代码</param>
/// <returns></returns>
public string RemoveHTML(string HtmlCode)
{
string MatchVale = HtmlCode;
foreach (Match s in Regex.Matches(HtmlCode, "<.+?>"))
{
MatchVale = MatchVale.Replace(s.Value, "");
}
return MatchVale;
}
[C#] 纯文本查看 复制代码 /// <summary>
/// 替换通过正则获取字符串所带的正则首尾匹配字符串
/// </summary>
/// <param name="RegValue">要替换的值</param>
/// <param name="regStart">正则匹配的首字符串</param>
/// <param name="regEnd">正则匹配的尾字符串</param>
/// <returns></returns>
public string RegReplace(string RegValue, string regStart, string regEnd)
{
string s = RegValue;
if (RegValue != "" && RegValue != null)
{
if (regStart != "" && regStart != null)
{
s = s.Replace(regStart, "");
}
if (regEnd != "" && regEnd != null)
{
s = s.Replace(regEnd, "");
}
}
return s;
}
还有获取a连接和图片连接的就不贴了。框架已经有了。
|