苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 11534|回复: 4

[学生提问] httphelper有没有现成的解析或修改Postdata内字段值的功能?

[复制链接]
发表于 2015-7-4 18:33:36 | 显示全部楼层 |阅读模式
1金钱
Postdata 里有  很长一个字符串。 但是里面有一些数据需要程序提取 和修改。 有什么方法把它直接变成数组或者json吗? 为了 更方便的 抽取和替换这些信息。
有木有 现成的解析 和修改  Postdata 的 功能?





1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
 楼主| 发表于 2015-7-4 18:53:10 | 显示全部楼层
注册成为了苏飞的VIP会员感觉很爽! 提过的每一个问题 都得到了解答!
由衷的感谢 苏飞 和 苏飞的平台! 希望能跟随论坛成长!

如果有 解析 Postdata 这个字符串的功能。 解析成比较好处理的结构数据。可以用index指哪改哪。
然后 再把它恢复成一个字符串。 放入 header post 提交。
请教方法!
1、如何解析 ?
2、如何还原成字符串  ?
回复

使用道具 举报

 楼主| 发表于 2015-7-4 20:16:44 | 显示全部楼层

/// <summary>
/// 测试.
/// </summary>
public void Test()
{
    string pageURL = "http://www.google.com.hk/search?hl=zh-CN&source=hp&q=%E5%8D%9A%E6%B1%87%E6%95%B0%E7%A0%81&aq=f&aqi=g2&aql=&oq=&gs_rfai=";
    Uri uri = new Uri(pageURL);
    string queryString = uri.Query;
    NameValueCollection col = GetQueryString(queryString);
    string searchKey = col["q"];
    //结果 searchKey = "博汇数码"
}   

/// <summary>
/// 将查询字符串解析转换为名值集合.
/// </summary>
/// <param name="queryString"></param>
/// <returns></returns>
public static NameValueCollection GetQueryString(string queryString)
{
    return GetQueryString(queryString, null, true);
}

/// <summary>
/// 将查询字符串解析转换为名值集合.
/// </summary>
/// <param name="queryString"></param>
/// <param name="encoding"></param>
/// <param name="isEncoded"></param>
/// <returns></returns>
public static NameValueCollection GetQueryString(string queryString, Encoding encoding, bool isEncoded)
{
    queryString = queryString.Replace("?", "");
    NameValueCollection result = new NameValueCollection(StringComparer.OrdinalIgnoreCase);
    if (!string.IsNullOrEmpty(queryString))
    {
        int count = queryString.Length;
        for (int i = 0; i < count; i++)
        {
            int startIndex = i;
            int index = -1;
            while (i < count)
            {
                char item = queryString[i];
                if (item == '=')
                {
                    if (index < 0)
                    {
                        index = i;
                    }
                }
                else if (item == '&')
                {
                    break;
                }
                i++;
            }
            string key = null;
            string value = null;
            if (index >= 0)
            {
                key = queryString.Substring(startIndex, index - startIndex);
                value = queryString.Substring(index + 1, (i - index) - 1);
            }
            else
            {
                key = queryString.Substring(startIndex, i - startIndex);
            }
            if (isEncoded)
            {
                result[MyUrlDeCode(key, encoding)] = MyUrlDeCode(value, encoding);                    
            }
            else
            {
                result[key] = value;
            }
            if ((i == (count - 1)) && (queryString[i] == '&'))
            {
                result[key] = string.Empty;
            }
        }
    }
    return result;
}

/// <summary>
/// 解码URL.
/// </summary>
/// <param name="encoding">null为自动选择编码</param>
/// <param name="str"></param>
/// <returns></returns>
public static string MyUrlDeCode(string str, Encoding encoding)
{
    if (encoding == null)
    {
        Encoding utf8 = Encoding.UTF8;
        //首先用utf-8进行解码                     
        string code = HttpUtility.UrlDecode(str.ToUpper(), utf8);
        //将已经解码的字符再次进行编码.
        string encode = HttpUtility.UrlEncode(code, utf8).ToUpper();
        if (str == encode)
            encoding = Encoding.UTF8;
        else
            encoding = Encoding.GetEncoding("gb2312");
    }
    return HttpUtility.UrlDecode(str, encoding);
}

复制代码



说明
1.对于下面的编码方式中,Baidu是使用gb2312,而Google是使用UTF8的,所以这些编码如何解释呢?解决办法就是如MyUrlDeCode方法所写的,把编码进行一次解码,再把解码后的字符串进行编码,再对字符串进行比较,如果是相同的,那就是使用了这种编码的。还要注意进行ToUpper字符串。
2.

//博汇数码.
string baidu = HttpUtility.UrlDecode("wd=%B2%A9%BB%E3%CA%FD%C2%EB");
string google = HttpUtility.UrlDecode("q=%E5%8D%9A%E6%B1%87%E6%95%B0%E7%A0%81");

3.关于return GetQueryString(queryString, null, true); 如果你传入的是null,那就是表示你无法确认编码是gb2312还是UTF8,当你确认编码的,可以直接传入编码类型,比如return GetQueryString(queryString, Encoding.UTF8, true);
4.需要注意queryString = queryString.Replace("?", "");把?给过滤掉。
5.%B2%A9%BB%E3%CA%FD%C2%EB = %B2%A9 %BB%E3 %CA%FD %C2%EB(博汇数码gb2312)
6.%E5%8D%9A%E6%B1%87%E6%95%B0%E7%A0%81 = %E5%8D%9A %E6%B1%87 %E6%95%B0 %E7%A0%81(博汇数码utf-8)
回复

使用道具 举报

发表于 2015-7-4 22:10:02 | 显示全部楼层
这不是算自己找到方法了
回复

使用道具 举报

 楼主| 发表于 2015-7-4 23:02:54 | 显示全部楼层
嗯! 在 苏飞网上的 这几天。 感觉 进步明显。。 解决了 不少问题。。 再接再厉。。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2025-1-9 00:05

© 2014-2021

快速回复 返回顶部 返回列表