苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 5199|回复: 8

[其他] 为什么获取不了登陆之后页面的html呢。源码放里面了,大侠们帮帮忙

[复制链接]
发表于 2013-8-31 17:15:59 | 显示全部楼层 |阅读模式
[code=csharp]using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Linq;
using System.Text;
using System.Windows.Forms;
using DotNet.Utilities;
using System.Text.RegularExpressions;

namespace PP2
{
    public partial class Form1 : Form
    {
        public Form1()
        {
            InitializeComponent();
        }
        string cookie = "";
        private void button1_Click(object sender, EventArgs e)
        {
            string url1 = "https://www.paypal.com/c2/cgi-bin/webscr?cmd=_login-run";
            HttpResult resout = GetHttpResult(url1, "Get","","");
            textBox3.Text = GetRegex(resout.Html, @"input name=""auth"" type=""hidden"" value=""(.+?)""><input ",1);


            string emailInfo = textBox1.Text;
            string password = textBox2.Text;
            string url = "https://www.paypal.com/c2/cgi-bin/webscr?cmd=_login-submit";
            string postData = "login_cmd=&login_params=&login_email=" + textBox1.Text + "&login_password=" + textBox2.Text + "&target_page=0&submit.x=%E7%99%BB%E5%BD%95&auth=" + textBox3.Text + "&form_charset=UTF-8&browser_name=MSIE&browser_version=9&browser_version_full=9.0&operating_system=Windows";
            HttpResult result = GetHttpResult(url, "Post", "", postData);
            cookie = result.Cookie;
            textBox4.Text = cookie;
            richTextBox1.Text = result.Html;
            url = "https://www.paypal.com/c2/cgi-bin/webscr?cmd=_profile-summary&nav=0.4";
            HttpResult result1 = GetHttpResult(url, "Get", cookie, "");
            //richTextBox1.Text = result.Html;
        }



        private static HttpResult GetHttpResult(string url, string method, string cookie, string postData)
        {
            HttpHelper http = new HttpHelper();
            HttpItem item = new HttpItem()
            {
                URL = url,//URL     必需项   
                Method = method,//URL     可选项 默认为Get   
                IsToLower = false,//得到的HTML代码是否转成小写     可选项默认转小写   
                Cookie = cookie,//字符串Cookie     可选项   
                Referer = "",//来源URL     可选项   
                Postdata = postData,//Post数据     可选项GET时不需要写   
                Timeout = 100000,//连接超时时间     可选项默认为100000   
                ReadWriteTimeout = 30000,//写入Post数据超时时间     可选项默认为30000   
                UserAgent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)",//用户的浏览器类型,版本,操作系统     可选项有默认值   
                ContentType = "text/html",//返回类型    可选项有默认值   
                Allowautoredirect = true,//是否根据301跳转     可选项   
                //CerPath = "d:\123.cer",//证书绝对路径     可选项不需要证书时可以不写这个参数   
                //Connectionlimit = 1024,//最大连接数     可选项 默认为1024   
                ProxyIp = "",//代理服务器ID     可选项 不需要代理 时可以不设置这三个参数   
                //ProxyPwd = "123456",//代理服务器密码     可选项   
                //ProxyUserName = "administrator",//代理服务器账户名     可选项   
            };
            HttpResult result = http.GetHtml(item);
            //string html = result.Html;
            //string cookie = result.Cookie;
            return result;
        }

        /// <summary>
        /// 单条数据正则获取
        /// </summary>
        /// <param name="code">源码</param>
        /// <param name="ruler">正则表达式</param>
        /// <param name="id">返回结果下标</param>
        /// <returns>string</returns>
        private static string GetRegex(string code, string ruler, int id)
        {
            string matchValue = "";
            Regex r = new Regex(ruler, RegexOptions.Singleline);
            Match m = r.Match(code);
            if (m.Success)
            {
                matchValue = m.Groups[id].ToString();
            }
            return matchValue;
        }


        private void Form1_Load(object sender, EventArgs e)
        {

        }


    }
}
[/code]


1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2013-8-31 21:51:10 | 显示全部楼层
这个你调试看看,估计是没登录成功
 楼主| 发表于 2013-8-31 23:42:20 | 显示全部楼层
站长苏飞 发表于 2013-8-31 21:51
这个你调试看看,估计是没登录成功

我直接用一个post表单,postdata发过去,在浏览器上是可以登陆成功的 。

 楼主| 发表于 2013-8-31 23:47:24 | 显示全部楼层
站长苏飞 发表于 2013-8-31 21:51
这个你调试看看,估计是没登录成功

怎么能调试看出是否登陆成功呢。我把,cookie 也显示出来看了。cookie 好像是有的
他这个站好像就是登陆了要跳转,不知道是不是跳转引起的。但是我带着cookie去访问其他页面应该是可以的吧

发表于 2013-9-1 09:11:05 | 显示全部楼层
Allowautoredirect = false设置成Fasle如果有跳转需要手动带Cookie请求跳转到的页面,而不是自动跳转,自动跳转是不带Cookie的。
 楼主| 发表于 2013-9-1 11:54:19 | 显示全部楼层
站长苏飞 发表于 2013-9-1 09:11
Allowautoredirect = false设置成Fasle如果有跳转需要手动带Cookie请求跳转到的页面,而不是自动跳转,自 ...

[code=csharp]            cookie = result.Cookie;
            textBox4.Text = cookie;
            richTextBox1.Text = result.Html;
            url = "https://www.paypal.com/c2/cgi-bin/webscr?cmd=_profile-summary&nav=0.4";
            HttpResult result1 = GetHttpResult(url, "Get", cookie, "");
            //richTextBox1.Text = result.Html;[/code]

我这段代码应该就是手动带的cookie去访问的,但是访问出来的结果是没登陆的

发表于 2013-9-1 13:30:58 | 显示全部楼层
代码里没有应该这样的问题,有就是有,没有就是问题,你还是调试看看有没有登录成功再说后面的操作吧。先看看Cookie值有吗?或者是看一下登录后的页面是否成功
发表于 2013-9-1 20:54:19 | 显示全部楼层
先仔细分析一下抓包过程,看下什么时候返回的cookie,就算是跳转,他也得给跳转页cookie ,一般在post登陆之后就会返回cookie ,
发表于 2013-9-4 12:27:42 | 显示全部楼层
会不会是没有带COOK登陆吧
您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-12-27 21:11

© 2014-2021

快速回复 返回顶部 返回列表