我现在使用httphelper爬取https://www.tmall.hk
使用代理,如果在网页访问,是可以访问获取内容,但是程序实现,会出现无法链接服务器或者403的异常,具体的代码如下:
[C#] 纯文本查看 复制代码 HttpHelper httpHelper=new HttpHelper();
HttpItem item=new HttpItem();
item.URL = "https://www.tmall.hk";
item.WebProxy = new WebProxy("120.198.231.45", 80);
item.ProxyIp = "120.198.231.45";
item.Method = "get";
item.Host = "www.tmall.hk";
item.ContentType = "text/html";
item.Header.Add("accept-encoding", "gzip, deflate, sdch");
item.Accept = "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8";
item.ProtocolVersion = HttpVersion.Version11;
item.Header.Add("accept-language", "zh-CN,zh;q=0.8");
item.UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 Safari/537.36";
HttpResult result=httpHelper.GetHtml(item);
如果不用代理配置的话,是可以直接获取内容的,但是一设置了代理就出现无法获取的情况,请各位大牛帮忙指导一下。
或者是否有类似的例子可以参考一下,请指导一下
|