c#根据关键句抓取百度搜索结果网页,感觉好慢好慢（第一次研究这个东西）

马东锋 · 发表于 2019-2-13 16:28:31

      private bool GetHttpHtml(string title)
      {
         HttpHelper helper = new HttpHelper();
         HttpItem item = new HttpItem();
         item.URL = @"https://www.baidu.com/s?wd=" + title + "&rsv_spt=1";//请求url
         item.Method = "get";//请求方式
         item.ResultType = ResultType.Byte;//返回类型
         HttpResult result = helper.GetHtml(item);//获取页面内容
         byte[] bytes = result.ResultByte;
         Stream stream = new MemoryStream(bytes);

         //将抓取的stream转化为html格式doc
         HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
         doc.Load(stream, Encoding.UTF8);

         //doc下取  div节点class="c-abstract"
         HtmlNodeCollection kwBox = doc.DocumentNode.SelectNodes("//div[@class='c-abstract']");

         //对比title和抓取结果
         List<string> emList = new List<string>();
         string temp = string.Empty;
         foreach (HtmlNode hn in kwBox)
         {
            temp = HttpHelper.GetBetweenHtml(hn.OuterHtml, "<em>", "</em>");
            if (title.Equals(temp))
            {
                  return false;
            }
         }
         return true;
      }

第一次弄这个东西，求教大家一下。
具体操作是：数据库有很多数据，根据数据的title，抓取按title百度搜索得到网页的结果，跟结果描述飘红的字体做对比。但是我按数据循环抓取的时候很慢。
如果数据多的话岂不是要处理很久。
原数据存的title是db3数据库文件，我打算每个文件开一个线程跑。先试了跑一个文件感觉很慢。半个小时5000条。

站长苏飞 · 发表于 2019-2-13 17:22:15

不算太慢了，这个受网速影响，同时打开多少网页本身就慢，可以尝试放服务器，或者带宽性能更高的电脑上试试

马东锋 · 发表于 2019-2-13 17:40:39

站长苏飞发表于 2019-2-13 17:22
不算太慢了，这个受网速影响，同时打开多少网页本身就慢，可以尝试放服务器，或者带宽性能更高的电脑上试试

好的，谢飞哥。这我就放心了

站长苏飞 · 发表于 2019-2-14 17:13:34

50377564 · 发表于 2019-2-25 17:14:34

用正则提取，百度搜索结果最大可以每页展现50条数据，100条数据2页就够了，很快的，你可以边采集边过虑重复再入库，入库后再处理，或者直接把你想要的飘红字符串进行Hash编码，然后查比较，又或者可以先预载入部分数据库里的数据到客户端，过虑的时候判断，具体怎么样我没试过

，抓取我感觉用正则挺快的。

		自动登录	找回密码
密码			马上注册

[其他] c#根据关键句抓取百度搜索结果网页,感觉好慢好慢（第一次研究这个东西）