多网站爬虫如何做多规则处理

94w · 发表于 2019-12-21 09:46:19

例如从百度搜索 “c#” 关键词分别得到 n 个不同的网站链接，每个网站的标题、正文部分的代码规则都不统一，在不写各种匹配规则的情况下，如何精准的提取标题及内容
标题想到的方法是匹配 h1-h3 inntext
内容区有什么办法处理，因一般从搜索结果出来的网站很多都是顶级域名，只有后面几页才开始出现内页

站长苏飞 · 发表于 2019-12-21 14:48:40

都是有规则的，需要你去发现。

xinyudeng · 发表于 2019-12-25 16:04:22

11111111111111111111111111

		自动登录	找回密码
密码			马上注册

[HttpHelper] 多网站爬虫如何做多规则处理