苏飞论坛

 找回密码
 马上注册

QQ登录

只需一步,快速开始

分布式系统框架(V2.0) 轻松承载百亿数据,千万流量!讨论专区 - 源码下载 - 官方教程

HttpHelper爬虫框架(V2.7-含.netcore) HttpHelper官方出品,爬虫框架讨论区 - 源码下载 - 在线测试和代码生成

HttpHelper爬虫类(V2.0) 开源的爬虫类,支持多种模式和属性 源码 - 代码生成器 - 讨论区 - 教程- 例子

查看: 5039|回复: 7

[其他] 采集关键词的问题

[复制链接]
发表于 2013-5-21 11:08:04 | 显示全部楼层 |阅读模式
我写了一个采集的小软件,用的是MYSQL数据库,软件先是抓取目标页面的HTML代码,然后用正则将关键词(多个关键词)提取出来,再把提取到的关键词一个个与Mysql数据库中的记录对比,如果关键词不存在,则添加进入数据库。但是这样的速度好慢,看进程CPU占用的时候,目前数据库里已经采集回来16万数据了,经常看到mysql的进行达到90%以上的,软件非常卡,采集的速度也越来越慢了,我想过用XML来存储关键词,但是十几万的关键词写到XML里面后再将新的关键词与XML里的关键词对比新关键词是否存在的话,估计会更卡,大家有没有什么好的办法?


1. 开通SVIP会员,免费下载本站所有源码,不限次数据,不限时间
2. 加官方QQ群,加官方微信群获取更多资源和帮助
3. 找站长苏飞做网站、商城、CRM、小程序、App、爬虫相关、项目外包等点这里
发表于 2013-5-21 11:11:06 | 显示全部楼层
我也想知道 顶楼主。。
发表于 2013-5-21 11:11:33 | 显示全部楼层
16万不应该吧,会不会是索引没有优化好啊,如果有索引的话Mysql也不应该是这个速度,我感觉应该是很快的,不应该是这个速度,建议你优化下索引
 楼主| 发表于 2013-5-21 11:12:33 | 显示全部楼层
有索引的
发表于 2013-5-21 11:21:30 | 显示全部楼层
有的话是怎么建的,你提供下查询条件与验证重复的条件,然后再提供下索引看看,如果配置的不对也是没有作用的,16不会这么慢,就算是160万也不会像你说的那样慢
发表于 2013-5-21 11:21:58 | 显示全部楼层
根据我的经验这方面应该是所引的问题
 楼主| 发表于 2013-5-21 15:11:29 | 显示全部楼层
真的是索引问题!我之前一直不知道原来非数值字段也可以设置成索引的!感谢哈
发表于 2013-5-21 16:06:47 | 显示全部楼层
myde520 发表于 2013-5-21 15:11
真的是索引问题!我之前一直不知道原来非数值字段也可以设置成索引的!感谢哈

这个是必须的,一般情况下自增的数字类型,基本上不需要设置索引,因为他们本身就是有顺序的,
您需要登录后才可以回帖 登录 | 马上注册

本版积分规则

QQ|手机版|小黑屋|手机版|联系我们|关于我们|广告合作|苏飞论坛 ( 豫ICP备18043678号-2)

GMT+8, 2024-12-26 13:38

© 2014-2021

快速回复 返回顶部 返回列表