|
1金钱
本帖最后由 我是MT 于 2015-3-6 15:58 编辑
项目背景: 是这样子的, 我写了一个采集工具 , 每次采集比如 1万条数据入库考虑是否重复 . 比如查询 url .是不是在库里面重复出现,如果已经有了就不要入库了. 我下面画的图, 就是一个典型案例.
比如说我在N久之前采集了一条数据 ("华为6" 的这条数据) 已经在sqlite数据库(本地库)里面了. 现在我不小心,(因为是随机爬虫) 又爬到了这条数据 .想要入库的时候 . 发现库里面已经有这个重复URL了(如上图所示). 这条数据就不入库了. 包括 商品名称, 价格 销量的一整条数据 .那么关于如何建立索引的一系列问题来了:
问题一: C#使用本地数据库,比如sqlite , sqlserver 的时候如何建立索引 ? 还是说C#根据不同的库 , 建立索引的方式和方法都会不同 .
问题二:C#每次建立数据库索引, 都需要花费很长的时间吗?
问题三:如果采用云存储的方式, 我想用C# + Mysql 数据库的方式建立数据索引 .每次sql查询在本机发送到云端Mysql进行.所以不同的库建立索引的机制是否不同. 还是说根据语言来 . C#建立索引的机制都是一样的?
好了,就是上面的3个问题. 因为 我不想采集重复的数据. 所以暂时想到这么个办法. 但对于C#的数据库索引比较陌生, 还望高手解答.
|
|