数据库大数据访问的常用解决方法

时间:14-07-10 栏目:大数据 作者:爱说云网 评论:0 点击: 1,364 次

1、对海量数据进行分区操作

对海量数据进行分区操作十分必要,例如针对按年份存取的数据,我们可以按年进行分区,不同的数据库有不同的分区方式,不过处理机制大体相同。例如SQL Server的数据库分区是将不同的数据存于不同的文件组下,而不同的文件组存于不同的磁盘分区下,这样将数据分散开,减小磁盘I/O,减小了系统负荷,而且还可以将日志,索引等放于不同的分区下。

2、建立广泛的索引

对海量的数据处理,对大表建立索引是必行的,建立索引要考虑到具体情况,例如针对大表的分组、排序等字段,都要建立相应索引,一般还可以建立复合索引,对 经常插入的表则建立索引时要小心,笔者在处理数据时,曾经在一个ETL流程中,当插入表时,首先删除索引,然后插入完毕,建立索引,并实施聚合操作,聚合 完成后,再次插入前还是删除索引,所以索引要用到好的时机,索引的填充因子和聚集、非聚集索引都要考虑。

3、加大虚拟内存

如果系统资源有限,内存提示不足,则可以靠增加虚拟内存来解决。笔者在实际项目中曾经遇到针对18亿条的数据进行处理,内存为1GB,1个P4 2.4G的CPU,对这么大的数据量进行聚合操作是有问题的,提示内存不足,那么采用了加大虚拟内存的方法来解决,在6块磁盘分区上分别建立了6个 4096M的磁盘分区,用于虚拟内存,这样虚拟的内存则增加为 4096*6 + 1024 = 25600 M,解决了数据处理中的内存不足问题。

4、分批处理

海量数据处理难因为数据量大,那么解决海量数据处理难的问题其中一个技巧是减少数据量。可以对海量数据分批处理,然后处理后的数据再进行合并操作,这样逐 个击破,有利于小数据量的处理,不至于面对大数据量带来的问题,不过这种方法也要因时因势进行,如果不允许拆分数据,还需要另想办法。不过一般的数据按 天、按月、按年等存储的,都可以采用先分后合的方法,对数据进行分开处理。

5、使用数据仓库和多维数据库存储

数据量加大是一定要考虑OLAP的,传统的报表可能5、6个小时出来结果,而基于Cube的查询可能只需要几分钟,因此处理海量数据的利器是OLAP多维分析,即建立数据仓库,建立多维数据集,基于多维数据集进行报表展现和数据挖掘等。

6、负载均衡技术

负载均衡集群是由一组相互独立的计算机系统构成,通过常规网络或专用网络进行连接,由路由器衔接在一起,各节点相互协作、共同负载、均衡压力,对客户端来说,整个群集可以视为一台具有超高性能的独立服务器。

实现数据库的负载均衡技术,首先要有一个可以控制连接数据库的控制端。在这里,它截断了数据库和程序的直接连接,由所有的程序来访问这个中间层,然后再由中间层来访问数据库。这样,我们就可以具体控制访问某个数据库了,然后还可以根据数据库的当前负载采取有效的均衡策略,来调整每次连接到哪个数据库。

相关文章

欧美国家大数据战略及市场情况
views 1620
大数据正逐渐走进社会经济生活的方方面面,科学研究、市场营销、客户服务、可持续发展、交通、医疗、教育等领域都有其用武之地。许多人相信,随着数据量的持续增长和分析工具的日益完善,大数据必将在未来社会中扮演者重要角色。 在欧美国家,有关大数据的讨论也正如火如荼: 一、国家战略 在欧美国家,大多数国家推出的...
大数据时代驾到:1万亿云计算蛋糕诱惑开始“接地气”...
views 1999
目前互联网应用更多的是消费者,未来将是工业互联网时代,规模要比现在大很多倍   6月5日至7日,第五届中国云计算大会在北京召开。阿里巴巴、百度、金山、IBM、新浪、雅虎等互联网公司技术负责人以及中国移动运营商悉数到场。   尽管北京接连几日大雨,但这并没有熄灭技术爱好者的热情,国家会议中心四楼600...
IBM推出新一代的数据云服务,帮助企业“多知先觉”...
views 1376
IBM公司近期宣布推出新一代的基于IBM云的数据服务,从而确保企业和组织机构中可以更为便捷地应用更为可靠的信息。 在大数据无处不在的世界里,随时获取和利用洞察力意味着比对手获得更大的竞争优势。如今,“在分析领域上每投入1美金,将得到13.01美金的回报”,这相比3年前提高了1.2倍 。一些新的基于云...
云计算让大数据概念越来越流行
views 1468
摘要: 日益增强的存储能力和日益下降的存储成本,以及不断改善的数据分析能力,共同促进了大数据在越来越多的企业和行业的应用。正如云计算等等已经为我们...... 关键词: 云计算大数据     日益增强的存储能力和日益下降的存储成本,以及不断改善的数据分析能力,共同促进了大数据在越来越多的企业和行...
大数据分析处理平台的调度应该具备什么能力?...
views 1527
本文想讨论下大数据分析处理平台的调度从架构上看应该起到一个什么样的作用,达到一个什么样的能力。 谈调度之前,先说说大数据分析处理平台的定义:集成数据采集/导入/存储、高效统计分析/挖掘分析、结果数据可视化呈现等功能的一体化系统,它具有简单易用、高度管理、平滑扩展、定向定制、算法丰富、支持迁移、可视呈...
大众点评的大数据实践
views 1344
  这一阶段的主要工作是建立了一个小的集群,并导入了少量用户进行测试。为了满足用户的需求,我们还调研了任务调度系统和数据交换系统。 我们使用的版本是当时最新的稳定版,Hadoop 0.20.203和Hive 0.7.1。此后经历过多次升级与Bugfix。现在使用的是Hadoop 1.0...
云计算大数据联手PE资本 最佳投资时机来临...
views 1434
  5月20日-23日,第六届云计算大会在北京举行。大会上,中国电子学会与北京藏山资本投资有限公司共同发起成立“中国云计算、大数据产业发展基金”。藏山资本作为中国电子学会在云计算、大数据方面唯一的资本合作方,基金一期规模2亿元人民币,主要投资于国内云计算、大数据等产业领域的成长型优秀企业。   行业...
工信部:推云计算、大数据、移动互联促中小企业信息化-搜狐财经...
views 1453
工信部总工程师朱宏任周一表示,今年将大力推进云计算、大数据、移动互联等新信息技术的应用,促进中小企业信息化。  朱宏任是在今日举行的2014中小企业信息化服务发布会作上述表示的。他还表示要组织实施中小企业两化融合能力提升行  相关公司股票走势 动和中小企业信息化推进工程,健全和完善中...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: 数据库大数据访问的常用解决方法

数据库大数据访问的常用解决方法:等您坐沙发呢!

发表评论


读者排行