数据库大数据访问的常用解决方法

时间:14-07-10 栏目:大数据 作者:爱说云网 评论:0 点击: 1,697 次

1、对海量数据进行分区操作

对海量数据进行分区操作十分必要,例如针对按年份存取的数据,我们可以按年进行分区,不同的数据库有不同的分区方式,不过处理机制大体相同。例如SQL Server的数据库分区是将不同的数据存于不同的文件组下,而不同的文件组存于不同的磁盘分区下,这样将数据分散开,减小磁盘I/O,减小了系统负荷,而且还可以将日志,索引等放于不同的分区下。

2、建立广泛的索引

对海量的数据处理,对大表建立索引是必行的,建立索引要考虑到具体情况,例如针对大表的分组、排序等字段,都要建立相应索引,一般还可以建立复合索引,对 经常插入的表则建立索引时要小心,笔者在处理数据时,曾经在一个ETL流程中,当插入表时,首先删除索引,然后插入完毕,建立索引,并实施聚合操作,聚合 完成后,再次插入前还是删除索引,所以索引要用到好的时机,索引的填充因子和聚集、非聚集索引都要考虑。

3、加大虚拟内存

如果系统资源有限,内存提示不足,则可以靠增加虚拟内存来解决。笔者在实际项目中曾经遇到针对18亿条的数据进行处理,内存为1GB,1个P4 2.4G的CPU,对这么大的数据量进行聚合操作是有问题的,提示内存不足,那么采用了加大虚拟内存的方法来解决,在6块磁盘分区上分别建立了6个 4096M的磁盘分区,用于虚拟内存,这样虚拟的内存则增加为 4096*6 + 1024 = 25600 M,解决了数据处理中的内存不足问题。

4、分批处理

海量数据处理难因为数据量大,那么解决海量数据处理难的问题其中一个技巧是减少数据量。可以对海量数据分批处理,然后处理后的数据再进行合并操作,这样逐 个击破,有利于小数据量的处理,不至于面对大数据量带来的问题,不过这种方法也要因时因势进行,如果不允许拆分数据,还需要另想办法。不过一般的数据按 天、按月、按年等存储的,都可以采用先分后合的方法,对数据进行分开处理。

5、使用数据仓库和多维数据库存储

数据量加大是一定要考虑OLAP的,传统的报表可能5、6个小时出来结果,而基于Cube的查询可能只需要几分钟,因此处理海量数据的利器是OLAP多维分析,即建立数据仓库,建立多维数据集,基于多维数据集进行报表展现和数据挖掘等。

6、负载均衡技术

负载均衡集群是由一组相互独立的计算机系统构成,通过常规网络或专用网络进行连接,由路由器衔接在一起,各节点相互协作、共同负载、均衡压力,对客户端来说,整个群集可以视为一台具有超高性能的独立服务器。

实现数据库的负载均衡技术,首先要有一个可以控制连接数据库的控制端。在这里,它截断了数据库和程序的直接连接,由所有的程序来访问这个中间层,然后再由中间层来访问数据库。这样,我们就可以具体控制访问某个数据库了,然后还可以根据数据库的当前负载采取有效的均衡策略,来调整每次连接到哪个数据库。

相关文章

试读《大数据时代的IT架构设计》
views 1697
大数据”的概念是在最早经历信息爆炸的学科--天文学和基因学中提出来的,而今已经渗透到了各行各业和生活中的方方面面。牛津大学教授维克托曾在《大数据时代》一书中指出,通过对海量数据进行分析,能够获得有巨大价值的产品和服务,或深刻的洞见。大数据引起了商业变革,管理变革,以致思维变革。调整信息系统的架构,使...
大数据 | 零售店铺十二大数据分析指标...
views 1732
零售店铺一天生意的好坏,如何提升,要掌握分析好十二大数据指标。 一、营业额 (1)营业额反映了店铺的生意走势。 针对以往销售数据,结合地区行业的发展状况,通过对营业额的每天定期跟进,每周总结比较,以此来调整促销及推广活动。 (2)为店铺及员工设立销售目标。 根据营业额数...
大数据分析处理平台的调度应该具备什么能力?...
views 1842
本文想讨论下大数据分析处理平台的调度从架构上看应该起到一个什么样的作用,达到一个什么样的能力。 谈调度之前,先说说大数据分析处理平台的定义:集成数据采集/导入/存储、高效统计分析/挖掘分析、结果数据可视化呈现等功能的一体化系统,它具有简单易用、高度管理、平滑扩展、定向定制、算法丰富、支持迁移、可视呈...
存储领域6大技术的侵略势力
views 2000
目前存储行业的中心范畴正处于六股实力的猛烈围攻之下,而且其间每股实力都雄心勃勃、期望能将作为现有存储阵列根底之中心网络文件存储及块存储阵列中的部分甚至一切计划彻底击退。 这些新近兴起的实力现已瞄准了块存储与文件存储阵列在数据拜访推迟以及运用本钱等方面存在的致命缺点; 此外现有计划通常在容量与性能的可...
国务院推六项政策扶持小微企业
views 1861
国务院总理李克强9月17日主持召开国务院常务会议,部署进一步扶持小微企业发展推动大众创业万众创新,决定全面建立临时救助制度、为困难群众兜底线救急难。  李克强说,今年经济下行压力依然很大,特别是七八月份以来增速放缓,但就业仍然实现了稳定增长。他说,“这里既有服务业增长的因素,但更重要的,还是通过改革...
利用云计算和大数据来防止渔业过度捕捞...
views 2063
谷歌最近推出了一项雄心勃勃的计划:结合云计算、大数据和卫星网络监控全球渔业活动,主要着眼于防止过度捕捞。 太平洋上的渔船信号(来自computerworld.com)     根据海洋环境保护组织Oceana的说法,SkyTruth曾和Oceana一起打造基于卫星数据分析的全局数据平台,可以让市民...
云计算遭遇大数据 碰撞出技术革命
views 1830
前两天有人在微博发问,用什么样的方式讲述大数据和云计算才能非专业人士听的更清楚,其实关于大数据的案例有很多,商业智能分析也多次提到过关于数据挖掘的价值和意义,只不过在今天看数据比以前还多而已,大数据并不可怕,可怕的是他的实时分析能力,会让缺点和真相赤裸裸暴露在人们面前,那么当云计算遭遇大数据一股脑向...
开源云平台 CloudStack 4.1.0 安装详解 – 5、基本资源域...
views 2560
CloudStack拥有强大的硬件管理能力,可以把企业的内部硬件资源统一管理起来,虚拟化为一个硬件资源池,实现按需分配。 CloudStack对硬件资源的管理功能全部放在“基础架构”菜单下。 登录后,选择左侧导航上的“基础架构”–>区域–>添加区域。 区域是CloudStack中最大的范...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: 数据库大数据访问的常用解决方法

数据库大数据访问的常用解决方法:等您坐沙发呢!

发表评论


读者排行