Monet DB学习笔记

时间:14-12-30 栏目:大数据技术文章 作者:爱说云网 评论:0 点击: 3,085 次

架构:

三层软件架构:

SQL front-end:前端SQL解析,数据模型优化,降低数据中间结果的总量,最后将SQL语句解析为MALMonetDB Assembly Language)。

Tactical-optimizers:一系列优化模块的集合,组成优化管道,这个模块提供功能从符号处理到实时数据分发和执行。

Columnar abstract-machine kernel:列式内核

MAL

MonetDB Assembly Language(MAL)

MALSQLXQuery前端查询的目标语言。

SQL语句通过语法解析解析成MALMAL在经过优化器优化,重写成优化后的MAL,提供给内核执行。

内核

执行内核是一个运行MAL语言的虚拟机。

复杂的查询被拆分成多个步骤,每个步骤操作一个列,叫bulk processing。所有的BAT操作被映射成简单的数组操作,一个并行处理引擎。

内核运行过程中会根据输入属性和系统状态选择合适的优化算法和实现来执行MAL语言。

    运行过程中操作优化:会根据输入属性和系统状态选择合适的优化算法和实现。 

特性:

列式存储模型:

在内存中数据都是以BAT(Binary Association Table) (OID,value) pairs形式存放,数据超过了内存和虚拟内存,使用磁盘存放文件,磁盘和内存通过内存映射实现。

基于CPU优化的查询架构

自动索引

实时查询优化

发布周期:

大概每4个月发布一个版本,每个月一个补丁包。

编译安装

rpm -ivh pcre-devel-6.6-6.el5_6.1.x86_64.rpm

./configure --prefix=/opt/pub/MonetDB

make

make install

export PATH=$PATH:/opt/pub/MonetDB/bin

实用程序:

mclient: 客户端连接命令

monetdb: 数据库操作命令

mondetdbd: 守护进程操作命令

mserver5: mserver5是当前MonetDB服务器提供所有固定请求的,调整mserver5内核使用的参数。

mysqldump:dump数据库

守护进程

一个机器上一个数据库实例,多个数据库实例可以同时在一个机器上,但是每个实例所使用的资源会受影响。

监控所有实例,作为客户端代理提供每个实例的访问,另外处理故障恢复和数据并发引擎。

Monetdb:守护进程,一台机器上只能有一个实例,一个实例有多个进程。

 (1)创建守护进程目录

% monetdbd create ~/my-dbfarm

2)查看守护进程设置

% monetdbd get all ~/my-dbfarm

3)修改参数

% monetdbd set port=54321 ~/my-dbfarm

4)启动守护进程

% monetdbd start ~/my-dbfarm

5)创建一个数据库

% monetdb create my-first-db

6)查看数据库状态,指定端口号,指定对应的数据库

% monetdb -p54321 status

7)启动和解锁数据库

启动数据库

% monetdb start my-first-db

解锁数据库,否则数据库是锁定状态

% monetdb release my-first-db

8)连接数据库

% mclient -dmy-first-db

-d参数指定数据库名,默认用户名和密码是monetdb/monetdb

连接不上,可以带上端口号

% mclient -p54321 -dmy-first-db

%mclient -u monetdb -d dbtest

9)停止demon进程:

% monetdbd stop ~/my-dbfarm

10)从SQL脚本中导入数据,三种方法:

1:
shell> mclient -u voc -d voc voc_dump.sql
password:<voc>

2:
shell> mclient -u voc -d voc < voc_dump.sql
password:<voc>

3:
shell> mclient -u voc -d voc
password:<voc>
sql> < voc_dump.sql

资源利用:

Monetdb是内存数据库,但是并不要求所有的数据都放在物理内存中,数据超过了可用的物理内存,Monetdb把数据放在swap分区和内存映射文件上。

批加载数据时(尤其是通过COPY INTO方式加载CSV文件),MonetDB需要整张表所有列都是active,就是可以在地址空间可以访问。如果是普通加载,部分数据会被写到磁盘上,不需要把整个表放到内存中,比如加载100G的表,大概8G的内存,16G的交换空间和足够的磁盘空间。

查询阶段,每个MAL操作,MonetDB需要所有的输入,输出,中间过程数据都在内存中,MonetDB会自动组织数据到虚拟内存和内存映射文件(大的中间结果和表)。

运行过程中,mserver5进程的实际大小可能会超过,物理内存和交换空间,通常情况下,这个不会是问题,因为通常是大表(或者中间结果)通过内存映射的方式把文件写到磁盘上,这些数据当前并不访问,所以也不消耗实际的物理内存。

如果一个表的单独列或者中间结果超过了物理内存的大小,就需要到硬盘交换数据,MonetDB性能会下降。

磁盘默认无压缩(除了字符串使用字典编码),原因是磁盘空间和IO带宽的消耗要比CPU解压更划算。不压缩,因此所以列可以通过内存映射方式访问。如果磁盘比较贵,而内存可以存放很长时间,压缩优化才会有用。

磁盘空间可以通过du命令查看dbfarm目录或者数据库中执行select * from storage();

10 压缩:

列存储是高度优化的,底层的存储是一个密集数组,中间没有空闲空间用来将来插入和数据结构本身的消耗。密集数组是数据库文件可以直接映射到内存中。存储宽度从1 byte8 byte

NULL为指定大小空间,从而不需要用辅助的BIT掩码来代替。

字符串存储使用的是字典编码,这个会显著降低存储空间,但是大字段会导致大的代价。因此,真正大的字典表,MonetDB会重新组织为非压缩方式。

查询优化时,一个密集结果实际上市用列视图代表,必满了拷贝结果和存储私有的列结构。

11 只读数据库:

可以使用下面命令将数据库设置为只读,只读数据库使查询变快。

shell> monetdb set readonly=yes

设置为只读之后,所有表都不能修改,只能查询,甚至不能创建临时表。

修改数据库为只读是使用了SQL schemal和用户权限。

12 事物:

显示事物:

START TRANSACTION

COMMIT

ROOLBACK

也可以将session参数设置为auto_commit true,这样单SQL会是一个独立的事物。

一行被删除,只是标记一下,不会降低表的大小,需要通过回收算法回收。

事物使用的是乐观并发控制:Optimistic concurrency control,提交前,每个事物检测没有其他事物修改数据,如果检查到了冲突修改,提交的事物就被回滚。这种算法只适合在低冲突中使用,事物的实现可以不需要使用锁和等待其他锁释放,如果冲突经常发生,重复执行事物的消耗会非常大。所以非常不适合在线交易类型的业务。

13 运行时功能:

SQL语句提供查询计划,性能和调试功能。

EXPLAIN SQL

TRACE SQL

DEBUG SQL

14 加载数据:

方式一:直接使用Insert into ,可以通过START TRANSACTION COMMIT减少事物提交。这种方式因为每次查询都是独立的,所以每次只能使用到一个CPU核。

方式二:COPY INTO

COPY INTO TABLE FROM FILE;

大量数据插入式,server不知道需要分配多少内存,因此只会分配很少,也就是在插入过程中,需要不停的分配内存,这个开销会非常大。因此,最好能给定一个值多少条记录会被插入。

COPY n RECORDS INTO table FROM file

N必须比实际插入的数字要大,如果文件实际的值大于N,只会有N条记录会被插入。在同一表同时有多个COPY INTO查询,给一个更大的值会非常有效。

offset 值指定数据加载开始位置,第一条记录offset1

完整性约束最好在文件被加载完了之后再添加,因为ALTER命令是批检查和处理,性能会更好。

15 导出

COPY INTO命令把表dump成一个ASCII文件。

导入导出可以指定gzbz2的压缩算法。

16 用户定义函数:

参考例子sql/backends/monet5/UDF

MonetDB实例之间迁移表,可以使用二进制的COPY INTO/FROM格式。

17 数据库优化:

每个SQL查询经过了一系列的优化步骤达到最优的执行计划,这些步骤用取名‘optimizer pipe

两张表记录了所有SQL语句的查询定义和他们的执行时间。

表一:queryHistory:

系统变量‘history’限制,如果该限制打开,每个查询只要编译进cache就会被存储过程keepQuery记录到这个表中,这个表记录的是SQL语句分析解析性能。

 set history=true;

create table queryHistory(

    id wrd primary key,

    defined timestamp,  -- when entered into the cache

    name string,        -- database user name

    query string,       -- original text

    parse bigint,       -- time in usec

    optimize bigint     -- time in usec

);

表二:callHistory:

记录查询性能

create table callHistory(

    id wrd references queryHistory(id), -- references query plan

    ctime timestamp,    -- time the first statement was executed

    arguments string,

    exec bigint,        -- time from the first statement until result export

    result bigint,      -- time to ship the result set to the client

    foot bigint,        -- footprint for all bats in the plan in bytes

    memory bigint,      -- storage size of intermediates created in bytes

    tuples wrd,         -- number of tuples in the result set

    inblock bigint,     -- number of physical blocks read

    oublock bigint      -- number of physical blocks written

);

18 优化管道:

每个管道包含一系列MAL函数 检测和传输执行计划。优化器可以修改名字和MAL function系列。

sql>set optimizer='minimal_pipe'; 修改名字
sql>select optimizer;

sql> set optimizer='optimizer.inline();optimizer.remap();optimizer.deadcode();optimizer.multiplex();optimizer.garbageCollector();'; 修改MAL function函数顺序

sql>select * from optimizers();

16数据类型:

1、 内置类型: 

integer:长度有2,4,8 bytes,可以为空。系统不检测溢出,所以把转换为一个大值时可能导致副作用。

Numeric:固定的长度

Floatdouble:和系统一致

2、 支持时间类型:

date

daytime

timestamp

timezone

3、 sequeue

4、 URL

5、 网络地址

6、 用户自定义类型

19  唯一列 

使用sequeue支持唯一列

20 Constraints

支持not nll ,unique primary,foreign keys

21 索引:

支持标准SQL的索引创建,但是不起作用,MonetDB会自动创建和维护索引。

22 视图:

支持基本视图,不支持嵌套视图和引用视图

23 数据操作

不支持通过视图删除数据

24 自定义类型

 NUMERIC(p,s) p最大支持18

‘’ 和NULL不等价,两个分割符号之间要写上NULL,才能被识别。

COPY INTO 把两个分割符之间认为是空字符串

COPY INTO不支持通配,文件必须指定绝对路径

COPY INTO CPU消耗不高

25 .linux OOM  Killer

Linux 内核有一个OOM的功能,当系统到大一个临界点,快要超过内存是,OOM会杀掉进程。通常情况下,重启就能恢复,但是当在一个负责的更新的事物中,可能导致数据库不一致。

26 类型转换:

select sum(cast (sid as integer)) from "detail_ufdr_other_temp" ;

27 存储模型:

通过下面语句可以查出表的存储模型

select * from storage() where "table" = 'detail_ufdr_other_temp';

28 查询正在运行的任务(还不支持 ,2013/6才支持)

select * from sys.queue();

29 二进制批加载

COPY 命令,性能主要消耗在将ASCII值转化为二进制,MONETDB针对多核进行了高度优化,多个线程会并行处理。

用户直接根据BAT模型,生成二进制文件。

create table Tmp( i integer, f real, s string); 
copy binary into Tmp from ('path_to_file_i', 'path_to_file_f', 'path_to_file_s');

文件名是列明的绝对路径,这个路径需要和farm同样的文件系统。他们会直接替换TMP的内容。文件被拷贝完了之后,原来的空间就可以被回收利用。

每个文件直接用二进制表示,是一个C语言数组的DUMP

Char(1byte) tinyint(8-bits) smallint(16bits) int(32bits) bigint(64bit)

Real double映射C语言的float double类型。

可变字符串,文件中存放的对应的C语言的字符串,每行通过分割符分割,并且没有转义字符。所有文件需要对其,有多个值在文件中,表中就有多少条记录。

其他的类型(包括UTF-8和转义字符)必须要用COYP INTO加载

相关文章

大数据与网络黑产
views 3229
随着互联网不断深度介入人们的生活,网络上也在源源不断积累起大量数据。这些数据就像散落在互联网生态中的粒粒珍珠,诱惑着网络黑产分子瞪大贪婪的双眼,伺机而动…… 记者调查发现,基于这些存在的产业链,上游,是以技术含量最高的职业黑客为主,他们通过挖掘漏洞、编写木马实施入侵,获取数据;中游,是购买这些数据...
浅论Hadoop应用工作思路
views 1686
随着企业对大数据越来越重视,hadoop应用达到了前所未有的高度。今天聊聊hadoop应用的工作思路,我想了下以下几方面,和大家一起讨论:   首先最重要的是建立一支以开发人员为主的团队。 Hadoop虽然很火,但是还是在初级阶段,开源的东西存在业务不完全匹配,成熟度低等诸多问题。所以不管是什么公司...
数据可视化、信息可视化、知识可视化-技术方案...
views 2428
 概述   数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。但是,这并不就意味着,数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。为了有效地传达思想概念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又...
如何在Ubuntu乌班图系统上安装MongoDB芒果数据库...
views 3685
做为IT界最为流利的技术之一,大数据,下面介绍安装大数据的非关系数据库的MongoDB的安装方法 1导入公共密钥为了使用安装包管理系统    Import the public key used by the package management system. sudo apt-key ad...
数据、移动化、云计算、电子商务、绿色IT将成为未来5年迫切需要的五个关键技术...
views 1615
根据市场研究资料的整合,对中国未来5年的IT市场进行了预测。伴随经济的发展,中国IT市场将会持续两位数的增长,尤其在新兴的科技领域,包括业务的自动化、智能化,企业的信息化服务,互联网领域的业务新模式应用都会成为未来IT市场发展的带动力。而对于CIO来说,大数据、移动化、云计算、电子商务、绿色IT将成...
百度大数据洞察:“数”说年轻女性的自我世界-应用案例...
views 1834
  百度大数据带您透视小世界里的大女人精神。小世界指的是新一代年轻女性的自我世界,寓意每一个小小的我都是一个世界;大女人寓意新一代年轻女性脱离集体意识形态,不再完全秉承传统女性小鸟依人式的附属与顺从,而体现为一种独立自主的精神、一种大女人的情怀。   新一代年轻女性自我意识崛起下的3个需求层次  ...
以3D打印和大数据为基础的分布式制造,将彻底打通互联网和制造业...
views 1606
现如今,投资界纷纷将目光聚焦在移动互联网应用、互联网金融以及智能穿戴设备等项目,似乎它们将是一批风口上的猪。不可否认,在互联网与传统行业不断渗透深入的当下,每一个这些项目的推进,都会改变人们的产生生活,都是一片不估量的蓝海。但奇怪的是,一片储量当丰富的金矿,却只是在时代前进的滚滚洪流中闪烁了一下,...
云计算“走出去”:机遇与挑战并存
views 2159
云计算“走出去”:机遇与挑战并存 2014-10-22 云计算与大数据 云计算是一个能够集中数据和信息资源的产业,因此各国都将其列入严密控制范围之内。例如,我国就对国外云计算企业建设数据中心、开展云服务等有所要求。中国企业在国外也会面临同样的问题。 在近日举行的中俄经济工商界高峰论坛上,某集团...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: Monet DB学习笔记

Monet DB学习笔记:等您坐沙发呢!

发表评论


读者排行