Monet DB学习笔记

时间:14-12-30 栏目:大数据技术文章 作者:爱说云网 评论:0 点击: 2,678 次

架构:

三层软件架构:

SQL front-end:前端SQL解析,数据模型优化,降低数据中间结果的总量,最后将SQL语句解析为MALMonetDB Assembly Language)。

Tactical-optimizers:一系列优化模块的集合,组成优化管道,这个模块提供功能从符号处理到实时数据分发和执行。

Columnar abstract-machine kernel:列式内核

MAL

MonetDB Assembly Language(MAL)

MALSQLXQuery前端查询的目标语言。

SQL语句通过语法解析解析成MALMAL在经过优化器优化,重写成优化后的MAL,提供给内核执行。

内核

执行内核是一个运行MAL语言的虚拟机。

复杂的查询被拆分成多个步骤,每个步骤操作一个列,叫bulk processing。所有的BAT操作被映射成简单的数组操作,一个并行处理引擎。

内核运行过程中会根据输入属性和系统状态选择合适的优化算法和实现来执行MAL语言。

    运行过程中操作优化:会根据输入属性和系统状态选择合适的优化算法和实现。 

特性:

列式存储模型:

在内存中数据都是以BAT(Binary Association Table) (OID,value) pairs形式存放,数据超过了内存和虚拟内存,使用磁盘存放文件,磁盘和内存通过内存映射实现。

基于CPU优化的查询架构

自动索引

实时查询优化

发布周期:

大概每4个月发布一个版本,每个月一个补丁包。

编译安装

rpm -ivh pcre-devel-6.6-6.el5_6.1.x86_64.rpm

./configure --prefix=/opt/pub/MonetDB

make

make install

export PATH=$PATH:/opt/pub/MonetDB/bin

实用程序:

mclient: 客户端连接命令

monetdb: 数据库操作命令

mondetdbd: 守护进程操作命令

mserver5: mserver5是当前MonetDB服务器提供所有固定请求的,调整mserver5内核使用的参数。

mysqldump:dump数据库

守护进程

一个机器上一个数据库实例,多个数据库实例可以同时在一个机器上,但是每个实例所使用的资源会受影响。

监控所有实例,作为客户端代理提供每个实例的访问,另外处理故障恢复和数据并发引擎。

Monetdb:守护进程,一台机器上只能有一个实例,一个实例有多个进程。

 (1)创建守护进程目录

% monetdbd create ~/my-dbfarm

2)查看守护进程设置

% monetdbd get all ~/my-dbfarm

3)修改参数

% monetdbd set port=54321 ~/my-dbfarm

4)启动守护进程

% monetdbd start ~/my-dbfarm

5)创建一个数据库

% monetdb create my-first-db

6)查看数据库状态,指定端口号,指定对应的数据库

% monetdb -p54321 status

7)启动和解锁数据库

启动数据库

% monetdb start my-first-db

解锁数据库,否则数据库是锁定状态

% monetdb release my-first-db

8)连接数据库

% mclient -dmy-first-db

-d参数指定数据库名,默认用户名和密码是monetdb/monetdb

连接不上,可以带上端口号

% mclient -p54321 -dmy-first-db

%mclient -u monetdb -d dbtest

9)停止demon进程:

% monetdbd stop ~/my-dbfarm

10)从SQL脚本中导入数据,三种方法:

1:
shell> mclient -u voc -d voc voc_dump.sql
password:<voc>

2:
shell> mclient -u voc -d voc < voc_dump.sql
password:<voc>

3:
shell> mclient -u voc -d voc
password:<voc>
sql> < voc_dump.sql

资源利用:

Monetdb是内存数据库,但是并不要求所有的数据都放在物理内存中,数据超过了可用的物理内存,Monetdb把数据放在swap分区和内存映射文件上。

批加载数据时(尤其是通过COPY INTO方式加载CSV文件),MonetDB需要整张表所有列都是active,就是可以在地址空间可以访问。如果是普通加载,部分数据会被写到磁盘上,不需要把整个表放到内存中,比如加载100G的表,大概8G的内存,16G的交换空间和足够的磁盘空间。

查询阶段,每个MAL操作,MonetDB需要所有的输入,输出,中间过程数据都在内存中,MonetDB会自动组织数据到虚拟内存和内存映射文件(大的中间结果和表)。

运行过程中,mserver5进程的实际大小可能会超过,物理内存和交换空间,通常情况下,这个不会是问题,因为通常是大表(或者中间结果)通过内存映射的方式把文件写到磁盘上,这些数据当前并不访问,所以也不消耗实际的物理内存。

如果一个表的单独列或者中间结果超过了物理内存的大小,就需要到硬盘交换数据,MonetDB性能会下降。

磁盘默认无压缩(除了字符串使用字典编码),原因是磁盘空间和IO带宽的消耗要比CPU解压更划算。不压缩,因此所以列可以通过内存映射方式访问。如果磁盘比较贵,而内存可以存放很长时间,压缩优化才会有用。

磁盘空间可以通过du命令查看dbfarm目录或者数据库中执行select * from storage();

10 压缩:

列存储是高度优化的,底层的存储是一个密集数组,中间没有空闲空间用来将来插入和数据结构本身的消耗。密集数组是数据库文件可以直接映射到内存中。存储宽度从1 byte8 byte

NULL为指定大小空间,从而不需要用辅助的BIT掩码来代替。

字符串存储使用的是字典编码,这个会显著降低存储空间,但是大字段会导致大的代价。因此,真正大的字典表,MonetDB会重新组织为非压缩方式。

查询优化时,一个密集结果实际上市用列视图代表,必满了拷贝结果和存储私有的列结构。

11 只读数据库:

可以使用下面命令将数据库设置为只读,只读数据库使查询变快。

shell> monetdb set readonly=yes

设置为只读之后,所有表都不能修改,只能查询,甚至不能创建临时表。

修改数据库为只读是使用了SQL schemal和用户权限。

12 事物:

显示事物:

START TRANSACTION

COMMIT

ROOLBACK

也可以将session参数设置为auto_commit true,这样单SQL会是一个独立的事物。

一行被删除,只是标记一下,不会降低表的大小,需要通过回收算法回收。

事物使用的是乐观并发控制:Optimistic concurrency control,提交前,每个事物检测没有其他事物修改数据,如果检查到了冲突修改,提交的事物就被回滚。这种算法只适合在低冲突中使用,事物的实现可以不需要使用锁和等待其他锁释放,如果冲突经常发生,重复执行事物的消耗会非常大。所以非常不适合在线交易类型的业务。

13 运行时功能:

SQL语句提供查询计划,性能和调试功能。

EXPLAIN SQL

TRACE SQL

DEBUG SQL

14 加载数据:

方式一:直接使用Insert into ,可以通过START TRANSACTION COMMIT减少事物提交。这种方式因为每次查询都是独立的,所以每次只能使用到一个CPU核。

方式二:COPY INTO

COPY INTO TABLE FROM FILE;

大量数据插入式,server不知道需要分配多少内存,因此只会分配很少,也就是在插入过程中,需要不停的分配内存,这个开销会非常大。因此,最好能给定一个值多少条记录会被插入。

COPY n RECORDS INTO table FROM file

N必须比实际插入的数字要大,如果文件实际的值大于N,只会有N条记录会被插入。在同一表同时有多个COPY INTO查询,给一个更大的值会非常有效。

offset 值指定数据加载开始位置,第一条记录offset1

完整性约束最好在文件被加载完了之后再添加,因为ALTER命令是批检查和处理,性能会更好。

15 导出

COPY INTO命令把表dump成一个ASCII文件。

导入导出可以指定gzbz2的压缩算法。

16 用户定义函数:

参考例子sql/backends/monet5/UDF

MonetDB实例之间迁移表,可以使用二进制的COPY INTO/FROM格式。

17 数据库优化:

每个SQL查询经过了一系列的优化步骤达到最优的执行计划,这些步骤用取名‘optimizer pipe

两张表记录了所有SQL语句的查询定义和他们的执行时间。

表一:queryHistory:

系统变量‘history’限制,如果该限制打开,每个查询只要编译进cache就会被存储过程keepQuery记录到这个表中,这个表记录的是SQL语句分析解析性能。

 set history=true;

create table queryHistory(

    id wrd primary key,

    defined timestamp,  -- when entered into the cache

    name string,        -- database user name

    query string,       -- original text

    parse bigint,       -- time in usec

    optimize bigint     -- time in usec

);

表二:callHistory:

记录查询性能

create table callHistory(

    id wrd references queryHistory(id), -- references query plan

    ctime timestamp,    -- time the first statement was executed

    arguments string,

    exec bigint,        -- time from the first statement until result export

    result bigint,      -- time to ship the result set to the client

    foot bigint,        -- footprint for all bats in the plan in bytes

    memory bigint,      -- storage size of intermediates created in bytes

    tuples wrd,         -- number of tuples in the result set

    inblock bigint,     -- number of physical blocks read

    oublock bigint      -- number of physical blocks written

);

18 优化管道:

每个管道包含一系列MAL函数 检测和传输执行计划。优化器可以修改名字和MAL function系列。

sql>set optimizer='minimal_pipe'; 修改名字
sql>select optimizer;

sql> set optimizer='optimizer.inline();optimizer.remap();optimizer.deadcode();optimizer.multiplex();optimizer.garbageCollector();'; 修改MAL function函数顺序

sql>select * from optimizers();

16数据类型:

1、 内置类型: 

integer:长度有2,4,8 bytes,可以为空。系统不检测溢出,所以把转换为一个大值时可能导致副作用。

Numeric:固定的长度

Floatdouble:和系统一致

2、 支持时间类型:

date

daytime

timestamp

timezone

3、 sequeue

4、 URL

5、 网络地址

6、 用户自定义类型

19  唯一列 

使用sequeue支持唯一列

20 Constraints

支持not nll ,unique primary,foreign keys

21 索引:

支持标准SQL的索引创建,但是不起作用,MonetDB会自动创建和维护索引。

22 视图:

支持基本视图,不支持嵌套视图和引用视图

23 数据操作

不支持通过视图删除数据

24 自定义类型

 NUMERIC(p,s) p最大支持18

‘’ 和NULL不等价,两个分割符号之间要写上NULL,才能被识别。

COPY INTO 把两个分割符之间认为是空字符串

COPY INTO不支持通配,文件必须指定绝对路径

COPY INTO CPU消耗不高

25 .linux OOM  Killer

Linux 内核有一个OOM的功能,当系统到大一个临界点,快要超过内存是,OOM会杀掉进程。通常情况下,重启就能恢复,但是当在一个负责的更新的事物中,可能导致数据库不一致。

26 类型转换:

select sum(cast (sid as integer)) from "detail_ufdr_other_temp" ;

27 存储模型:

通过下面语句可以查出表的存储模型

select * from storage() where "table" = 'detail_ufdr_other_temp';

28 查询正在运行的任务(还不支持 ,2013/6才支持)

select * from sys.queue();

29 二进制批加载

COPY 命令,性能主要消耗在将ASCII值转化为二进制,MONETDB针对多核进行了高度优化,多个线程会并行处理。

用户直接根据BAT模型,生成二进制文件。

create table Tmp( i integer, f real, s string); 
copy binary into Tmp from ('path_to_file_i', 'path_to_file_f', 'path_to_file_s');

文件名是列明的绝对路径,这个路径需要和farm同样的文件系统。他们会直接替换TMP的内容。文件被拷贝完了之后,原来的空间就可以被回收利用。

每个文件直接用二进制表示,是一个C语言数组的DUMP

Char(1byte) tinyint(8-bits) smallint(16bits) int(32bits) bigint(64bit)

Real double映射C语言的float double类型。

可变字符串,文件中存放的对应的C语言的字符串,每行通过分割符分割,并且没有转义字符。所有文件需要对其,有多个值在文件中,表中就有多少条记录。

其他的类型(包括UTF-8和转义字符)必须要用COYP INTO加载

相关文章

芝麻开门 大数据征信体系揭秘
views 2704
1月28日,蚂蚁金融服务集团(下称“蚂蚁金服”)旗下的芝麻信用首次测试个人征信系统,这也是1月5日央行发布允许8家机构进行个人征信业务准备工作通知后,首家推出该系统的公司。据21世纪经济报道记者了解,在1月5日央行发布通知后,蚂蚁金服便迅速注册公司,组建团队。其骨干成员大部分为数据科学 家,同时开始...
如何在Ubuntu乌班图系统上安装MongoDB芒果数据库...
views 3321
做为IT界最为流利的技术之一,大数据,下面介绍安装大数据的非关系数据库的MongoDB的安装方法 1导入公共密钥为了使用安装包管理系统    Import the public key used by the package management system. sudo apt-key ad...
如何应对云计算大数据带来的法律问题...
views 1792
云计算给人们带来的一个最直观的感觉就是,大量的数据集中在“云”里,抬头观天,“我”在哪里?   物联网给人们最直观的感觉是,任何一个结点的传感器都在收集数据,低头看路,“陷阱”在哪里。   当一个人如此多的信息被陌生的机构掌握时,产生恐惧和不安全感一定是很正常的事情,于是自然会想到一个问题,如何...
详解大数据的思想形成与价值维度
views 1291
  比如经济上,黄仁宇先生对宋朝经济的分析中发现了“数目字管理”(即定量分析)的广泛应用(可惜王安石变法有始无终)。又如军事,“向林彪学习数据挖掘”的桥段不论真假,其背后量化分析的思想无疑有其现实基础,而这一基础甚至可以回推到2000多年前,孙膑正是通过编造“十万灶减到五万灶再减到三万灶”的数据、利...
大数据应用–实时路况数据
views 1764
现在手机上装个导航软件,如高德地图,百度地图等等都有实时路况显示,导航和道路规划可以根据实时路况来实施,从而动态躲避拥堵,为出行节省时间,为了显示实时路况就必须有路况数据,今天来说下实时数据的获取方法。一般来说有以下几种典型数据来源获取方法: 1、实时路况数据最主要的收集方式,还是浮动车。这个浮动车...
大数据引擎推动国家治理能力现代化-技术方案...
views 1293
在全球化和信息化的背景下,中国作为一个“巨型国家”的“社会结构性”转型,是21世纪人类文明史上有着全球性影响的重大事件。对中国转型过程众多领域中的“海量信息”或“大数据”的正确解读,不仅对于中国国家治理能力的提高,实现社会的平稳转型产生决定性影响;而且也必将对“世界的合理化”程度和人类文明的进程与走...
大数据如何解决城市计算的基本框架及核心问题...
views 1716
    编者按:近年来,随着感知技术和计算环境的成熟,各种大数据在城市中悄然而生。城市计算就是用城市中的大数据来解决城市本身所面临的挑战,通过对多种异构数 据的整合、分析和挖掘,来提取知识和智能,并用智能来创造“人—环境—城市”三赢的结果。微软亚洲研究院主管研究员郑宇从城市计算的基本框架及核心问题...
10亿台移动设备的大数据表示移动互联网已是年轻人天下...
views 2030
昨天,国内独立第三方数据服务提供商TalkingData正式发布《2014移动互联网数据报告》。报告显示:2014年,我国移动智能终端用户规模达10.6亿,较2013年增长231.7%,增速远超全球同期市场。 TalkingData数据平台部总监陶京琪表示,报告数据都是基于TalkingData覆...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: Monet DB学习笔记

Monet DB学习笔记:等您坐沙发呢!

发表评论


读者排行