跳到主要内容

常见术语介绍

:行是一组相关的数据,一行行数据组成了一张表。

:列也被称为字段,关系型数据库中,创建每个列需要定义数据类型和长度。

:由行与列组成,是数据库中用来存储数据的对象,是整个数据库系统的基础。

视图:是一个虚拟表,实际不存储数据,其内容由查询定义。

存储过程:一组为了完成特定功能的SQL语句集,经编译后存储在数据库中,用户通过指定存储过程的名称并设置参数来执行它。

数据库:是各个数据库对象的集合,数据库对象包括表、视图、存储过程等。

实例:是数据库的集合。

数据页:是数据库管理的基本单位,默认大小为16KB。

数据文件:存放实实在在的数据,默认情况下,每张表对应一个数据文件,数据文件是一个物理概念。

表空间:表空间是逻辑存储单元,默认情况下,每张表对应一个表空间。

事务:一个事务由一组 DML 组成,其严格遵循 ACID 四大属性,以提交或者回滚结束,其中 DDL 存在隐式提交。

字符集:字符的编码规则。

校对规则:对字符集中的字符比较大小的一种规则。

列式存储:存储数据时是按照列模式将数据存储到磁盘上的。

数据压缩:减少数据文件的大小即为数据压缩,数据压缩比由数据类型、数据重复度、压缩算法决定。

OLTP:On-Line Transaction Processing ,指的是在线事务处理过程,其主要特征是交互式的快速响应,大并发的小型事务处理,典型的业务系统是银行交易系统。

OLAP:On-Line Analytical Processing,指的是在线分析处理过程,其主要特征是对海量数据进行复查的分析查询,典型的业务系统是数据仓库系统。

HTAP:Hybrid Transaction/Analytical Processing,指的是混合事务和分析处理过程,是一种新型的应用程序架构,出现 HTAP 的目的是打破 OLTP 和 OLAP 之间的壁垒。

Data Pack:数据包用于存放实际数据,是最底层的数据存储单元,每列按照65536行切分成一个数据包。

Data Pack Node:数据包节点也称为元数据节点,记录了每个数据包中列的最大值、最小值、平均值、总和、总记录数、null 值的数量、压缩方式、占用的字节数。

Knowledge Node:数据包节点的上一层是知识节点,除了记录数据包之间或者列之间关系的元数据集合,比如数据包的最小值与最大值范围、列之间的关联关系外,还记录了数据特征以及更深度的统计信息。大部分的知识节点数据是装载数据的时候产生的,另外一部分是查询的时候产生的。

Knowledge Grid:知识网格是由数据包节点和知识节点组成的。由于数据包都是压缩存放的,所以数据读取解压的代价比较高,在查询中如何做到读取尽量少的数据包是提升效率的关键。知识网格正是起到了这样的一个作用,它能够有效的过滤查询中不符合条件的数据,以最小的代价定位以数据包为最小单位的数据。知识网格的数据大小只占数据总量的1%以下,通常情况下可以加载到内存中,进一步提升查询效率。