Nosql精粹读书笔记(一)——聚合数据模型

聚合数据模型

数据模型是认知和操作数据时所用的模型。对于使用数据库的人来说, 数据模型描述了我们如何同数据库中的数据打交道。 它与存储模型不同, 后者描述了数据库内部存储及操作数据的机制。

大家日常所说的“ 数据模型” 一词, 一般指应用程序的特定数据所具备的模型。 开发者可能会指着一张数据库的“ 实体 - 关系图 ”( entity-relationship diagram), 把这个包含客户、 订单、 产品等信息的东西叫做他们的数据模型。然而本书的“ 数据模型” 通常表示数据库组织数据的方式, 它的正式名称是“ 元模型”( metamodel)。

NoSQL 技术与传统的关系型数据库相比, 一个最明显的转变就是抛弃了关系模型。 每种 NoSQL 解决方案的模型都不同, 本书把 NoSQL 生态系统中广泛使用的模型分为四类 :“ 键值”、“ 文档”、“ 列族” 和“ 图”。 前三类数据模型有一个共同特征, 我们称其为“ 面向聚合”( aggregate orientation)。

聚合

关系模型把待存储的信息分隔成元组( 行)。 元组是种受限的数据结构 : 它只能包含一系列的值, 因此不能在元组中嵌套另一个元组, 也不能包含由值或元组所组成的列表。 这种简单的数据结构支撑着关系模型 : 所有操作都必须以元组为目标, 而且其返回值也必须是元组。

面向聚合所用的方式与之不同, 我们通常操作数据时所用的单元, 其结构都比元组集合复杂得多。 如果能够以这种复杂的结构来存放列表或嵌套其他记录结构就好了。大家在后面的章节中将会看到,“键值数据库”、“ 文档数据库”、“ 列族数据库” 都使用这种更为复杂的记录。 然而, 没有公认的术语来称呼这种复杂的记录, 在本书中, 把它叫做“聚合”( aggregate)。

聚合是“ 领域驱动设计”[ Evans] 中的术语。 在领域驱动设计中, 我们想把一组相互关联的对象视为一个整体单元来操作, 而这个单元就叫聚合。 在涉及数据操作与一致性管理时, 更是如此。 一般情况下, 我们通过原子操作( atomic operation) 更新聚合的值, 并且在与数据存储通信时, 也以聚合为单位。 这个定义也非常符合“ 键值数据库”、“ 文档数据库” 和“ 列族数据库” 的工作方式。 因为用聚合为单位来复制和分片显得比较自然, 所以在集群中操作数据库时, 还是使用聚合比较简单一些。 此外,由于程序员经常通过聚合结构来操作数据, 故而采用聚合也能让其工作更为轻松。

关系模型与聚合模型示例



现在我们再来看看, 如果用面向聚合的思路来做, 那么数据模型会是什么样子

这次也要用一些范例数据, 我们使用 JSON 格式来表示, 因为它是 NoSQL 领域中常用的数据格式。

面向聚合的影响

关系型数据库的数据模型中, 没有“ 聚合” 这一概念, 因此我们称之为“ 聚合无知”( aggregate-ignorant)。 NoSQL 领域中的“ 图数据库” 也是聚合无知的。 这一特征并不是坏事。 聚合的边界一般都很难正确划分出来, 当不同场景要使用同一份数据时,更是如此。

选用面向聚合模型的决定性因素, 就在于它非常适合在集群上运行。 大家应该还记得, 这正是 NoSQL 崛起的杀手锏。在集群上运行时, 我们需要把采集数据时所需的节点数降至最小。如果在数据库中明确包含聚合结构, 那么它就可以根据这一重要信息, 知道哪些数据需要一起操作了, 而且这些数据应该放在同一个节点中。

聚合对于事务处理有一个重要影响。 通常情况下, 面向聚合的数据库确实不支持跨越多个聚合的ACID 事务。 取而代之的是, 它每次只能在一个聚合结构上执行原子操作。 也就是说,如果我们想以原子方式操作多个聚合, 那么就必须自己组织应用程序的代码。

键值数据模型与文档数据模型

键值数据库的聚合不透明 , 只包含一些没有太多意义的大块信息 ; 与此相反, 在文档数据库的聚合中, 可以看到其结构。 不透明的优势在于, 聚合中可以存储任意数据。文档数据库则要限制其中存放的内容, 它定义了其允许的结构与数据类型, 而这样做的好处是, 能够更加灵活地访问数据。

在键值数据库中, 要访问聚合内容, 只能通过键来查找。 而使用文档数据库时,则可以用聚合中的字段查询。 我们可以只获取一部分聚合, 而不用获取全部内容, 此外, 数据库还可以按照聚合内容创建索引 。

列族存储

理解列族模型的最好方式也许就是将其视为两级聚合结构( two-level aggregate
structure)。 与“ 键值存储” 相同,第一个键通常代表行标识符, 可以用它来获取想要的聚合。 列族结构与“ 键值存储” 的区别在于, 其“ 行聚合”( row aggregate) 本身又是一个映射, 其中包含一些更为详细的值。 这些“ 二级值”( second-level value)就叫做“ 列”。 与整体访问某行数据一样, 我们也可以操作特定的列。

列族数据库将列组织为列族。 每一列都必须是某个列族的一部分, 而且访问数据的单元也得是列。 这样设计的前提是, 某个列族中的数据经常需要一起访问。

于是, 我们也得出了两种数据组织方式。

  • 面向行( row-oriented): 每一行都是一个聚合( 例如 ID 为 1234 的顾客就是一个聚合), 该聚合内部存有一些包含有用数据块( 客户信息、 订单记录) 的列族。
  • 面向列( column-oriented): 每个列族都定义了一种记录类型( 例如客户信息),其中每行都表示一条记录 。 你可以将数据库中的大“ 行” 理解为列族中每一个短行记录的串接。

总结

键值数据模型将聚合看作不透明的整体,这意味着只能根据键来查出整个聚合, 而不能仅仅查询或获取其中的一部分。

文档模型的聚合对数据库透明, 于是就可以只查询并获取其中一部分数据了, 不过, 由于文档没有模式, 因此在想优化存储并获取聚合中的部分内容时, 数据库不太好调整文档结构。

列族模型把聚合分为列族, 让数据库将其视为行聚合内的一个数据单元。 此类聚合的结构有某种限制, 但是数据库可利用此种结构的优点来提高其易访问性。