13 Nosql和云数据库

1 分布式数据库

2 NoSQL简介

NoSQL兴起的原因
  1. 关系数据库已经无法满足Web2.0的需求。主要表现在以下几个方面:
    1. 无法满足海量数据的管理需求
    2. 无法满足数据高并发的需求
    3. 无法满足高可扩展性高可用性的需求
  2. “One size fits all”模式很难适用于截然不同的业务场景
    • 关系模型作为统一的数据模型既被用于数据分析,也被用于在线业务
    • 数据分析强调高吞吐,在线业务强调低延时
    • 用同一套模型来抽象不合适
    • Hadoop就是针对数据分析
    • MongoDB、Redis等是针对在线业务
  3. 关系数据库的关键特性包括完善的事务机制和高效的查询机制,不适合Web2.0时代
    • Web2.0网站系统通常不要求严格的数据库事务
    • Web2.0并不要求严格的读写实时性
    • Web2.0通常不包含大量复杂的SQL查询
      网站设计时通常采用单表主键查询方式,已尽量减少多表连接、选择、投影操作
NoSQL与关系数据库的比较

总结:

  1. 关系数据库
    • 优势:以完善的关系代数理论作为基础,有严格的标准支持事务ACID四性,借助索引机制可以实现高效的查询技术成熟,有专业公司的技术支持
    • 劣势:可扩展性较差无法较好支持海量数据存储,数据模型过于死板无法较好支持Web2.0应用,事务机制影响了系统的整体性能
    • 应用场景:电信、银行等领域的关键业务系统,需要保证强事务一致性
  2. NoSQL数据库
    • 优势:可以支持超大规模数据存储灵活的数据模型可以很好地支持Web2.0应用,具有强大的横向扩展能力
    • 劣势:缺乏数学理论基础,复杂查询性能不高,大都不能实现事务强一致性,很难实现数据完整性,技术尚不成熟缺乏专业团队的技术支持,维护较困难
    • 应用场景:互联网企业、传统企业的非关键业务(比如数据分析)

分:
Pasted image 20250530105754.png
Pasted image 20250530105845.png
Pasted image 20250530110121.png

3 NoSQL的技术特点

NoSQL的三大基石:CAP、BASE、最终一致性

CAP理论
  • C(Consistency):一致性,是指任何一个读操作总是能够读到之前完成的写操作的结果,也就是在分布式环境中,多点的数据是一致的,或者说,所有节点在同一时间具有相同的数据
  • A(Availability):可用性,是指快速获取数据,可以在确定的时间内返回操作结果,保证每个请求不管成功或者失败都有响应;
  • P(Tolerance of Network Partition):分区容忍性,是指当出现网络分区的情况时(即系统中的一部分节点无法和其他节点进行通信),分离的系统也能够正常运行,也就是说,系统中任意信息的丢失或失败不会影响系统的继续运作。

一个分布式系统不可能同时满足一致性(C)、可用性(A)和分区容忍性(P)这三个需求,最多只能同时满足其中两个。当处理CAP的问题时,可以有几个明显的选择:

  1. CA:也就是强调一致性(C)和可用性(A),放弃分区容忍性(P),最简单的做法是把所有与事务相关的内容都放到同一台机器上。很显然,这种做法会严重影响系统的可扩展性。传统的关系数据库(MySQL、SQL Server和PostgreSQL),都采用了这种设计原则,因此,扩展性都比较差
  2. CP:也就是强调一致性(C)和分区容忍性(P),放弃可用性(A),当出现网络分区的情况时,受影响的服务需要等待数据一致,因此在等待期间就无法对外提供服务
  3. AP:也就是强调可用性(A)和分区容忍性(P),放弃一致性(C),允许系统返回不一致的数据
    Pasted image 20250530111024.png
BASE

Pasted image 20250530111050.png

BASE的基本含义是基本可用(Basically Availble)、软状态(Soft-state)和最终一致性(Eventual consistency):

  • 基本可用
    指一个分布式系统的一部分发生问题变得不可用时,其他部分仍然可以正常使用,也就是允许分区失败的情形出现
  • 软状态
    • 是与“硬状态(hard-state)”相对应的一种提法
    • “硬状态” 是数据库保存的数据可以保证数据一直是正确的(一致性)
    • “软状态”是指状态可以有一段时间不同步具有一定的滞后性
  • 最终一致性
    • 一致性的类型包括强一致性和弱一致性
    • 二者的主要区别在于高并发的数据访问操作下,后续操作是否能够获取最新的数据
    • 强一致性:当执行完一次更新操作后,后续其他读操作就可以保证读到更新后的最新数据
    • 弱一致性:如果不能保证后续访问读到的都是更新后的最新数据
    • 最终一致性:是弱一致性的一种特例,允许后续的访问操作可以暂时读不到更新后的数据,但是经过一段时间之后,必须最终读到更新后的数据
    • 最常见的实现最终一致性的系统是DNS(域名系统)。一个域名更新操作根据配置的形式被分发出去,并结合有过期机制的缓存;最终所有的客户端可以看到最新的值。
NewSQL数据库
  • 各种新的可扩展、高性能数据库的简称
  • 不仅具有NoSQL的海量数据存储管理能力,还保持了传统DB支持ACID和SQL等特性
  • 不同NewSQL内部结构差异很大,但都有两个显著的共同特征
    • 都支持关系数据模型
    • 都使用SQL作为其主要接口

4 云数据库概述

  • 云数据库是部署和虚拟化在云计算环境中的数据库
  • 是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法
  • 它极大地增强了数据库的存储能力,消除了人员、硬件、软件的重复配置,让软、硬件升级变得更加容易
  • 具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点
  • 云数据库特性:
    1. 动态可扩展
    2. 高可用性
    3. 较低的使用代价
    4. 易用性
    5. 高性能
    6. 免维护
    7. 安全
  • 云数据库是个性化数据存储需求的理想选择
  • 数据模型的角度看,云数据库并非是一种全新的数据库技术,而只是以服务的方式提供数据库功能
  • 云数据库没有专属于自己的数据模型
  • 同一个公司也可能提供采用不同数据模型的多种云数据库服务
Built with MDFriday ❤️