ACID事务是关系型数据库一个重要的特性,也是NewSQL数据库最大的挑战之一。PolarDB-X是一款基于云架构理念,并同时支持在线事务处理与在线分析处理(HybridTransactional and Analytical Processing, HTAP)的融合型分布式数据库产品。因此,对PolarDB-X来说,支持分布式ACID事务是必须的。事务ACID概念数据库英文为DaTabase,是由Data+Base两个单词组成,可以理解为存放数据的仓库,最早数据库的诞生也是为解决数据的记账问题,要充分理解ACID的概念,可以从最朴素的转账业务看下。
转账案例:A账户余额有100元,B账户余额0元,在这个基础上A向B转账40元,流程如下:在这个案例中,我们分别看一下ACID在其中扮演的一些要求:原子性和一致性的区别原子性和一致性都要保证一个数据的多个操作整体的成功或者失败,初看两者有一些相似的语义,其实细究一下还是略微有一些区别,原子性主要面向数据库Write的行为定义,而一致性主要面向Read的行为定义。拿实际例子来说,在分布式场景下如果涉及多节点的数据操作,在微观世界里就不能保障多节点的操作发生在同一时刻,一定是有细微的时间差,在这个时间差内如果用高并发Read操作是否就会看到转账过程中不一致的余额状态?因此数据库技术通常会借助锁机制或者MVCC多版本来实现一致性的行为。比如通常的分布式2PC,会在第一阶段prepare加锁,确保在第二阶段部分节点提交时,剩余部分节点未提交的数据会通过加锁,避免高并发Read操作读到中间提交一半状态的数据。隔离级别的技术演进隔离级别的发展比较有故事性,不同数据库产商有各自的实现,缺乏统一的标准。后续可以专门开一篇介绍隔离级别,这里就不详细展开具体的技术差异和实现细节。分布式事务模型在正式介绍PolarDB-X的分布式事务之前,也是非常有必要了解下当前世界上几种主流的分布式事务策略,因为关系数据库从80年代诞生开始,事务是区别于关系型数据库和NoSQL最本质的地方,众多学者一直在不断研究和优化事务的技术,尤其在互联网技术发展之后,数据出现爆炸式增长,分布式逐渐进入大家的视野。
Percolator模型最早是在2010年,由Google工程师在解决索引增量构建的工程方案中第一次提出,具体可参见:《Large-scale Incremental Processing Using Distributed Transactions and Notifications》。Google Percolator实现上是在Bigtable基础上,在不改变Bigtable自身实现的前提下,通过行级事务和多版本控制,实现了Snapshot Isolation级别的跨行事务能力。Percolator具体的实现细节网上已有蛮多的文章介绍,这里就不做详述,列举一下其设计的重点:Google Percolator模型也有一些已知缺陷:提交阶段延迟较高,仅支持乐观锁场景、冲突错误只能在提交时汇报等。这与传统的关系数据库基于悲观事务的模型以及秒杀更新性能的还是有比较大的区别。
Omid模型是Yahoo的作品,同样也是构建在类似HBase的KV基础上,但和Percolator的Pessimistic方法相比,Omid是一种Optimistic的方式,正如其名《Optimistically transaction ManagementIn>Omid认为Percolator的基于Lock的方案虽然简化了事务冲突检查,但是将事务的驱动交给客户端,在客户端故障的情况下,遗留的Lock清理会影响到其他事务的执行,并且维护额外的lock和write列,显然也会增加不小的开销。而Omid这样的Optimistic
PolarDB 数据库的优点有很多,以下是一些主要的优点:- PolarDB 100%兼容MySQL,使用MySQL的应用程序不需要修改一行代码,即可使用POLARDB。 - PolarDB 是一个多节点集群,集群中有一个Writer节点(主节点)和多个Reader节点,他们之间节点间的数据同步是通过异步复制实现的,这样可以保证数据的一致性和可用性。 - PolarDB 采用了存储计算分离架构,利用了软硬件结合的优势,为用户提供具备极致弹性、高性能、海量存储、安全可靠的数据库服务。
您要问的是polardb不进行参数同步的原因?数据库版本不匹配和参数冲突。 1、数据库版本不匹配:Polardb由于数据库版本不同而不进行参数同步,不同的数据库版本具有不同的参数设置和支持的功能,在进行参数同步之前,必须确保数据库版本一致。 2、参数冲突:在多个节点的数据库集群中,存在参数冲突的情况,即不同节点上的参数设置不一致,进行参数同步会导致设置冲突,从而影响数据库的正常运行。
摘要: 云计算带来了业务弹性上的极大优势,阿里云数据库高级产品专家时慢从应用架构的变迁,客户实战案例,业务分析等方面详细介绍POLARDB,及如何利用POLARDB设计互联网创新型应用的数据库架构。 云计算带来了业务弹性上的极大优势,阿里云数据库高级产品专家时慢从应用架构的变迁,客户实战案例,业务分析等方面详细介绍POLARDB,及如何利用POLARDB设计互联网创新型应用的数据库架构。 应用架构的变迁——为什么我们需要超级MySQL?POLARDB跟MySQL是100%兼容的,有超越MySQL很多倍的性能,以及单实例最大100TB的超大存储空间,可以理解为阿里自研的超级MySQL。 那么我们为什么要打造这样一款超级MySQL呢?我们理解这是应用架构进行互联网分布式变迁的必然结果。 首先我们需要回顾一下应用架构的变迁的历史,从最早的CS架构到BS架构,从J2EE到Spring/Struts/Hibernate,再到现在的微服务架构,经历了很多代的架构转型。 从传统应用的业务架构到互联网分布式的应用架构,在方方面面都发生了变化。 从资源层,到数据层,中间件,应用的发布封装以及应用的框架,开发运维的角度都在发生了互联网分布式变迁。 资源层:传统应用会使用X86 ,小机以及存储设备;互联网分布式应用在使用公有云,私有云,混合云等。 数据层:传统应用会使用Oracle,DB2等集中化的商业数据库,互联网应用使用的是MySQL,Redis,HBase这样的分布式数据库,他们不需要集中化的存储设备。 中间件:传统应用会使用WebLogic,WebSphere等,互联网应用在向微服务架构转型中通常会使用Swarm,K8S,Mesos。 应用发布封装:传统应用会使用JAVA开发并发布成war/ear文件封装,再发布到中间件。 微服务架构通常会将应用发布成容器的镜像。 应用框架:传统应用通常会使用Spring,Struts,hibernate来开发,而目前互联网分布式应用更多使用的是SpringCloud, Double, EDAS等微服务架构。 开发运维:传统应用会使用可控的发布,保守的运维,新功能上线需要数周,甚至数月时间;互联网分布式架构更多使用的是DevOps持续集成,敏捷快速迭代。 我们理解,互联网分布式应用发生这些架构的改变,目标都是使业务更加敏捷,更加具有弹性,能承载来自互联网的高并发压力。 在创新架构下,业务应用可以通过微服务的方式随时进行横向扩展,但压力并不会被处理掉,负载会直接透传到数据层面,解决了应用弹性的问题,反而对数据库产生了更大的挑战。 互联网的分布式架构要求数据库更加敏捷,拥有更好的弹性以及更低的成本。 (传统应用中,一个应用可能只需要一个数据库作承载,但在互联网分布式应用下,进行了微服务改造之后,一个业务系统可能就需要数十个甚至上百个数据库去承载,因此对成本也提出了要求。 )实战——阿里云数据库为业务架构变迁做好准备目前,阿里云的数据库形态已经覆盖了互联网中99%的业务场景。 关系型数据库包括有MySQL,SQL Server,PG,POLARDB。 NoSQL产品家族包括Redis,MongoDB,HBase等。 同时具备混合分析型的数据仓库,分布式数据库DRDS,以及数据库服务于工具(DTS,DBS,CloudDBA,DMS等)。 演进路线阿里云上提供了这么多的数据库产品,在实际应用中该如何进行选择呢?我们已经为业务的快速发展和更新迭代做好了准备。 这是我们建议的应用架构的演进路线:在业务的初期,建议选择MySQL来快速构建业务应用。 当成长起来之后,独立MySQL无法承载更大业务压力的时候,可以基于MySQL做读写分离,不需要对应用做任何改造。 我们进入快速成长期,读写分离也无法承载业务需求时,可以无缝迁移到POLARDB,迁移中不需要对业务系统做任何的更改,而且POLARDB的读写分离通过共享存储消除了复制延迟,更适合对数据一致性有更高要求的场景。 当业务进一步发展壮大期间,还可以在POLARDB上做垂直拆分。 垂直拆分是指将业务模块垂直拆分到不同数据库实例,分到多个独立数据库中去,比如分成用户库,订单库,仓储库等,从而用更多的独立数据库联合来应对业务负载的压力。 当业务发展到象淘宝这么大的规模和体量,就需要采用DRDS进行分布式改造、跨机房多活,以及根据业务拆分做单元化改造,这正是阿里淘系应用已经走过并行之有效的演进道路。 应用链路的优化——自动读写分离,短连接优化我们使用数据库代理来进行链路访问层的优化。 访问数据库的标准模式是直接访问主实例和只读实例。 在这种模式下需要在业务层面做读写分离的逻辑拆分。 我们提供了代理模式,让业务层和数据库层完全解耦。 在访问数据库时,不需要直接连接数据库实例,而是连接对业务完全透明的Proxy,它接收到SQL请求后会自动化做读写分离,把所有写操作路由到主实例,并把读操作负载均衡的路由到只读实例上,从而实现对业务透明的自动化读写分离。 代理模式除了实现读写分离外,还可以进行故障数据库的透明切换。 不论是标准模式还是代理模式,当主实例发生故障后,都可以自动切换到备份的实例上,保证数据库的可用性。 但在标准模式中,切换后业务需要进行数据库重连,但通过Proxy,业务应用不需要重连,感受不到高可用切换。 同时,代理模式还提供了短连接优化。 举例来说,如果业务是使用PHP开发,它连接数据库就是采用短链接的方式,在访问数据库时每次连接都会产生connection,使得数据库在处理连接池上不堪重负。 Proxy可以将短链接转化成长链接,并自主维护连接池。 同时,代理模式还提供了防暴力破解的功能。 比如Proxy可以检测到某个IP不停的尝试重输密码,并主动进行屏蔽。 实时分析数据仓库——POLARMPP,POLARDB最佳搭档数据的处理可以分成数据库生态和大数据生态。 数据库生态适合于处理交易订单等数据一致性要求强的场景,但在处理能力和处理量级上不会特别大。 比如订单量在1TB、2TB级别时,还可以使用,但数量一旦增长到3TB~5TB时,单库的性能就会出现非常大的瓶颈,此时复杂的分析查询就会使得数据库不堪重负。 通常的做法是采用大数据生态,通过ETL或数据复制的方式把在线事务处理产生的数据复制到Hadoop生态中进行数据实时分析。 在Hadoop 生态中,标准方式是利用MapReduce或Spark来做数据分析,但开发人员并不习惯MR或Spark,也不喜欢使用Scala语言,他们还是习惯于使用SQL。 所以在这种模式下,经常还要给开发人员准备Hive、Impla等类SQL组件,让研发人员仍然可以使用SQL来处理数据。 这种方式存在的问题,在于在线事务处理和离线数据仓库之间有延迟,少则几秒,多则几分钟甚至几小时。 并且数据实际上存了两份,并不经济。 针对这种情况,我们提供了POLAR MPP和HybridDB来解决,它可以很好的处理数据的写入,提供百万级的TPS,非常适合用于存储用户的行为、标签、Log日志等。 这种模式可以对百亿级的大表做出毫秒级的响应,对多表关联做复杂的聚合,做多值的子列,全文检索。 最重要的是,它可以和POLARDB共用一份数据,极大的缓解了数据库生态和大数据生态中需要存储两份数据,并且读写存在延迟的问题。 业务场景分析——互联网创新型应用场景实践有了云原生数据库作为武器,互联网创新型的业务场景应该如何设计呢?在讲到创新型业务前,先看一下传统的采用MySQL一主N从的架构,如何构建数据仓库驱动BI报表实现商务智能。 这种架构的问题是需要存储N份数据,做数据的同步复制。 MySQL 的主从之间要进行数据复制,从业务库到分析库也要进行数据复制。 那么采用云原生POLARDB的系统架构应该如何设计呢?这之间,POLARDB和只读分析库构成了云原生的数据集群,由POLAR Store统一进行数据的共享存储。 业务应用会把在线的业务写到POLARDB中,当POLARDB一主一从的模式不足以应对时,可以快速进行扩展,扩展成一主两从甚至N从。 这种扩展区别于MySQL,他提供了敏捷性和业务弹性。 如果数据量比较大,MySQL只读库的生成可能就需要数个小时的时间。 而不管数据量多大,在POLARDB生态下创建一个只读库只需要分钟级的时间。 并且只需要一份数据就可以通过POLARMPP来驱动业务报表。 云原生架构带来如下的业务收益:业务兼容,不改应用:只要是利用MySQL开发的业务系统,可以1. 无缝迁移到POLARDB上。 读写分离:通过POLARDB,一份数据即可实现多个节点的读写分离,并且支持分钟级的扩展。 如果用MySQL 实现读写分离,需要通过数据复制生成多个只读库,浪费时间,浪费空间。 实时分析,数据共享:在数据仓库和BI分析业务中,也只需要一份数据,不需要进行数据复制。 只读实例共享一份数据:由于存储只需要一份,带来了更好的性价比,以一主五从的架构为例,POLARDB的价格要比MySQL低44%。 它在提供更强大的性能的基础上,提供了更高的性价比。 毫秒级的延迟:由于主库和从库共享一份数据,因此中间只存在毫秒级的延迟。 当主节点发生故障时,可以保证切换中的零数据丢失。 Session级读写分离的数据一致性:在金融等一致性要求高的业务场景下,对读一致性的要求非常高,很难容忍秒级甚至毫秒级的数据延迟。 利用POLARDB可以实现session内的数据一致性读。 按需付费,秒级备份:在使用MySQL的时候,如果预计要使用500GB的容量,我们需要买500G的存储空间,但实际上数据可能只占了不到100GB,但还是需要为500GB的预留容量买单。 但POLARDB不需要做空间预留,存储按需付费。 同时,POLARDB通过数据快照可以在秒级实现备份和恢复,更利于我们做数据库安全运维,带来更多价值。 云原生数据库如何打造业务弹性标签:私有方式只读png暴力商务容器war分享图片
标签: 分布式系统、 数据库、 分布式数据库、本文地址: https://yihaiquanyi.com/article/0d1424b5ed4fbd069d30.html
上一篇:极地数据库打造极致性能的数据库解决方案极...