分布式存储与高并发_分布式存储的优点有哪些

A. 分布式数据库相比自建数据库具备哪些优势

自建数据库：

容易产生容量与性能瓶颈
当前的硬件条件下，主流数据库可以支持单表千万级数据量的存储，但是难以支撑密集的并发读写，存在性能瓶颈。
分区分表或分库方案限制太多
采用分区表方案，数据不能跨实例存储，扩展性和维护性较差。
采用分库方案，客户端需要自行管理各库连接，数据库连接管理和升级复杂，扩容迁移困难。
服务器成本高昂
普通X86服务器支撑能力有限，品牌厂商的服务器价格高昂，通过增加硬件规格来提升并发性能的成本太高，且能到达的性能高度有限。

在分布式数据库面前，上面这些都不是问题，有很长厂商都已经把分布式数据库做的不错了，如阿里云，华为云等。

如下以我熟悉的华为云分布式数据库中间件DDM为例为你介绍下，如果感兴趣可以去官网了解一下，现在好像还有试用活动：华为云分布式数据库中间件DDM

分布式数据库：

数据分布存储
DDM采用水平拆分方式，将数据记录数庞大的单表，按指定的拆分规则，分布式存储到各个分片中。同时DDM提供路由分发功能，应用服务无需考虑数据该写入哪个分片，该从哪个分片读取。
读写分离
用户可以根据数据读取压力负载情况，为每个RDS实例配置一个或者多个只读实例，提高查询并发性能。
高性能
在实际业务访问中，SQL主要的性能瓶颈集中在物理数据库节点上。
DDM实例关联多个RDS节点，减少单个RDS存储的数据量，同时实现并行计算，支持PB级数据量访问，以及百万级高并发。
在线平滑扩容
DDM在不中断业务的情况下，支持新增RDS实例，水平扩容存储空间。一键式扩容，轻松解决单机数据库的容量瓶颈。

B. 什么是分布式存储

分布式存储系统，是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据，存储服务器成为系统性能的瓶颈，也是可靠性和安全性的焦点，不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构，利用多台存储服务器分担存储负荷，利用位置服务器定位存储信息，它不但提高了系统的可靠性、可用性和存取效率，还易于扩展。

(2)分布式存储与高并发扩展阅读：

分布式存储，集中管理，在这个方案中，共有三级：

1、上级监控中心：上级监控中心通常只有一个，主要由数字矩阵、认证服务器和VSTARClerk软件等。

2、本地监控中心：本地监控中心可以有多个，可依据地理位置设置，或者依据行政隶属关系设立，主要由数字矩阵、流媒体网关、iSCSI存储设备、VSTARRecorder软件等组成；音视频的数据均主要保存在本地监控中心，这就是分布式存储的概念。

3、监控前端：主要由摄像头、网络视频服务器组成，其中VE4000系列的网络视频服务器可以带硬盘，该硬盘主要是用于网络不畅时，暂时对音视频数据进行保存，或者需要在前端保存一些重要数据的情况。

C. 分布式缓存主要用在高并发环境下的作用

分布式缓存主要用在高并发环境下，减轻数据库的压力，提高系统的响应速度和并发吞吐。当大量的读、写请求涌向数据库时，磁盘的处理速度与内存显然不在一个量级，因此，在数据库之前加一层缓存，能够显着提高系统的响应速度，并降低数据库的压力。作为传统的关系型数据库，MySQL提供完整的ACID操作，支持丰富的数据类型、强大的关联查询、where语句等，能够非常客易地建立查询索引，执行复杂的内连接、外连接、求和、排序、分组等操作，并且支持存储过程、函数等功能，产品成熟度高，功能强大。但是，对于需要应对高并发访问并且存储海量数据的场景来说，出于对性能的考虑，不得不放弃很多传统关系型数据库原本强大的功能，牺牲了系统的易用性，并且使得系统的设计和管理变得更为复杂。这也使得在过去几年中，流行着另一种新的存储解决方案——NoSQL，它与传统的关系型数据库最大的差别在于，它不使用SQL作为查询语言来查找数据，而采用key-value形式进行查找，提供了更高的查询效率及吞吐，并且能够更加方便地进行扩展，存储海量数据，在数千个节点上进行分区，自动进行数据的复制和备份。在分布式系统中，消息作为应用间通信的一种方式，得到了十分广泛的应用。消息可以被保存在队列中，直到被接收者取出，由于消息发送者不需要同步等待消息接收者的响应，消息的异步接收降低了系统集成的耦合度，提升了分布式系统协作的效率，使得系统能够更快地响应用户，提供更高的吞吐。
当系统处于峰值压力时，分布式消息队列还能够作为缓冲，削峰填谷，缓解集群的压力，避免整个系统被压垮。垂直化的搜索引擎在分布式系统中是一个非常重要的角色，它既能够满足用户对于全文检索、模糊匹配的需求，解决数据库like查询效率低下的问题，又能够解决分布式环境下，由于采用分库分表，或者使用NoSQL数据库，导致无法进行多表关联或者进行复杂查询的问题。

D. 分布式缓存是什么

分布式缓存主要用于在高并发环境下，减轻数据库的压力，提高系统的响应速度和并发吞吐。当大量的读、写请求涌向数据库时，磁盘的处理速度与内存显然不在一个量级，因此，在数据库之前加一层缓存，能够显着提高系统的响应速度，并降低数据库的压力。作为传统的关系型数据库，MySQL提供完整的ACID操作，支持丰富的数据类型、强大的关联查询、where语句等，能够非常客易地建立查询索引，执行复杂的内连接、外连接、求和、排序、分组等操作，并且支持存储过程、函数等功能，产品成熟度高，功能强大。但是，对于需要应对高并发访问并且存储海量数据的场景来说，出于对性能的考虑，不得不放弃很多传统关系型数据库原本强大的功能，牺牲了系统的易用性，并且使得系统的设计和管理变得更为复杂。这也使得在过去几年中，流行着另一种新的存储解决方案——NoSQL，它与传统的关系型数据库最大的差别在于，它不使用SQL作为查询语言来查找数据，而采用key-value形式进行查找，提供了更高的查询效率及吞吐，并且能够更加方便地进行扩展，存储海量数据，在数千个节点上进行分区，自动进行数据的复制和备份。在分布式系统中，消息作为应用间通信的一种方式，得到了十分广泛的应用。消息可以被保存在队列中，直到被接收者取出，由于消息发送者不需要同步等待消息接收者的响应，消息的异步接收降低了系统集成的耦合度，提升了分布式系统协作的效率，使得系统能够更快地响应用户，提供更高的吞吐。
当系统处于峰值压力时，分布式消息队列还能够作为缓冲，削峰填谷，缓解集群的压力，避免整个系统被压垮。垂直化的搜索引擎在分布式系统中是一个非常重要的角色，它既能够满足用户对于全文检索、模糊匹配的需求，解决数据库like查询效率低下的问题，又能够解决分布式环境下，由于采用分库分表，或者使用NoSQL数据库，导致无法进行多表关联或者进行复杂查询的问题。

E. 分布式存储和超融合区别及优势

分布式存储是什么

关于分布式存储实际上并没有一个明确的定义，甚至名称上也没有一个统一的说法，大多数情况下称作 Distributed Data Store 或者 Distributed Storage System。

其中维基网络中给 Distributed data store 的定义是：分布式存储是一种计算机网络，它通常以数据复制的方式将信息存储在多个节点中。

在网络中给出的定义是：分布式存储系统，是将数据分散存储在多台独立的设备上。分布式网络存储系统采用可扩展的系统结构，利用多台存储服务器分担存储负荷，利用位置服务器定位存储信息，它不但提高了系统的可靠性、可用性和存取效率，还易于扩展。

尽管各方对分布式存储的定义并不完全相同，但有一点是统一的，就是分布式存储将数据分散放置在多个节点中，节点通过网络互连提供存储服务。这一点与传统集中式存储将数据集中放置的方式有着明显的区分。

超融合是什么

参考维基网络中的超融合定义：

超融合基础架构（hyper-converged infrastructure）是一个软件定义的 IT 基础架构，它可虚拟化常见“硬件定义”系统的所有元素。HCI 包含的最小集合是：虚拟化计算（hypervisor），虚拟存储（SDS）和虚拟网络。HCI 通常运行在标准商用服务器之上。

超融合基础架构（hyper-converged infrastructure）与融合基础架构（converged infrastructure）最大的区别在于，在 HCI 里面，无论是存储底层抽象还是存储网络都是在软件层面实现的（或者通过 hypervisor 层面实现），而不是基于物理硬件实现的。由于所有软件定义的元素都围绕 hypervisor 实现，因此在超融合基础架构上的所有实例可以联合共享所有受管理的资源。

分布式存储和超融合区别及优势？

分布式存储，它的最大特点是多节点部署，数据通过网络分散放置。分布式存储的特点是扩展性强，通过多节点平衡负载，提高存储系统的可靠性与可用性。

超融合基础架构从定义中明确提出包含软件定义存储(SDS)，具备硬件解耦的能力，可运行在通用服务器之上。超融合基础架构与 Server SAN 提倡的理念类似，计算与存储融合，通过全分布式的架构，有效提升系统可靠性与可用性，并具备易于扩展的特性。

SMTX ZBS 分布式块存储架构

除此之外，超融合基础架构有更进一步的扩展，它强调以虚拟化计算（hypervisor）为核心，以软件定义的方式整合包括虚拟化计算，软件定义存储以及虚拟网络资源。从笔者来看超融合基础架构未来的可能性更多，可促进计算，存储，网络，安全，容灾等等 IT 服务大融合，降低IT 基础架构的复杂性，重新塑造”软件定义的数据中心”。

F. 一个大型、稳健、成熟的分布式系统的背后，往往会涉及众多的支撑系统基础设施

树苗中2包是需要混合浸泡吗？一个大型、稳健、成熟的分布式系统的背后，往往会涉及众多的支撑系统，我们将这些支撑系统称为分布式系统的基础设施。除了前面所介绍的分布式协作及配置管理系统ZooKeeper,我们进行系统架构设计所依赖的基础设施，还包括分布式缓存系统、持久化存储、分布式消息系统、搜索引擎，以及CDN系统、负载均衡系统、运维自动化系统等，还有后面章节所要介绍的实时计算系统、离线计算系统、分布式文件系统、日志收集系统、监控系统、数据仓库等。
分布式缓存主要用于在高并发环境下，减轻数据库的压力，提高系统的响应速度和并发吞吐。当大量的读、写请求涌向数据库时，磁盘的处理速度与内存显然不在一个量级，因此，在数据库之前加一层缓存，能够显着提高系统的响应速度，并降低数据库的压力。作为传统的关系型数据库，MySQL提供完整的ACID操作，支持丰富的数据类型、强大的关联查询、where语句等，能够非常客易地建立查询索引，执行复杂的内连接、外连接、求和、排序、分组等操作，并且支持存储过程、函数等功能，产品成熟度高，功能强大。但是，对于需要应对高并发访问并且存储海量数据的场景来说，出于对性能的考虑，不得不放弃很多传统关系型数据库原本强大的功能，牺牲了系统的易用性，并且使得系统的设计和管理变得更为复杂。这也使得在过去几年中，流行着另一种新的存储解决方案——NoSQL，它与传统的关系型数据库最大的差别在于，它不使用SQL作为查询语言来查找数据，而采用key-value形式进行查找，提供了更高的查询效率及吞吐，并且能够更加方便地进行扩展，存储海量数据，在数千个节点上进行分区，自动进行数据的复制和备份。在分布式系统中，消息作为应用间通信的一种方式，得到了十分广泛的应用。消息可以被保存在队列中，直到被接收者取出，由于消息发送者不需要同步等待消息接收者的响应，消息的异步接收降低了系统集成的耦合度，提升了分布式系统协作的效率，使得系统能够更快地响应用户，提供更高的吞吐。
当系统处于峰值压力时，分布式消息队列还能够作为缓冲，削峰填谷，缓解集群的压力，避免整个系统被压垮。垂直化的搜索引擎在分布式系统中是一个非常重要的角色，它既能够满足用户对于全文检索、模糊匹配的需求，解决数据库like查询效率低下的问题，又能够解决分布式环境下，由于采用分库分表，或者使用NoSQL数据库，导致无法进行多表关联或者进行复杂查询的问题。

G. 分布式存储的优点有哪些

分布式存储的六大优点
分布式存储往往采用分布式的系统结构，利用多台存储服务器分担存储负荷，利用位置服务器定位存储信息。它不但提高了系统的可靠性、可用性和存取效率，还易于扩展，将通用硬件引入的不稳定因素降到最低。优点如下：

1. 高性能

一个具有高性能的分布式存户通常能够高效地管理读缓存和写缓存，并且支持自动的分级存储。分布式存储通过将热点区域内数据映射到高速存储中，来提高系统响应速度;一旦这些区域不再是热点，那么存储系统会将它们移出高速存储。而写缓存技术则可使配合高速存储来明显改变整体存储的性能，按照一定的策略，先将数据写入高速存储，再在适当的时间进行同步落盘。

2. 支持分级存储

由于通过网络进行松耦合链接，分布式存储允许高速存储和低速存储分开部署，或者任意比例混布。在不可预测的业务环境或者敏捷应用情况下，分层存储的优势可以发挥到最佳。解决了目前缓存分层存储最大的问题是当性能池读不命中后，从冷池提取数据的粒度太大，导致延迟高，从而给造成整体的性能的抖动的问题。

3. 一致性

与传统的存储架构使用RAID模式来保证数据的可靠性不同，分布式存储采用了多副本备份机制。在存储数据之前，分布式存储对数据进行了分片，分片后的数据按照一定的规则保存在集群节点上。为了保证多个数据副本之间的一致性，分布式存储通常采用的是一个副本写入，多个副本读取的强一致性技术，使用镜像、条带、分布式校验等方式满足租户对于可靠性不同的需求。在读取数据失败的时候，系统可以通过从其他副本读取数据，重新写入该副本进行恢复，从而保证副本的总数固定;当数据长时间处于不一致状态时，系统会自动数据重建恢复，同时租户可设定数据恢复的带宽规则，最小化对业务的影响。

4. 容灾性

在分布式存储的容灾中，一个重要的手段就是多时间点快照技术，使得用户生产系统能够实现一定时间间隔下的各版本数据的保存。特别值得一提的是，多时间点快照技术支持同时提取多个时间点样本同时恢复，这对于很多逻辑错误的灾难定位十分有用，如果用户有多台服务器或虚拟机可以用作系统恢复，通过比照和分析，可以快速找到哪个时间点才是需要回复的时间点，降低了故障定位的难度，缩短了定位时间。这个功能还非

5. 扩展性

6. 存储系统标准化

H. 集中式存储和分布式存储的区别在哪里如何选择

如今全球数据存储量呈现爆炸式增长，企业及互联网数据以每年50%的速率在增长，据Gartner预测，到2020年，全球数据量将达到35ZB，等于80亿块4TB硬盘。数据结构变化给存储系统带来新的挑战。非结构化数据在存储系统中所占据比例已接近80%。

互联网的发展使得数据创造的主体由企业逐渐转向个人用户，而个人所产生的绝大部分数据均为图片、文档、视频等非结构化数据；企业办公流程更多通过网络实现，表单、票据等都实现了以非结构化为主的数字化存档;同时，基于数据库应用的结构化数据仍然在企业中占据重要地位，存储大量的核心信息。

数据业务的急剧增加，传统单一的SAN存储或NAS存储方式已经不适应业务发展需要。SAN存储：成本高，不适合PB级大规模存储系统。数据共享性不好，无法支持多用户文件共享。NAS存储：共享网络带宽，并发性能差。随系统扩展，性能会进一步下降。因此，集中式存储再次活跃。

那么集中式存储和分布式存储的有缺点分别有哪些呢？在面对二者时我们该如何选择呢？下面我将为大家介绍和分析集中式存储和分布式存储的不同之处以及在应用中我们应做的选择。

分布式和集中式存储的选择

集中存储的优缺点是，物理介质集中布放;视频流上传到中心对机房环境要求高，要求机房空间大，承重、空调等都是需要考虑的问题。

分布存储，集中管理的优缺点是，物理介质分布到不同的地理位置;视频流就近上传，对骨干网带宽没有什么要求;可采用多套低端的小容量的存储设备分布部署，设备价格和维护成本较低;小容量设备分布部署，对机房环境要求低。

I. 分布式存储和传统存储比较在哪些应用场景比较有优势

1、分布式存储优势

分布式存储可以使生产系统在线运行的情况下进行纵向扩展（Scale-Up）或横向扩展（Scale-Out），且存储系统在扩展后可以达到容量与性能均线性扩展的效果。其具有以下特性：

高性能

分布式存储系统能够将所有存储节点的处理器资源、硬盘资源、网络资源进行整合，将任务切分给多台存储节点，进行并发数据处理，避免了单个硬盘或设备造成的瓶颈，提升整个集群的处理能力。分布式存储系统具有良好的性能扩展能力，可以满足应用程序对存储性能不断增长的要求。

高扩展性

分布式存储系统通过扩展集群存储节点规模从而提高系统存储容量、计算和性能的能力，通过增加和升级服务器硬件，或者指通过增加存储节点数量来提升服务能力。分布式存储系统支持在线增加存储节点，对前端业务透明，系统整体性能与存储节点数量呈线性关系。

高可用性

分布式存储系统同时基于硬件及软件设计了高可用机制，在面对多种异常时（如存储节点宕机、网络中断、硬盘故障、数据损坏等）仍可提供正常服务，提高分布式存储系统硬件的可用性可以通过增加存储节点数量或者采用多种硬件冗余机制保证。分布式存储系统多采用副本机制或纠删码机制保证数据的高可用性，副本机制可以提供较高的数据冗余度，但会降低存储系统有效空间的利用率，纠删码机制可以在保证一定数据冗余度的情况下，大幅提高存储系统的有效空间利用率。

高安全性

分布式存储系统支持可靠的权限控制及互信确认机制，同时采用私有的数据切片及数据编码机制，可以从多重角度保证集群系统不受恶意访问和攻击，保护存储数据不被窃取。

2、分布式存储应用场景

分布式的“四高”特性，使得其在高性能计算、大数据视频云及大数据分析等应用场景中有着广泛的应用。

高性能计算场景

在如气象气候、地质勘探、航空航天、工程计算、材料工程等领域，基于集群的高性能计算，已成为必需的辅助工具。集群系统有极强的伸缩性，可通过在集群中增加或删减节点的方式，在不影响原有应用与计算任务的情况下，随时增加和降低系统的处理能力。根据不同的计算模式与规模，构成集群系统的节点数可以从几个到成千上万个。这些业务对后端的存储系统提出了新的需求，包括统一的存储空间、高效率的文件检索、高带宽的吞吐性能，高可靠的数据安全保障等。

大数据视频云应用场景

随着视频高清技术及超高清技术的普及，视频大数据应用场景，如雪亮工程、平安城市、广电媒资、影视制作、视频网站等领域，对存储设备提出了大容量、高读写性能、高可靠性、低延时及可扩展性等需求。针对这样大规模视频数据应用场景，就需要一个技术先进、性能优越的存储系统作为后端数据存储的支撑者。

大数据分析应用场景

伴随着互联网技术及人工智能的发展，各种基于海量用户/数据/终端的大数据分析及人工智能业务模式不断涌现，同样需要充分考虑存储功能集成度、数据安全性、数据稳定性，系统可扩展性、性能及成本各方面因素。

在数据爆发增长的“数字时代”，软件定义的分布式存储是存储技术高速发展的结晶，并具有着很大的成长空间，必将应用于更广泛的大数据业务场景。

分布式存储与高并发

自建数据库：

分布式数据库：

分布式存储是什么

超融合是什么

分布式存储和超融合区别及优势？

与分布式存储与高并发相关的内容