大数据存储体系设计_大数据时代下的三种存储架构

㈠大数据时代下的三种存储架构

大数据时代下的三种存储架构_数据分析师考试

大数据时代，移动互联、社交网络、数据分析、云服务等应用的迅速普及，对数据中心提出革命性的需求，存储基础架构已经成为IT核心之一。政府、军队军工、科研院所、航空航天、大型商业连锁、医疗、金融、新媒体、广电等各个领域新兴应用层出不穷。数据的价值日益凸显，数据已经成为不可或缺的资产。作为数据载体和驱动力量，存储系统成为大数据基础架构中最为关键的核心。

传统的数据中心无论是在性能、效率，还是在投资收益、安全，已经远远不能满足新兴应用的需求，数据中心业务急需新型大数据处理中心来支撑。除了传统的高可靠、高冗余、绿色节能之外，新型的大数据中心还需具备虚拟化、模块化、弹性扩展、自动化等一系列特征，才能满足具备大数据特征的应用需求。这些史无前例的需求，让存储系统的架构和功能都发生了前所未有的变化。

基于大数据应用需求，“应用定义存储”概念被提出。存储系统作为数据中心最核心的数据基础，不再仅是传统分散的、单一的底层设备。除了要具备高性能、高安全、高可靠等特征之外，还要有虚拟化、并行分布、自动分层、弹性扩展、异构资源整合、全局缓存加速等多方面的特点，才能满足具备大数据特征的业务应用需求。

尤其在云安防概念被热炒的时代，随着高清技术的普及，720P、1080P随处可见，智能和高清的双向需求、动辄500W、800W甚至上千万更高分辨率的摄像机面市，大数据对存储设备的容量、读写性能、可靠性、扩展性等都提出了更高的要求，需要充分考虑功能集成度、数据安全性、数据稳定性，系统可扩展性、性能及成本各方面因素。

目前市场上的存储架构如下：

（1）基于嵌入式架构的存储系统

节点NVR架构主要面向小型高清监控系统，高清前端数量一般在几十路以内。系统建设中没有大型的存储监控中心机房，存储容量相对较小，用户体验度、系统功能集成度要求较高。在市场应用层面，超市、店铺、小型企业、政法行业中基本管理单元等应用较为广泛。

（2）基于X86架构的存储系统

平台SAN架构主要面向中大型高清监控系统，前端路数成百上千甚至上万。一般多采用IPSAN或FCSAN搭建高清视频存储系统。作为监控平台的重要组成部分，前端监控数据通过录像存储管理模块存储到SAN中。

此种架构接入高清前端路数相对节点NVR有了较高提升，具备快捷便利的可扩展性，技术成熟。对于IPSAN而言，虽然在ISCSI环节数据并发读写传输速率有所消耗，但其凭借扩展性良好、硬件平台通用、海量数据可充分共享等优点，仍然得到很多客户的青睐。FCSAN在行业用户、封闭存储系统中应用较多，比如县级或地级市高清监控项目，大数据量的并发读写对千兆网络交换提出了较大的挑战，但应用FCSAN构建相对独立的存储子系统，可以有效解决上述问题。

面对视频监控系统大文件、随机读写的特点，平台SAN架构系统不同存储单元之间的数据共享冗余方面还有待提高；从高性能服务器转发视频数据到存储空间的策略，从系统架构而言也增加了隐患故障点、ISCSI带宽瓶颈导致无法充分利用硬件数据并发性能、接入前端数据较少。上述问题催生了平台NVR架构解决方案。

该方案在系统架构上省去了存储服务器，消除了上文提到的性能瓶颈和单点故障隐患。大幅度提高存储系统的写入和检索速度；同时也彻底消除了传统文件系统由于供电和网络的不稳定带来的文件系统损坏等问题。

平台NVR中存储的数据可同时供多个客户端随时查询，点播，当用户需要查看多个已保存的视频监控数据时，可通过授权的视频监控客户端直接查询并点播相应位置的视频监控数据进行历史图像的查看。由于数据管理服务器具有监控系统所有监控点的录像文件的索引，因此通过平台CMS授权，视频监控客户端可以查询并点播整个监控系统上所有监控点的数据，这个过程对用户而言也是透明的。

（3）基于云技术的存储方案

当前，安防行业可谓“云”山“物”罩。随着视频监控的高清化和网络化，存储和管理的视频数据量已有海量之势，云存储技术是突破IP高清监控存储瓶颈的重要手段。云存储作为一种服务，在未来安防监控行业有着客观的应用前景。

与传统存储设备不同，云存储不仅是一个硬件，而是一个由网络设备、存储设备、服务器、软件、接入网络、用户访问接口以及客户端程序等多个部分构成的复杂系统。该系统以存储设备为核心，通过应用层软件对外提供数据存储和业务服务。

一般分为存储层、基础管理层、应用接口层以及访问层。存储层是云存储系统的基础，由存储设备（满足FC协议、iSCSI协议、NAS协议等）构成。基础管理层是云存储系统的核心，其担负着存储设备间协同工作，数据加密，分发以及容灾备份等工作。应用接口层是系统中根据用户需求来开发的部分，根据不同的业务类型，可以开发出不同的应用服务接口。访问层指授权用户通过应用接口来登录、享受云服务。其主要优势在于：硬件冗余、节能环保、系统升级不会影响存储服务、海量并行扩容、强大的负载均衡功能、统一管理、统一向外提供服务，管理效率高，云存储系统从系统架构、文件结构、高速缓存等方面入手，针对监控应用进行了优化设计。数据传输可采用流方式，底层采用突破传统文件系统限制的流媒体数据结构，大幅提高了系统性能。

高清监控存储是一种大码流多并发写为主的存储应用，对性能、并发性和稳定性等方面有很高的要求。该存储解决方案采用独特的大缓存顺序化算法，把多路随机并发访问变为顺序访问，解决了硬盘磁头因频繁寻道而导致的性能迅速下降和硬盘寿命缩短的问题。

针对系统中会产生PB级海量监控数据，存储设备的数量达数十台上百台，因此管理方式的科学高效显得十分重要。云存储可提供基于集群管理技术的多设备集中管理工具，具有设备集中监控、集群管理、系统软硬件运行状态的监控、主动报警，图像化系统检测等功能。在海量视频存储检索应用中，检索性能尤为重要。传统文件系统中，文件检索采用的是“目录-》子目录-》文件-》定位”的检索步骤，在海量数据的高清视频监控，目录和文件数量十分可观，这种检索模式的效率就会大打折扣。采用序号文件定位可以有效解决该问题。

云存储可以提供非常高的的系统冗余和安全性。当在线存储系统出现故障后，热备机可以立即接替服务，当故障恢复时，服务和数据回迁；若故障机数据需要调用，可以将故障机的磁盘插入到冷备机中，实现所有数据的立即可用。

对于高清监控系统，随着监控前端的增加和存储时间的延长，扩展能力十分重要。市场中已有友商可提供单纯针对容量的扩展柜扩展模式和性能容量同步线性扩展的堆叠扩展模式。

云存储系统除上述优点之外，在平台对接整合、业务流程梳理、视频数据智能分析深度挖掘及成本方面都将面临挑战。承建大型系统、构建云存储的商业模式也亟待创新。受限于宽带网络、web2.0技术、应用存储技术、文件系统、P2P、数据压缩、CDN技术、虚拟化技术等的发展，未来云存储还有很长的路要走。

以上是小编为大家分享的关于大数据时代下的三种存储架构的相关内容，更多信息可以关注环球青藤分享更多干货

㈡大数据存储与应用特点及技术路线分析

大数据存储与应用特点及技术路线分析

大数据时代，数据呈爆炸式增长。从存储服务的发展趋势来看，一方面，对数据的存储量的需求越来越大；另一方面，对数据的有效管理提出了更高的要求。大数据对存储设备的容量、读写性能、可靠性、扩展性等都提出了更高的要求，需要充分考虑功能集成度、数据安全性、数据稳定性，系统可扩展性、性能及成本各方面因素。

大数据存储与应用的特点分析

“大数据”是由数量巨大、结构复杂、类型众多数据构成的数据集合，是基于云计算的数据处理与应用模式，通过数据的整合共享，交叉复用形成的智力资源和知识服务能力。其常见特点可以概括为3V:Volume、Velocity、Variety(规模大、速度快、多样性)。

大数据具有数据规模大(Volume)且增长速度快的特性，其数据规模已经从PB级别增长到EB级别，并且仍在不断地根据实际应用的需求和企业的再发展继续扩容，飞速向着ZB(ZETA-BYTE)的规模进军。以国内最大的电子商务企业淘宝为例，根据淘宝网的数据显示，至2011年底，淘宝网最高单日独立用户访问量超过1.2亿人，比2010年同期增长120%,注册用户数量超过4亿，在线商品数量达到8亿，页面浏览量达到20亿规模，淘宝网每天产生4亿条产品信息，每天活跃数据量已经超过50TB.所以大数据的存储或者处理系统不仅能够满足当前数据规模需求，更需要有很强的可扩展性以满足快速增长的需求。

(1)大数据的存储及处理不仅在于规模之大，更加要求其传输及处理的响应速度快(Velocity)。

相对于以往较小规模的数据处理，在数据中心处理大规模数据时，需要服务集群有很高的吞吐量才能够让巨量的数据在应用开发人员“可接受”的时间内完成任务。这不仅是对于各种应用层面的计算性能要求，更加是对大数据存储管理系统的读写吞吐量的要求。例如个人用户在网站选购自己感兴趣的货物，网站则根据用户的购买或者浏览网页行为实时进行相关广告的推荐，这需要应用的实时反馈;又例如电子商务网站的数据分析师根据购物者在当季搜索较为热门的关键词，为商家提供推荐的货物关键字，面对每日上亿的访问记录要求机器学习算法在几天内给出较为准确的推荐，否则就丢失了其失效性；更或者是出租车行驶在城市的道路上，通过GPS反馈的信息及监控设备实时路况信息，大数据处理系统需要不断地给出较为便捷路径的选择。这些都要求大数据的应用层可以最快的速度，最高的带宽从存储介质中获得相关海量的数据。另外一方面，海量数据存储管理系统与传统的数据库管理系统，或者基于磁带的备份系统之间也在发生数据交换，虽然这种交换实时性不高可以离线完成，但是由于数据规模的庞大，较低的数据传输带宽也会降低数据传输的效率，而造成数据迁移瓶颈。因此大数据的存储与处理的速度或是带宽是其性能上的重要指标。

(2)大数据由于其来源的不同，具有数据多样性的特点。

所谓多样性，一是指数据结构化程度，二是指存储格式，三是存储介质多样性。对于传统的数据库，其存储的数据都是结构化数据，格式规整，相反大数据来源于日志、历史数据、用户行为记录等等，有的是结构化数据，而更多的是半结构化或者非结构化数据，这也正是传统数据库存储技术无法适应大数据存储的重要原因之一。所谓存储格式，也正是由于其数据来源不同，应用算法繁多，数据结构化程度不同，其格式也多种多样。例如有的是以文本文件格式存储，有的则是网页文件，有的是一些被序列化后的比特流文件等等。所谓存储介质多样性是指硬件的兼容，大数据应用需要满足不同的响应速度需求，因此其数据管理提倡分层管理机制，例如较为实时或者流数据的响应可以直接从内存或者Flash(SSD)中存取，而离线的批处理可以建立在带有多块磁盘的存储服务器上，有的可以存放在传统的SAN或者NAS网络存储设备上，而备份数据甚至可以存放在磁带机上。因而大数据的存储或者处理系统必须对多种数据及软硬件平台有较好的兼容性来适应各种应用算法或者数据提取转换与加载(ETL)。

大数据存储技术路线最典型的共有三种：

第一种是采用MPP架构的新型数据库集群，重点面向行业大数据，采用Shared Nothing架构，通过列存储、粗粒度索引等多项大数据处理技术，再结合MPP架构高效的分布式计算模式，完成对分析类应用的支撑，运行环境多为低成本 PC Server，具有高性能和高扩展性的特点，在企业分析类应用领域获得极其广泛的应用。

这类MPP产品可以有效支撑PB级别的结构化数据分析，这是传统数据库技术无法胜任的。对于企业新一代的数据仓库和结构化数据分析，目前最佳选择是MPP数据库。

第二种是基于Hadoop的技术扩展和封装，围绕Hadoop衍生出相关的大数据技术，应对传统关系型数据库较难处理的数据和场景，例如针对非结构化数据的存储和计算等，充分利用Hadoop开源的优势，伴随相关技术的不断进步，其应用场景也将逐步扩大，目前最为典型的应用场景就是通过扩展和封装 Hadoop来实现对互联网大数据存储、分析的支撑。这里面有几十种NoSQL技术，也在进一步的细分。对于非结构、半结构化数据处理、复杂的ETL流程、复杂的数据挖掘和计算模型，Hadoop平台更擅长。

第三种是大数据一体机，这是一种专为大数据的分析处理而设计的软、硬件结合的产品，由一组集成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析用途而特别预先安装及优化的软件组成，高性能大数据一体机具有良好的稳定性和纵向扩展性。

以上是小编为大家分享的关于大数据存储与应用特点及技术路线分析的相关内容，更多信息可以关注环球青藤分享更多干货

㈢大数据基础架构发展需考虑的重要因素

大数据基础架构发展需考虑的重要因素
随着IT行业持续地灌输廉价存储的优势，企业较以往拥有者更多的数据，那么在评估大数据基础架构的过程中需要深入地调查哪些因素。本篇涉及到了在容量、延迟、访问性、安全性和成本这些重要因素的评估。
大数据发展的驱动因素
除了存储比以往更多的数据，我们所面临的数据种类也变得更加繁杂。这些数据源包括互联网事务交易、社交网络的活动、自动化传感器、移动设备以及科研仪器等。除了静态的数据增长方面，事务交易也会保持一个固定的数据“增长速度”。例如飞速增长的社交信息所产生的大量交易事务和记录。不过现有的不断扩大数据集无法确保能够为业务搜索出有价值的信息。
当今的信息是一项重要的生产因素
数据业已成为了一种生产资料，就如何资本、劳动力和原始材料那样，而且也不限于某一行业内的特定应用。企业中所有部门都旨在整合比较越来越多的数据集合，致力于降低成本、提升品质、增强生产能力以及开发新产品。举例来说，对于现场产品的直接数据分析有助于提升设计。又例如企业可以通过对用户习惯的深入分析，比较整体市场的增长特性，大幅提升自己在竞争分析方面的能力。
存储发展的必要性
大数据意味着数据的增长超过了其本身的基础架构，这驱动着应对这些特殊挑战的存储、网络和计算系统进一步的发展。软件应用需求最终推动了硬件功能的发展，同时在这种情况下，大数据分析的处理过程正在影响着数据存储基础架构的发展。这对于存储和IT基础架构企业而言是一项机遇。随着结构化和非结构化数据集的持续增长，这类数据的分析方式也更为多样化，当前的存储系统设计难以应对大数据基础架构所需。存储供应商已经开始推出基于数据块和基于文件的系统来应对许多这方面的需求。以下列出了一些大数据存储基础架构的特性，这些都是源自大数据的挑战。
容量。“大”在很多时候可以理解为PB级别的数据，因此大数据基础架构当然要能够可以扩展。不过其同样必须能够简易地完成扩展，以模块化或阵列的方式为用户直接增加容量，或者至少保持系统不会宕机。横向扩展式存储由于能够满足这种需求，变得十分流行。横向扩展集群体系架构的特征是由存储节点构成，每个节点具备处理能力和可连接性，可以无缝地扩展，避免传统系统可能产生的烟囱式存储的问题。
大数据还意味着大量的文件。管理元数据文件系统的累计会降低可扩展性并影响性能，用传统的NAS系统就会在这种情况下出现问题。基于对象的存储体系架构则通过另一种方式，支持在大数据存储系统中扩展至十亿级别的文件数量，而不会产生传统文件系统中会遇到的负载问题。基于对象的存储可以在不同的地理位置进行扩展，可以在多个不同地点扩展出大型的基础架构。
延迟。大数据基础架构中或许同样会包含实时性的组件，尤其是在网页交互或金融处理事务中。存储系统必须能够应对上述问题同时保持相应的性能，因为延迟可能产生过期数据。在这一领域，横向扩展式基础架构同样能够通过应用存储节点集群，随着容量扩展的同时增强处理能力和可连接性。基于对象的存储系统可能并发数据流，更大程度上改善吞吐量。

㈣大数据存储技术必须跟上

大数据：存储技术必须跟上
“大数据” 通常指的是那些数量巨大、难于收集、处理、分析的数据集，亦指那些在传统基础设施中长期保存的数据。这里的“大”有几层含义，它可以形容组织的大小，而更重要的是，它界定了企业中IT基础设施的规模。业内对大数据应用寄予了无限的期望商业信息积累的越多价值也越大只不过我们需要一个方法把这些价值挖掘出来。
也许人们对大数据的印象主要从存储容量的廉价性而来，但实际上，企业每天都在创造大量的数据，而且越来越多，而人们正在努力的从浩如烟海的数据中寻觅有价值的商业情报。另一方面，用户还会保存那些已经分析过的数据，因为这些旧数据可以与未来收集的新数据进行对照，依然有潜在的利用可能。
为什么要大数据？为什么是现在？
与以往相比，我们除了有能力存储更多的数据量之外，还要面对更多的数据类型。这些数据的来源包括网上交易、网络社交活动、自动传感器、移动设备以及科学仪器等等。除了那些固定的数据生产源，各种交易行为还可能加快数据的积累速度。比如说，社交类多媒体数据的爆炸性增长就源于新的网上交易和记录行为。数据永远都在增长之中，但是，只有存储海量数据的能力是不够的，因为这并不能保证我们能够成功地从中搜寻出商业价值。
数据是重要的生产要素
信息时代，数据俨然已成为一种重要的生产要素，如同资本、劳动力和原材料等其他要素一样，而且作为一种普遍需求，它也不再局限于某些特殊行业的应用。各行各业的公司都在收集并利用大量的数据分析结果，尽可能的降低成本，提高产品质量、提高生产效率以及创造新的产品。例如，通过分析直接从产品测试现场收集的数据，能够帮助企业改进设计。此外，一家公司还可以通过深入分析客户行为，对比大量的市场数据，从而超越他的竞争对手。
存储技术必须跟上
随着大数据应用的爆发性增长，它已经衍生出了自己独特的架构，而且也直接推动了存储、网络以及计算技术的发展。毕竟处理大数据这种特殊的需求是一个新的挑战。硬件的发展最终还是由软件需求推动的，就这个例子来说，我们很明显的看到大数据分析应用需求正在影响着数据存储基础设施的发展。
从另一方面看，这一变化对存储厂商和其他IT基础设施厂商未尝不是一个机会。随着结构化数据和非结构化数据量的持续增长，以及分析数据来源的多样化，此前存储系统的设计已经无法满足大数据应用的需要。存储厂商已经意识到这一点，他们开始修改基于块和文件的存储系统的架构设计以适应这些新的要求。在这里，我们会讨论哪些与大数据存储基础设施相关的属性，看看它们如何迎接大数据的挑战。
容量问题
这里所说的“大容量”通常可达到PB级的数据规模，因此，海量数据存储系统也一定要有相应等级的扩展能力。与此同时，存储系统的扩展一定要简便，可以通过增加模块或磁盘柜来增加容量，甚至不需要停机。基于这样的需求，客户现在越来越青睐Scale-out架构的存储。Scale-out集群结构的特点是每个节点除了具有一定的存储容量之外，内部还具备数据处理能力以及互联设备，与传统存储系统的烟囱式架构完全不同，Scale-out架构可以实现无缝平滑的扩展，避免存储孤岛。
“大数据”应用除了数据规模巨大之外，还意味着拥有庞大的文件数量。因此如何管理文件系统层累积的元数据是一个难题，处理不当的话会影响到系统的扩展能力和性能，而传统的NAS系统就存在这一瓶颈。所幸的是，基于对象的存储架构就不存在这个问题，它可以在一个系统中管理十亿级别的文件数量，而且还不会像传统存储一样遭遇元数据管理的困扰。基于对象的存储系统还具有广域扩展能力，可以在多个不同的地点部署并组成一个跨区域的大型存储基础架构。[page] 延迟问题
“大数据”应用还存在实时性的问题。特别是涉及到与网上交易或者金融类相关的应用。举个例子来说，网络成衣销售行业的在线广告推广服务需要实时的对客户的浏览记录进行分析，并准确的进行广告投放。这就要求存储系统在必须能够支持上述特性同时保持较高的响应速度，因为响应延迟的结果是系统会推送“过期”的广告内容给客户。这种场景下，Scale-out架构的存储系统就可以发挥出优势，因为它的每一个节点都具有处理和互联组件，在增加容量的同时处理能力也可以同步增长。而基于对象的存储系统则能够支持并发的数据流，从而进一步提高数据吞吐量。
有很多“大数据”应用环境需要较高的IOPS性能，比如HPC高性能计算。此外，服务器虚拟化的普及也导致了对高IOPS的需求，正如它改变了传统IT环境一样。为了迎接这些挑战，各种模式的固态存储设备应运而生，小到简单的在服务器内部做高速缓存，大到全固态介质的可扩展存储系统等等都在蓬勃发展。
并发访问一旦企业认识到大数据分析应用的潜在价值，他们就会将更多的数据集纳入系统进行比较，同时让更多的人分享并使用这些数据。为了创造更多的商业价值，企业往往会综合分析那些来自不同平台下的多种数据对象。包括全局文件系统在内的存储基础设施就能够帮助用户解决数据访问的问题，全局文件系统允许多个主机上的多个用户并发访问文件数据，而这些数据则可能存储在多个地点的多种不同类型的存储设备上。
安全问题
某些特殊行业的应用，比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同，而且都是必须遵从的，但是，大数据分析往往需要多类数据相互参考，而在过去并不会有这种数据混合访问的情况，因此大数据应用也催生出一些新的、需要考虑的安全性问题。
成本问题
“大”，也可能意味着代价不菲。而对于那些正在使用大数据环境的企业来说，成本控制是关键的问题。想控制成本，就意味着我们要让每一台设备都实现更高的“效率”，同时还要减少那些昂贵的部件。目前，像重复数据删除等技术已经进入到主存储市场，而且现在还可以处理更多的数据类型，这都可以为大数据存储应用带来更多的价值，提升存储效率。在数据量不断增长的环境中，通过减少后端存储的消耗，哪怕只是降低几个百分点，都能够获得明显的投资回报。此外，自动精简配置、快照和克隆技术的使用也可以提升存储的效率。[page] 很多大数据存储系统都包括归档组件，尤其对那些需要分析历史数据或需要长期保存数据的机构来说，归档设备必不可少。从单位容量存储成本的角度看，磁带仍然是最经济的存储介质，事实上，在许多企业中，使用支持TB级大容量磁带的归档系统仍然是事实上的标准和惯例。
对成本控制影响最大的因素是那些商业化的硬件设备。因此，很多初次进入这一领域的用户以及那些应用规模最大的用户都会定制他们自己的“硬件平台”而不是用现成的商业产品，这一举措可以用来平衡他们在业务扩展过程中的成本控制战略。为了适应这一需求，现在越来越多的存储产品都提供纯软件的形式，可以直接安装在用户已有的、通用的或者现成的硬件设备上。此外，很多存储软件公司还在销售以软件产品为核心的软硬一体化装置，或者与硬件厂商结盟，推出合作型产品。
数据的积累
许多大数据应用都会涉及到法规遵从问题，这些法规通常要求数据要保存几年或者几十年。比如医疗信息通常是为了保证患者的生命安全，而财务信息通常要保存7年。而有些使用大数据存储的用户却希望数据能够保存更长的时间，因为任何数据都是历史记录的一部分，而且数据的分析大都是基于时间段进行的。要实现长期的数据保存，就要求存储厂商开发出能够持续进行数据一致性检测的功能以及其他保证长期高可用的特性。同时还要实现数据直接在原位更新的功能需求。
灵活性
大数据存储系统的基础设施规模通常都很大，因此必须经过仔细设计，才能保证存储系统的灵活性，使其能够随着应用分析软件一起扩容及扩展。在大数据存储环境中，已经没有必要再做数据迁移了，因为数据会同时保存在多个部署站点。一个大型的数据存储基础设施一旦开始投入使用，就很难再调整了，因此它必须能够适应各种不同的应用类型和数据场景。
应用感知
最早一批使用大数据的用户已经开发出了一些针对应用的定制的基础设施，比如针对政府项目开发的系统，还有大型互联网服务商创造的专用服务器等。在主流存储系统领域，应用感知技术的使用越来越普遍，它也是改善系统效率和性能的重要手段，所以，应用感知技术也应该用在大数据存储环境里。
小用户怎么办？
依赖大数据的不仅仅是那些特殊的大型用户群体，作为一种商业需求，小型企业未来也一定会应用到大数据。我们看到，有些存储厂商已经在开发一些小型的“大数据”存储系统，主要吸引那些对成本比较敏感的用户。

㈤大数据系统体系建设规划包括哪些内容

技术模型控制、适应传统管理工作需求新一代电子政务系统在得出了业务资源及关系模型和业务资源权限控制模型后，再结合机关单位办公实际，梳理传统管理工作需求，把机关单位的传统管理工作、规章制度通过技术模型的形式固定了。还有像传统的规章制度中对文件传阅控制、处理规定等，新一代电子政务系统就通过查询授权功能在技术上实现。提炼标准模型在创新的业务核心模型基础上，新一代电子政务系统建设为了保障业务核心模型的有效实现和规划，再提炼了业务标准模型。统一数据库结构设计新一代电子政务系统通过数据标准规范，统一了各子系统的数据结构标准，从数据底层实现了标准统一，为各子系统之间的数据共享和数据整合提供了统一结构基础。统一系统和基础信息资源分类新一代电子政务系统通过统一各业务及应用子系统之间的系统和基础信息资源分类，实现了信息资源支撑的统一，从而为各子系统之间的数据关联相互交换提供了统一数据基础。业务数据标准化保障了业务模型在数据层次的统一，确保了业务模型数据标准。统一主界面布局与统一应用层次在业务数据标准统一基础上，为了确保业务核心模型在电子技术实现后的规范和方便应用，新一代电子政务系统又创新实现了系统布局和展示层的标准,还可以为应用层次划分标准，从而方便用户对系统的规范使用。制定设计模型创新了业务核心模型，提炼了业务标准后，新一代电子政务系统针对各种办公业务资源，从业务工作的实际出发，结合实践经验，又创新制定了基于业务核心模型基础上的业务设计模型，业务设计模型的创新又在于归纳可复用各业务功能模块上面。新一代电子政务系统中，业务设计模型的创新在于提炼可复用各业务功能模块。以往的电子政务建设，模块不清晰，系统建设杂乱无章，很多建设工作重复，这不仅仅耗费了大量资金，而且不利于系统的长远发展和推广应用。新一代电子政务系统从建设的实践中，从功能模块层提炼出了可复用的各业务功能模块，以方便系统的继续发展和建设，局部见图2

㈥大数据系统体系建设规划包括哪些内容

（1）内部控制组织
组织是体系运行的基本保障。其中，是否设置专职的内控部门是企业界关注的焦点，通常的设置方式包括三种：
方式一：单独设置内控部门。
方式二：由内部审计部门牵头负责内控工作。
方式三：在内部控制建设集中期设立内部控制建设办公室，该办公室从各主要部门抽调人员专职从事内控体系建设工作，待体系正式运行时，办公室解散，人员归位到各经营管理部门，且牵头职能也归位至内审部门。
（2）内部环境的诊断与完善
（3）动态的风险评估
（4）控制活动的设计
内控手册分模块设计，每一模块一般包括五个方面的内容：
第一，管理目标。
第二，管理机构及职责。
第三，授权审批矩阵。
第四，控制活动要求。
第五，比照上述几部分，各经营管理部门应当重新梳理与完善业务流程，针对关键风险点强化控制措施，确保组织职责、授权审批、内控要求落实到经营流程中，保证管理目标的实现。
（5）信息与沟通贯穿始终
（6）内部监督手段。

㈦如何正确建立大数据结构

如何正确建立大数据结构
大数据各行各业的企业都提供了潜力。正确使用这些大数据信息可能将增加商业价值，帮助您的企业从市场竞争中脱颖而出。如下是几个企业成功应用大数据的案例：
大数据的例子
汽车制造商已经开始使用大数据来了解汽车何时需要返回到车库进行维修。使用汽车发动机的数百个传感器，可以为汽车制造商发送实时的数据信息，这使得制造商甚至比驾驶汽车的司机还要提前知道汽车何时会出现故障。卡车制造商开始使用大数据，基于实时交通条件和客户的需求来改进他们的路由，从而节约燃料和时间。
零售业也开始越来越多的使用大数据，鉴于越来越多的产品均有一个RFID标签能帮助零售商跟踪产品，知道很少某种产品库存缺货，并及时向供货商订购新产品。沃尔玛便是这正确利用大数据这方面的一个很好的例子。当零售商开始识别他们的客户时，就能够更好地建立商店，更好的满足客户的需求。
当然，上述这些只是几个浅显的例子，大数据的可能性几乎是无止境的。不久的将来，我们将讨论在大数据平台上的最佳实践。知道大数据能够提供商业价值是一回事；而企业要知道如何创建正确的架构则又是另一回事了。
大数据结构
大数据有三个特征，使得大数据不同于现有的数据仓库和商业智能。大数据的这三大特点是：
数据量庞大：大数据的数据量相当庞大，更多的时候大数据的数据量可以达到比数TB到PB级字节。
高速度传递：所有这些TB和PB字节的数据能够实时交付，数据仓库每天都需要应付如此高速的数据流。
种类繁杂：大数据比使用现有的商业智能中正常数据的种类更繁杂。大数据还包括非结构化社交数据，如Twitter或Facebook网的社会信息、日志文件、电子邮件等。
根据这些特性，建立您企业的体系结构是非常重要的。一个很好的出发点是以企业现有的数据仓库为基础。高密度数据的数据仓库，其中包含用于当前商业智能的仪表板。重要的是，该企业是为了之后再移动到大数据。把大数据转移到您的企业有如下四个步骤：
1）进一步分析当前的数据：从仪表板和ad-hoc查询，到诸如空间分析和图形分析或更高级先进的分析。您可以专注于客户忠诚度、客户流失率、分析本地情况（如何接近您的客户），并开始建立社交网络（与您的客户建立社交联系）。这些分析将为您的企业带来更多的商业价值。
2）建立正确的架构，用于存储数据的种类和数量：这一切大数据是如何存储在您的企业的。把这些原始数据直接转化到数据仓库中，每兆字节以低成本优化存储大量低密度数据是十分重要的。这便是Hadoop本身已被证明是非常有效的。Hadoop是开源的，与现有的数据库兼容。它集合了所有可用的数据，您可以用它来寻找新的关系和新的潜在的商业价值。
3）为数据传输速度建立体系结构：一旦您有合适的设备来存储大量的不同的数据，您就可以开始实时处理数据。例如如果您有数据流从传感器传输而来，存储在Hadoop，您想看看正在发生的事件，并需要确定是否需要采取行动。您可以使用一切历史数据，以确定在实时条件下进行预期（预测分析），您可以创建模型反应发生模式。如果您已经建立了一个智能的基础设施，您将能够实时响应事件，并进行实时的决策。
4）开始探索新的模式：利用所有可用的数据，您可以在您的数据中发现新的模式。从Hadoop与其他可用的数据汇总数据相匹配。有不同的大数据初创公司开发的工具，在这个平台上分析，可以帮助您可视化，寻求新的关系。我们的目标是找到您要解决的下一个问题，最大限度地帮助您从数据中获取商业价值。
正确发展大数据结构可谓是一个挑战，同时可能成本是相当昂贵的。然而，结果必将物超所值的让您成功收回投资。

㈧大数据系统体系建设规划包括哪些内容是什么

大数据系统体系建设规划包括的内容是：强化大数据技术产品研发，深化工业大数据创新应用，促进行业大数据应用发展，加快大数据产业主体培育，推进大数据标准体系建设，完善大数据产业支撑体系，提升大数据安全保障能力。

指以数据生产、采集、存储、加工、分析、服务为主，进行的相关经济活动称为大数据产业，目前我国的大数据产业体系已初具雏形，大数据系统体系的发展建设有利于全面提升我国大数据的资源掌控、技术支撑和价值挖掘各方面的能力，加快我国称为数据强国的步伐，同时有利支撑着我国成为制造强国、网络强国的建设工作。

(8)大数据存储体系设计扩展阅读

大数据系统体系建设规划发展原则：

创新驱动、应用引领、开放共享、统筹协调、安全规范。

大数据系统体系建设规划发展目标：

技术产品先进可控、应用能力显着增强、生态体系繁荣发展、支撑能力不断增强、数据安全保障有力。

㈨大数据下的地质资料信息存储架构设计

颉贵琴胡晓琴

(甘肃省国土资源信息中心)

摘要为推进我国地质资料信息服务集群化产业化工作，更大更好地发挥地质资料信息的价值，本文针对我国现有的地质资料信息集群化共享服务平台存在的缺陷和问题，基于现有系统的存储架构，设计了一种大数据下的地质资料信息存储架构，以便于我国地质资料信息服务集群化产业化工作能够适应大数据时代的数据存储。

关键词大数据地质资料存储 NoSQL 双数据库

0 引言

新中国成立60多年来，我国形成了海量的地质资料信息，为国民经济和社会发展提供了重要支撑。但在地质资料管理方面长期存在资料信息分散、综合研究不够、数字化信息化程度不高、服务渠道不畅、服务能力不强等问题，使地质资料信息的巨大潜在价值未能得到充分发挥。为进一步提高地质工作服务国民经济和社会发展的能力，充分发挥地质资料信息的服务功能，扩大服务领域，国土资源部根据国内外地质工作的先进经验，做出了全面推进地质资料信息服务集群化产业化工作的部署。

目前，全国各省地质资料馆都在有条不紊地对本省成果、原始和实物地质资料进行清理，并对其中重要地质资料进行数字化和存储工作。然而，由于我国地质资源丰富，经过几十年的积累，已经形成了海量的地质资料，数据量早已经超过了几百太字节(TB)。在进行地质资料信息服务集群化工作中，随着共享数据量的不断增大，传统的数据存储方式和管理系统必然会展现出存储和检索方面的不足以及系统管理方面的缺陷。为了解决该问题，需要设计更加先进的数据存储架构来实现海量地质资料的存储。

而大数据(Big Data)作为近年来在云计算领域中出现的一种新型数据，科技工作者在不断的研究中，设计了适合大数据存储管理的非关系型数据库NoSQL进行大数据的存储和管理。本文将针对我国现有的地质资料信息集群化共享服务平台存在的缺陷和问题，利用大数据存储管理模式的思想，提出一种海量地质资料存储架构，改进现有系统存储架构，以便于我国全面推进地质资料信息服务集群化产业化工作。

1 工作现状

1.1 国内外地质资料信息的存储现状

在美国，主要有两大地质资料公共服务平台，分别是地球科学信息中心(ESIC)、地球资源观测和科学中心(EROS)，其目的是通过为社会和政府提供更加便利、快速的地质信息服务。20世纪90年代初，澳大利亚出台了国家地球科学填图协议，采用先进的科学方法和技术进行数据存储，从而形成了第二代澳大利亚陆地地质图。

目前，我国地质资料信息服务集群化产业化工作刚刚起步，虽然国土资源部信息中心已经开发了地质资料信息集群化共享服务平台，并倡导各地方用户使用该系统。但由于各个地方早期的工作背景不一致，因此各地方所使用的存储系统也不尽相同，主要有Access、SQL Server、Oracle、MySQL等系统。本文以国土资源部信息中心开发的地质资料信息集群化共享服务平台的存储系统MySQL为例说明。该系统是基于关系数据库管理系统MySQL的一套分布式存储检索系统。该系统的部署使得我国地质资料信息服务集群化产业化工作取得了重大进展，同时也为我国建立标准统一的地质资料信息共享服务平台和互联互通的网络服务体系奠定了坚实的基础。然而，该系统的研发并没有考虑到地质资料信息进一步集群化以及在未来地质资料信息进入大数据时代的信息共享和存储管理问题，也没有给出明确的解决方案。

1.2 大数据的存储架构介绍

大数据是近年在云计算领域中出现的一种新型数据，具有数据量大、数据结构不固定、类型多样、查询分析复杂等特点。传统关系型数据库管理系统在数据存储规模、检索效率等方面已不再适合大数据存储。NoSQL(Not Only SQL)是与关系数据库相对的一类数据库的总称。这些数据库放弃了对关系数据库的支持，转而采用灵活的、分布式的数据存储方式管理数据，从而可以满足大数据存储和处理的需求。NoSQL基于非关系型数据存储的设计理念，以键值对进行存储，采用的数据字的结构不固定，每一个元组可以有不一样的字段，且每个元组可以根据自己的需要增加一些自己的键值对，可以减少一些检索时间和存储空间。目前，应用广泛的 NoSQL 数据库有 Google BigTable、HBase、MongoDB、Neo4 j、Infinite Graph等。

2 大数据下的地质资料信息存储架构设计

根据国土资源部做出的全面推进地质资料信息服务集群化产业化工作的部署，国土资源部倡导全国地质资料馆使用国土资源部信息中心开发的地质资料信息集群化共享服务平台，实现地质资料信息的存储和共享。该系统采用了数据库管理系统MySQL作为数据存储系统。

为了与现有系统和现有的工作进行对接，并为将来地质资料进入大数据时代后的存储工作做准备，本文设计了一种能用于海量地质资料信息存储并且兼容MySQL的分布式的数据存储架构(图1)。

整个系统可以根据不同的用户等级分为不同的用户管理层，由于图幅限制，在图1 中仅仅展示了3级：国家级管理层(即共享服务平台用户层)、省级管理层以及市级管理层(可根据实际需要延伸至县级)。

每级管理层的每个用户可以单独管理一个服务器。如国土资源部信息中心可以单独管理一个服务器；甘肃省国土资源信息中心可以单独管理一个服务器，陕西省国土资源信息中心可以单独管理一个服务器；甘肃的若干个市级国土资源局可以根据需要分别管理各自的服务器。

在服务器上分别安装两套数据库管理系统，一套是原有的MySQL数据库管理系统，另一套是为大数据存储而配备的NoSQL型数据库管理系统。在服务器上还专门开发一个数据库管理器中间件，用于进行用户层和数据库的通信以及两套数据库之间的通信。

由于各个管理层都各自维护自己的数据库和数据。当用户需要进行数据存储时，他所影响的数据库仅仅是本地数据库，存储效率较高；当用户需要从多个数据库读取数据时，顶层的共享服务平台会根据用户需求进行任务分解，将任务分发给下层的管理层进行数据库读取，由于各个数据库并行读取，从而提高了数据库读取效率。

图1 大数据下的地质资料信息存储架构框图

2.1 用户管理层

用户管理层根据权限范围，分为多层(本文以3层为例)。

位于顶层的国家级管理层(共享服务平台用户层)负责用户访问权限的分配、与其直接关联的数据库的访问、下级管理层任务的分配等工作。

用户访问权限的分配是指为访问本共享服务平台的个人用户和单位用户分配数据的使用权限、安全性的设计等。

与其直接关联的数据库访问是指直接存储在其本地数据库上的数据的访问。在该数据库中不仅要存储所需要的地质资料，还要存储注册用户信息等数据。

下级管理层任务分配是指如果用户需要访问多个下层数据库，用户只需要输入查询这几个下层数据库的命令，而如何查找下层数据库则由该功能来完成。例如某用户要查找甘肃、陕西、上海、北京的铁矿分布图，则用户只需要输入这几个地方及铁矿等查询条件，系统将自动把各个省的数据库查询任务分派到下级管理层。

同理，位于下层的省级管理层和市级管理层除了没有用户访问权限功能外，其余功能与国家级管理层是相同的。各层之间的数据库通过互联网相互连接成分布式的数据库系统。

2.2 MySQL和NoSQL的融合

MySQL是关系型数据库，它支持SQL查询语言，而NoSQL是非关系型数据库，它不支持SQL查询语言。用户要想透明地访问这两套数据库，必须要设计数据库管理器中间件，作为用户访问数据库的统一入口和两套数据库管理系统的通信平台。本文所设计的数据库管理器简单模型如图2所示。

图2 数据库管理器模型

服务器管理器通过用户程序接口与应用程序进行通讯，通过MySQL数据库接口与MySQL服务器通讯，通过NoSQL数据库接口与NoSQL数据库接口通讯。当应用程序接口接收到一条数据库访问命令之后，交由数据库访问命令解析器进行命令解析，从而形成MySQL访问命令或者NoSQL访问命令，通过相应的数据库接口访问数据库；数据库返回访问结果后经过汇总，由应用程序接口返回给应用程序。

两套数据库可以通过双数据库通信协议进行相互的通信和互访。此通信协议的建立便于地质工作人员将已经存入MySQL数据库的不适合结构化存储的数据转存到NoSQL数据库中，从而便于系统的升级和优化。

2.3 系统的存储和检索模式

在本存储框架设计中，系统采用分布式网络存储模式，即采用可扩展的存储结构，利用分散在全国各地的多台独立的服务器进行数据存储。这种方式不仅分担了服务器的存储压力，提高了系统的可靠性和可用性，还易于进行系统扩展。另外，由于地质资料信息存储的特殊性，各地方用户的数据存储工作基本都是在本地服务器进行，很少通过网络进行远程存储，所以数据存储效率较高。

在一台数据库服务器上安装有MySQL和NoSQL型两套数据库管理系统，分别用于存储地质资料信息中的结构化数据和非结构化数据。其中，NoSQL型数据库作为主数据库，用于存储一部分结构化数据和全部的非结构化数据；而MySQL数据库作为辅助数据库，用于存储一部分结构化的数据，以及旧系统中已经存储的数据。使用两套数据库不仅可以存储结构化数据而且还可以适用于大数据时代地质资料信息的存储，因此系统具有很好的适应性和灵活性。

2.4 安全性设计

地质资料信息是国家的机密，地质工作人员必须要保证它的安全。地质资料信息进入数字化时代之后，地质资料常常在计算机以及网络上进行传输，地质资料信息的安全传输和保存更是地质工作人员必须关注和解决的问题。在本存储架构的设计中设计的安全问题主要有数据库存储安全、数据传输安全、数据访问安全等问题。

数据库设计时采用多边安全模型和多级安全模型阻止数据库中信息和数据的泄露来提高数据库的安全性能，以保障地质信息在数据库中的存储安全；当用户登录系统访问数据库时，必须进行用户甄别和实名认证，这主要是对用户的身份进行有效的识别，防止非法用户访问数据库；在对地质资料进行网络传输时，应该首先将数据进行加密，然后再进行网络传输，以防止地质信息在传输过程中被窃取。

3 结语

提高地质资料数字化信息化水平，是国外地质工作强国的普遍做法。为推进我国地质资料信息服务集群化产业化工作，本文针对我国现有的地质资料信息集群化共享服务平台存在的缺陷和问题，利用大数据存储管理模式的思想，基于现有系统的存储架构，设计了一种大数据下的地质资料信息存储架构，以便于我国地质资料信息服务集群化产业化工作能够适应大数据时代的数据存储。该存储架构的设计只涉及了简单模型的构建，具体详细复杂的功能设计和软件实现还需要在进一步的研究工作中完成。

参考文献

[1]吴金朋.一种大数据存储模型的研究与应用[D].北京：北京邮电大学计算机学院，2012.

[2]吴广君，王树鹏，陈明，等.海量结构化数据存储检索系统[J].计算机研究与发展，2012，49(Suppl)：1～5.

[3]黄

，易晓东，李姗姗，等.面向高性能计算机的海量数据处理平台实现与评测[J].计算机研究与发展，2012，49(Suppl)：357～361.

㈩大数据时代“数据动车”的存储模式

大数据时代“数据动车”的存储模式
大数据席卷全球，相关理论与技术已经成为国内外学术界、产业界和应用行业普遍关注的热点研究课题，并掀起了一场空前的研究热潮。大数据的海量存储、大数据的应用领域、大数据带来的商业价值、大数据的学术分析……大数据，正在迎接继互联网之后的又一场“革命”。
大数据的“争宠”之路
大数据之所以成为商界“新宠”，源于它分析洞察的魔力。人们可以通过对存储下来的大量目标数据的分析，挖掘出隐藏在数据背后的真实故事或事件主因。正因它有如此魔力，大数据被广泛的应用在政府职能部门、商业领域、医学领域等各行各业。
大数据在政府职能部门的应用。如：美国孟菲斯警局借助数据分析平台，通过对以往大量案件的分析，得出一些犯罪的模型，列出了犯罪的“热点地区”，从而有效布置警力，最大限度的遏制犯罪的发生等。
大数据在商业领域的应用。如：美国卡夫食品公司在进军澳大利亚市场时，借助数据分析的技术，很快便“入乡随俗”，取得了巨大的成功。
大数据在医学领域的应用。如：在加拿大，研究人员针对早产儿的安全问题，正在开发一种大数据手段，以便能在明显症状出现之前发现早产婴儿体内的感染。通过把包括心率、血压、呼吸和血氧水平等16种生命体征转化成每秒1000多个数据点的信息流，他们已经能够找到极其轻微的变化与较为严重的问题之间的相关性。最终，这项技术将使医生能够提前采取行动，从而拯救生命。
大数据的影响正在向四面八方的辐射，不仅可以为我们排忧解难，强化工作效率，提高工作质量，而且能帮助我们创造更大的商业利润。
大数据的“掘金”之路
在国外，大数据正在与各行业的实际应用紧密结合，从数据中“掘金”不仅是一个愿景，而是真实的现状。如：美国医药贸易商McKesson将大数据技术融合到每天处理200万个订单的供应链业务中，节省了超过1亿美元的流动资金；加拿大皇家银行在大数据上每投入600万美元，就能获得1.2亿美元的收入回报……
Gartner报告称2012年全球各大企业用于大数据业务的投资总额达43亿美元，预计2013年全球各大企业用于大数据业务的投资总额仍将增至340亿美元。IDC报告称，在中国，与大数据建设相关的硬件软件服务在2011年市场规模约达7760万美金，而2016年这一数字将超过6亿美金，连续增长率将达到51.4%。大数据已经加速到来并迅速渗透至各行业，并带动各行各业的经济发展。
不仅如此，世界各国也纷纷推出本国的大数据发展战略。如美国奥巴马政府已发起大数据研究和发展倡议，承诺为此投资超2亿美元；英国政府也宣布投资1.89亿英镑推进大数据和节能计算……
大数据已全然走进我们的生活，给我们带来极大的经济效益，同时我们在大数据的海量投资，在一定程度上也带动了国民经济的增长。
大数据的“信息”之路
这是一个“数据爆炸”的时代，所有信息已数据化，而大数据的来源宽泛，有社交网络数据、有持续保存下来的历史数据等等，不难看出，我们的数据源不仅仅有传统的结构化数据，还有很多非结构化的数据。用传统的数据存储方式已经不符合要求，而且本身的要求也是有变化的，对于结构化的数据处理方式的要求和现在大数据处理方式的要求不完全一样。作为云存储厂商，目的是研发适合的产品，制定合理的解决方案，从而形成一个更完善、更完整的数据存储、管理和处理体系。
初志科技高性能安全存储一体机--“数据动车”，正是在大数据背景之下出现的，我们借鉴动车组的设计理念，根据存储需求，增加相应节点和机柜，而每个存储节点都由一台X86服务器作为动力源，随着设备的增加，数据的读取速度随即加速，并且数据和设备可自由延展而无需预留空间，避免多余的采购导致浪费。增加了海量数据的存储，访问速度、信息吞吐量等都大大提高。
大数据标志着社会处理信息方式的变化，随着时间的推移，大数据可能会改变人们思考世界的方式。并利用越来越多的数据来理解事情和作出决定，人们很可能会发现生活的许多层面是随机的、而不是确定的。

大数据存储体系设计

与大数据存储体系设计相关的内容