当前位置:首页 » 服务存储 » 海量数据存储新思路
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

海量数据存储新思路

发布时间: 2022-12-27 10:13:51

① 海量数据存储

存储技术经历了单个磁盘、磁带、RAID到网络存储系统的发展历程。网络存储技术就是将网络技术和I/O技术集成起来,利用网络的寻址能力、即插即用的连接性、灵活性,存储的高性能和高效率,提供基于网络的数据存储和共享服务。在超大数据量的存储管理、扩展性方面具有明显的优势。

典型的网络存储技术有网络附加存储NAS(Network Attached Storage)和存储区域网SAN(Storage Area Networks)两种。

1)NAS技术是网络技术在存储领域的延伸和发展。它直接将存储设备挂在网上,有良好的共享性、开放性。缺点是与LAN共同用物理网络,易形成拥塞,而影响性能。特别是在数据备份时,性能较低,影响在企业存储应用中的地位。

2)SAN技术是以数据存储为中心,使用光纤通道连接高速网络存储的体系结构。即将数据存储作为网络上的一个区域独立出来。在高度的设备和数据共享基础上,减轻网络和服务器的负担。因光纤通道的存储网和LAN分开,使性能得到很大的提高,而且还提供了很高的可靠性和强大的连续业务处理能力。在SAN中系统的扩展、数据迁移、数据本地备份、远程数据容灾数据备份和数据管理等都比较方便,整个SAN成为一个统一管理的存储池(Storage Pool)。SAN存储设备之间通过专用通道进行通信,不占用服务器的资源。因此非常适合超大量数据的存储,成为网络存储的主流。

3)存储虚拟化技术是将系统中各种异构的存储设备映射为一个单一的存储资源,对用户完全透明,达到互操作性的目的和利用已有的硬件资源,把SAN内部的各种异构的存储资源统一成一个单一视图的存储池,可根据用户的需要方便地切割、分配。从而保持已有的投资,减少总体成本,提高存储效率。

存储虚拟化包括3个层次结构:基于服务器的虚拟化存储、基于存储设备的虚拟化存储和基于网络的虚拟化存储。

1)基于服务器的虚拟化存储由逻辑管理软件在主机/服务器上完成。经过虚拟化的存储空间可跨越多个异构的磁盘阵列,具有高度的稳定性和开放性,实现容易、简便。但对异构环境和分散管理不太适应。

2)基于存储设备的虚拟化存储,因一些高端磁盘阵列本身具有智能化管理,可以实现同一阵列,供不同主机分享。其结构性能可达到最优。但实现起来价格昂贵,可操作性差。

3)基于网络的虚拟化存储,通过使用专用的存储管理服务器和相应的虚拟化软件,实现多个主机/服务器对多个异构存储设备之间进行访问,达到不同主机和存储之间真正的互连和共享,成为虚拟存储的主要形式。根据不同结构可分为基于专用服务器和基于存储路由器两种方式。①基于专用服务器的虚拟化,是用一台服务器专用于提供系统的虚拟化功能。根据网络拓扑结构和专用服务器的具体功能,其虚拟化结构有对称和非对称两种方式。在对称结构中数据的传输与元数据访问使用同一通路。实现简单,对服务器和存储设备的影响小,对异构环境的适应性强。缺点是专用服务器可能成为系统性能的瓶颈,影响SAN的扩展。在非对称结构中,数据的传输与元数据访问使用不同通路。应用服务器的I/O命令先通过命令通路传送到专用服务器,获取元数据和传输数据视图后,再通过数据通路得到所需的数据。与对称结构相比,提高了存储系统的性能,增加了扩展能力。②基于存储路由器的SAN虚拟化,存储路由器是一种智能化设备,既具有路由器的功能,又针对I/O进行专门优化。它部署在存储路由器上,多个存储路由器保存着整个存储系统中的元数据多个副本,并通过一定的更新策略保持一致性。这种结构中,因存储路由器具有强大的协议功能,所以具有更多的优势。能充分利用存储资源,保护投资。能实现软硬件隔离,并辅有大量的自动化工具,提高了虚拟服务器的安全性,降低对技术人员的需求和成本。

② 海量空间数据存储

(一)空间数据存储技术

随着地理信息系统的发展,空间数据库技术也得到了很大的发展,并出现了很多新的空间数据库技术(黄钊等,2003),其中应用最广的就是用关系数据库管理系统(RDBMS)来管理空间数据。

用关系数据库管理系统来管理空间数据,主要解决存储在关系数据库中的空间数据与应用程序之间的数据接口问题,即空间数据库引擎(SpatialDatabase Engine)(熊丽华等,2004)。更确切地说,空间数据库技术是解决空间数据对象中几何属性在关系数据库中的存取问题,其主要任务是:

(1)用关系数据库存储管理空间数据;

(2)从数据库中读取空间数据,并转换为GIS应用程序能够接收和使用的格式;

(3)将GIS应用程序中的空间数据导入数据库,交给关系数据库管理。

空间数据库中数据存储主要有三种模式:拓扑关系数据存储模式、Oracle Spatial模式和ArcSDE模式。拓扑关系数据存储模式将空间数据存在文件中,而将属性数据存在数据库系统中,二者以一个关键字相连。这样分离存储的方式由于存在数据的管理和维护困难、数据访问速度慢、多用户数据并发共享冲突等问题而不适用于大型空间数据库的建设。而OracleSpatial实际上只是在原来的数据库模型上进行了空间数据模型的扩展,实现的是“点、线、面”等简单要素的存储和检索,所以它并不能存储数据之间复杂的拓扑关系,也不能建立一个空间几何网络。ArcSDE解决了这些问题,并利用空间索引机制来提高查询速度,利用长事务和版本机制来实现多用户同时操纵同一类型数据,利用特殊的表结构来实现空间数据和属性数据的无缝集成等(熊丽华等,2004)。

ArcSDE是ESRI公司开发的一个中间件产品,所谓中间件是一个软件,它允许应用元素通过网络连接进行互操作,屏蔽其下的通讯协议、系统结构、操作系统、数据库和其他应用服务。中间件位于客户机/服务器的操作系统之上,管理计算资源和网络通讯,并营造出一个相对稳定的高层应用环境,使开发人员可以集中精力于系统的上层开发,而不用过多考虑系统分布式环境下的移植性和通讯能力。因此,中间件能无缝地连入应用开发环境中,应用程序可以很容易地定位和共享中间件提供的应用逻辑和数据,易于系统集成。在分布式的网络环境下,客户端的应用程序如果要访问网络上某个服务器的信息,而服务器可能运行在不同于客户端的操作系统和数据库系统中。此时,客户机的应用程序中负责寻找数据的部分只需要访问一个数据访问中间件,由该中间件完成网络中数据或服务的查找,然后将查找的信息返回给客户端(万定生等,2003)。因此,本系统实现空间数据库存储的基本思想就是利用ArcSDE实现各类空间数据的存储。

目前,空间数据存储技术已比较成熟,出现了许多类似ArcSDE功能的中间件产品,这些软件基本上都能实现空间数据的数据库存储与管理,但对于海量空间数据的存储,各种软件性能差别较大。随着数据量的增长,计算机在分析处理上会产生很多问题,比如数据不可能一次完全被读入计算机的内存中进行处理。单纯依赖于硬件技术,并不能满足持续增长的数据的处理要求。因此需要在软件上找到处理海量数据的策略,并最终通过软硬件的结合完成对海量数据的处理。在海量数据存储问题上,许多专家从不同侧面进行过研究,Lindstrom在地形简化中使用了外存模型(Out-of-core)技术;钟正采用了基于数据分块、动态调用的策略;汪国平等人在研究使用高速网络进行三维海量地形数据的实时交互浏览中,采用了分块、多分辨率模板建立模型等方法。这些技术、方法已经在各自系统上进行了研究和实现。本系统采用的ArcSDE软件基本上也是采用分块模型的方法,具体存储和操作不需要用户过多了解,已经由ArcSDE软件实现。因此,对海量数据的存储管理,更需要从数据的组织方式等方面进行设计。塔里木河流域生态环境动态监测系统采集了大量的遥感影像、正射影像等栅格结构的数据,这些数据具有很大的数据量,为适应流域空间基础设施的管理需要,采取一种新的方式来管理、分发这些海量数据以适应各部门的快速浏览和管理需要。

(二)影像金字塔结构

影像数据库的组织是影像数据库效率的关键,为了获得高效率的存取速度,在数据的组织上使用了金字塔数据结构和网格分块数据结构。该技术主导思想如下:

(1)将数据库中使用到的纹理处理成为大小一致的纹理块;

(2)为每块纹理生成5个细节等级的纹理,分别为0、1、2、3、4,其中1级纹理通过0级纹理1/4压缩得到,2级纹理通过1级纹理1/4压缩得到,…,以此类推;

(3)在显示每个块数据之前,根据显示比例的大小,并以此决定该使用那一级的纹理;

(4)在内存中建立纹理缓冲池,使用LRU算法进行纹理块的调度,确保使用频率高的纹理调度次数尽可能少。

(三)影像数据压缩

影像数据压缩有无损压缩和有损压缩两个方法,具体采取哪种压缩方法需根据具体情况确定。对于像元值很重要的数据,如分类数据、分析数据等采用无损压缩(即LZ77算法),否则采用有损压缩(即JPEG算法)。通过对影像数据的压缩,一方面可以节约存储空间,另一方面可以加快影像的读取和显示速度。影像数据的压缩一般与构建金字塔同时进行,在构建影像金字塔过程中自动完成数据的压缩。

③ 银行海量交易数据是怎么存储的

海量数据时代正在来临。数据信息量如潮水般迅猛增长,根据分析机构IDC最新研究结果,2011年全球数据量突破了1.8ZB,在5年时间年迅速增长9倍,受管理的数据量更是增加50倍之多。英特尔的IO加速解决方案中的一个关键特性——存储I/O加速采用了基于硬件的加速功能,让来自于以及传输到应用的数据速度更快。这包括增加RAID 6技术在数据传输过程中进行纠错。不仅确保了更快速的数据传输,同时避免数据在磁盘和磁盘存储系统中传输时发生丢失或者篡改。字节奇偶校验被用来保证数据通过存储子系统时的完整性。数据的奇偶校验被写入到磁盘驱动器,防止在多个硬盘发生故障时丢失数据,或者重建过程中有坏数据块。这增加了系统的可用性和可靠性,缩短了备份窗口,加快磁盘重建以及数据的保护。

④ 互联网如何海量存储数据

目前存储海量数据的技术主要包括NoSQL、分布式文件系统、和传统关系型数据库。随着互联网行业不断的发展,产生的数据量越来越多,并且这些数据的特点是半结构化和非结构化,数据很可能是不精确的,易变的。这样传统关系型数据库就无法发挥它的优势。因此,目前互联网行业偏向于使用NoSQL和分布式文件系统来存储海量数据。

下面介绍下常用的NoSQL和分布式文件系统。
NoSQL
互联网行业常用的NoSQL有:HBase、MongoDB、Couchbase、LevelDB。

HBase是Apache Hadoop的子项目,理论依据为Google论文 Bigtable: A Distributed Storage System for Structured Data开发的。HBase适合存储半结构化或非结构化的数据。HBase的数据模型是稀疏的、分布式的、持久稳固的多维map。HBase也有行和列的概念,这是与RDBMS相同的地方,但却又不同。HBase底层采用HDFS作为文件系统,具有高可靠性、高性能。

MongoDB是一种支持高性能数据存储的开源文档型数据库。支持嵌入式数据模型以减少对数据库系统的I/O、利用索引实现快速查询,并且嵌入式文档和集合也支持索引,它复制能力被称作复制集(replica set),提供了自动的故障迁移和数据冗余。MongoDB的分片策略将数据分布在服务器集群上。

Couchbase这种NoSQL有三个重要的组件:Couchbase服务器、Couchbase Gateway、Couchbase Lite。Couchbase服务器,支持横向扩展,面向文档的数据库,支持键值操作,类似于SQL查询和内置的全文搜索;Couchbase Gateway提供了用于RESTful和流式访问数据的应用层API。Couchbase Lite是一款面向移动设备和“边缘”系统的嵌入式数据库。Couchbase支持千万级海量数据存储
分布式文件系统
如果针对单个大文件,譬如超过100MB的文件,使用NoSQL存储就不适当了。使用分布式文件系统的优势在于,分布式文件系统隔离底层数据存储和分布的细节,展示给用户的是一个统一的逻辑视图。常用的分布式文件系统有Google File System、HDFS、MooseFS、Ceph、GlusterFS、Lustre等。

相比过去打电话、发短信、用彩铃的“老三样”,移动互联网的发展使得人们可以随时随地通过刷微博、看视频、微信聊天、浏览网页、地图导航、网上购物、外卖订餐等,这些业务的海量数据都构建在大规模网络云资源池之上。当14亿中国人把衣食住行搬上移动互联网的同时,也给网络云资源池带来巨大业务挑战。

首先,用户需求动态变化,传统业务流量主要是端到端模式,较为稳定;而互联网流量易受热点内容牵引,数据流量流向复杂和规模多变:比如双十一购物狂潮,电商平台订单创建峰值达到58.3万笔,要求通信网络提供高并发支持;又如优酷春节期间有超过23亿人次上网刷剧、抖音拜年短视频增长超10倍,需要通信网络能够灵活扩充带宽。面对用户动态多变的需求,通信网络需要具备快速洞察和响应用户需求的能力,提供高效、弹性、智能的数据服务。

“随着通信网络管道十倍百倍加粗、节点数从千万级逐渐跃升至百亿千亿级,如何‘接得住、存得下’海量数据,成为网络云资源池建设面临的巨大考验”,李辉表示。一直以来,作为新数据存储首倡者和引领者,浪潮存储携手通信行业用户,不断 探索 提速通信网络云基础设施的各种姿势。

早在2018年,浪潮存储就参与了通信行业基础设施建设,四年内累计交付约5000套存储产品,涵盖全闪存储、高端存储、分布式存储等明星产品。其中在网络云建设中,浪潮存储已连续两年两次中标全球最大的NFV网络云项目,其中在网络云二期建设中,浪潮存储提供数千节点,为上层网元、应用提供高效数据服务。在最新的NFV三期项目中,浪潮存储也已中标。

能够与通信用户在网络云建设中多次握手,背后是浪潮存储的持续技术投入与创新。浪潮存储6年内投入超30亿研发经费,开发了业界首个“多合一”极简架构的浪潮并行融合存储系统。此存储系统能够统筹管理数千个节点,实现性能、容量线性扩展;同时基于浪潮iTurbo智能加速引擎的智能IO均衡、智能资源调度、智能元数据管理等功能,与自研NVMe SSD闪存盘进行系统级别联调优化,让百万级IO均衡落盘且路径更短,将存储系统性能发挥到极致。

“为了确保全球最大规模的网络云正常上线运行,我们联合用户对存储集群展开了长达数月的魔鬼测试”,浪潮存储工程师表示。网络云的IO以虚拟机数据和上层应用数据为主,浪潮按照每个存储集群支持15000台虚机进行配置,分别对单卷随机读写、顺序写、混合读写以及全系统随机读写的IO、带宽、时延等指标进行了360无死角测试,达到了通信用户提出的单卷、系统性能不低于4万和12万IOPS、时延小于3ms的要求,产品成熟度得到了验证。

以通信行业为例,2020年全国移动互联网接入流量1656亿GB,相当于中国14亿人每人消耗118GB数据;其中春节期间,移动互联网更是创下7天消耗36亿GB数据流量的记录,还“捎带”打了548亿分钟电话、发送212亿条短信……海量实时数据洪流,在网络云资源池(NFV)支撑下收放自如,其中分布式存储平台发挥了作用。如此样板工程,其巨大示范及拉动作用不言而喻。

⑤ 如何处理海量数据

在实际的工作环境下,许多人会遇到海量数据这个复杂而艰巨的问题,它的主要难点有以下几个方面:
一、数据量过大,数据中什么情况都可能存在。
如果说有10条数据,那么大不了每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至 过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,尤其海量的数据中,什么情况都可能存在,例如,数据中某处格式出了问题,尤其在程序处理时, 前面还能正常处理,突然到了某个地方问题出现了,程序终止了。
二、软硬件要求高,系统资源占用率高。
对海量的数据进行处理,除了好的方法,最重要的就是合理使用工具,合理分配系统资源。一般情况,如果处理的数据过TB级,小型机是要考虑的,普通的机子如果有好的方法可以考虑,不过也必须加大CPU和内存,就象面对着千军万马,光有勇气没有一兵一卒是很难取胜的。
三、要求很高的处理方法和技巧。
这也是本文的写作目的所在,好的处理方法是一位工程师长期工作经验的积累,也是个人的经验的总结。没有通用的处理方法,但有通用的原理和规则。
下面我们来详细介绍一下处理海量数据的经验和技巧:
一、选用优秀的数据库工具
现在的数据库工具厂家比较多,对海量数据的处理对所使用的数据库工具要求比较高,一般使用Oracle或者DB2,微软 公司最近发布的SQL Server 2005性能也不错。另外在BI领域:数据库,数据仓库,多维数据库,数据挖掘等相关工具也要进行选择,象好的ETL工具和好的OLAP工具都十分必要, 例如Informatic,Eassbase等。笔者在实际数据分析项目中,对每天6000万条的日志数据进行处理,使用SQL Server 2000需要花费6小时,而使用SQL Server 2005则只需要花费3小时。
二、编写优良的程序代码
处理数据离不开优秀的程序代码,尤其在进行复杂数据处理时,必须使用程序。好的程序代码对数据的处理至关重要,这不仅仅是数据处理准确度的问题,更是数据处理效率的问题。良好的程序代码应该包含好的算法,包含好的处理流程,包含好的效率,包含好的异常处理机制等。
三、对海量数据进行分区操作
对海量数据进行分区操作十分必要,例如针对按年份存取的数据,我们可以按年进行分区,不同的数据库有不同的分区方式,不 过处理机制大体相同。例如SQL Server的数据库分区是将不同的数据存于不同的文件组下,而不同的文件组存于不同的磁盘分区下,这样将数据分散开,减小磁盘I/O,减小了系统负荷, 而且还可以将日志,索引等放于不同的分区下。
四、建立广泛的索引
对海量的数据处理,对大表建立索引是必行的,建立索引要考虑到具体情况,例如针对大表的分组、排序等字段,都要建立相应 索引,一般还可以建立复合索引,对经常插入的表则建立索引时要小心,笔者在处理数据时,曾经在一个ETL流程中,当插入表时,首先删除索引,然后插入完 毕,建立索引,并实施聚合操作,聚合完成后,再次插入前还是删除索引,所以索引要用到好的时机,索引的填充因子和聚集、非聚集索引都要考虑。
五、建立缓存机制
当数据量增加时,一般的处理工具都要考虑到缓存问题。缓存大小设置的好差也关系到数据处理的成败,例如,笔者在处理2亿条数据聚合操作时,缓存设置为100000条/Buffer,这对于这个级别的数据量是可行的。
六、加大虚拟内存
如果系统资源有限,内存提示不足,则可以靠增加虚拟内存来解决。笔者在实际项目中曾经遇到针对18亿条的数据进行处理, 内存为1GB,1个P42.4G的CPU,对这么大的数据量进行聚合操作是有问题的,提示内存不足,那么采用了加大虚拟内存的方法来解决,在6块磁盘分区 上分别建立了6个4096M的磁盘分区,用于虚拟内存,这样虚拟的内存则增加为 4096*6 + 1024 =25600 M,解决了数据处理中的内存不足问题。
七、分批处理
海量数据处理难因为数据量大,那么解决海量数据处理难的问题其中一个技巧是减少数据量。可以对海量数据分批处理,然后处 理后的数据再进行合并操作,这样逐个击破,有利于小数据量的处理,不至于面对大数据量带来的问题,不过这种方法也要因时因势进行,如果不允许拆分数据,还 需要另想办法。不过一般的数据按天、按月、按年等存储的,都可以采用先分后合的方法,对数据进行分开处理。
八、使用临时表和中间表
数据量增加时,处理中要考虑提前汇总。这样做的目的是化整为零,大表变小表,分块处理完成后,再利用一定的规则进行合 并,处理过程中的临时表的使用和中间结果的保存都非常重要,如果对于超海量的数据,大表处理不了,只能拆分为多个小表。如果处理过程中需要多步汇总操作, 可按汇总步骤一步步来,不要一条语句完成,一口气吃掉一个胖子。
九、优化查询SQL语句
在对海量数据进行查询处理过程中,查询的SQL语句的性能对查询效率的影响是非常大的,编写高效优良的SQL脚本和存储 过程是数据库工作人员的职责,也是检验数据库工作人员水平的一个标准,在对SQL语句的编写过程中,例如减少关联,少用或不用游标,设计好高效的数据库表 结构等都十分必要。笔者在工作中试着对1亿行的数据使用游标,运行3个小时没有出结果,这是一定要改用程序处理了。
十、使用文本格式进行处理
对一般的数据处理可以使用数据库,如果对复杂的数据处理,必须借助程序,那么在程序操作数据库和程序操作文本之间选择, 是一定要选择程序操作文本的,原因为:程序操作文本速度快;对文本进行处理不容易出错;文本的存储不受限制等。例如一般的海量的网络日志都是文本格式或者 csv格式(文本格式),对它进行处理牵扯到数据清洗,是要利用程序进行处理的,而不建议导入数据库再做清洗。
十一、定制强大的清洗规则和出错处理机制
海量数据中存在着不一致性,极有可能出现某处的瑕疵。例如,同样的数据中的时间字段,有的可能为非标准的时间,出现的原因可能为应用程序的错误,系统的错误等,这是在进行数据处理时,必须制定强大的数据清洗规则和出错处理机制。
十二、建立视图或者物化视图
视图中的数据来源于基表,对海量数据的处理,可以将数据按一定的规则分散到各个基表中,查询或处理过程中可以基于视图进行,这样分散了磁盘I/O,正如10根绳子吊着一根柱子和一根吊着一根柱子的区别。
十三、避免使用32位机子(极端情况)
目前的计算机很多都是32位的,那么编写的程序对内存的需要便受限制,而很多的海量数据处理是必须大量消耗内存的,这便要求更好性能的机子,其中对位数的限制也十分重要。
十四、考虑操作系统问题
海量数据处理过程中,除了对数据库,处理程序等要求比较高以外,对操作系统的要求也放到了重要的位置,一般是必须使用服务器的,而且对系统的安全性和稳定性等要求也比较高。尤其对操作系统自身的缓存机制,临时空间的处理等问题都需要综合考虑。
十五、使用数据仓库和多维数据库存储
数据量加大是一定要考虑OLAP的,传统的报表可能5、6个小时出来结果,而基于Cube的查询可能只需要几分钟,因此处理海量数据的利器是OLAP多维分析,即建立数据仓库,建立多维数据集,基于多维数据集进行报表展现和数据挖掘等。
十六、使用采样数据,进行数据挖掘
基于海量数据的数据挖掘正在逐步兴起,面对着超海量的数据,一般的挖掘软件或算法往往采用数据抽样的方式进行处理,这样 的误差不会很高,大大提高了处理效率和处理的成功率。一般采样时要注意数据的完整性和,防止过大的偏差。笔者曾经对1亿2千万行的表数据进行采样,抽取出 400万行,经测试软件测试处理的误差为千分之五,客户可以接受。
还有一些方法,需要在不同的情况和场合下运用,例如使用代理键等操作,这样的好处是加快了聚合时间,因为对数值型的聚合比对字符型的聚合快得多。类似的情况需要针对不同的需求进行处理。
海量数据是发展趋势,对数据分析和挖掘也越来越重要,从海量数据中提取有用信息重要而紧迫,这便要求处理要准确,精度要高,而且处理时间要短,得到有价值信息要快,所以,对海量数据的研究很有前途,也很值得进行广泛深入的研究。

⑥ 区块链分布式存储:生态大数据的存储新模式

区块链,当之无愧的2019最靓的词,在 科技 领域闪闪发亮,在实体行业星光熠熠。

2019年的1024讲话,让区块链这个词焕然一新,以前它总是和传销和诈骗联系在一起,“区块链”这个词总是蒙上一层灰色。但是如今,区块链则是和实体经济融合紧密相连,成为国家的战略技术, 这个词瞬间闪耀着热情的红色和生意盎然的绿色

“产业区块链”在这个时代背景下应运而生, 是继“互联网”后的又一大热门词汇,核心就是区块链必须和实体产业融合,脱虚向实,让区块链技术找到更多业务场景才是正道。

区块链的本质就是一个数据库,而且是采用的分布式存储的方式。作为一名区块链从业者,今天就来讲讲 区块链的分布式存储和生态大数据 结合后,碰撞产生的火花。

当前的存储大多为中心化存储,存储在传统的中心化服务器。如果服务器出现宕机或者故障,或者服务器停止运营,则很多数据就会丢失。

比如我们在微信朋友圈发的图片,在抖音上传的视频等等,都是中心化存储。很多朋友会把东西存储在网上,但是某天打开后,网页呈现404,则表示存储的东西已经不见了。

区块链,作为一个分布式的数据库,则能很好解决这方面的问题。这是由区块链的技术特征决定了的。 区块链上的数字记录,不可篡改、不可伪造,智能合约让大家更高效地协同起来,从而建立可信的数字经济秩序,能够提高数据流转效率,打破数据孤岛,打造全新的存储模式。

生态大数据,其实和我们每天的生活息息相关,比如每天的天气预报,所吃的农产品的溯源数据等等,都是生态大数据的一部分。要来谈这个结合,首先咱们来看看生态大数据存储的特点。

伴随着互联网的发展,当前,生态大数据在存储方面有具有如下特点:

从数据规模来看,生态数据体量很大,数据已经从TB级跃升到了PB级别。

随着各类传感器技术、卫星遥感、雷达和视频感知等技术的发展,数据不仅来源于传统人工监测数据,还包括航空、航天和地面数据,他们一起产生了海量生态环境数据。近10年以来,生态数据以每年数百个TB的数据在增长。

生态环境大数据需要动态新数据和 历史 数据相结合来处理,实时连续观测尤为重要。只有实时处理分析这些动态新数据,并与已有 历史 数据结合起来分析,才能挖掘出有用信息,为解决有关生态环境问题提供科学决策。

比如在当前城市建设中,提倡的生态环境修复、生态模型建设中,需要大量调用生态大数据进行分析、建模和制定方案。但是目前很多 历史 数据因为存储不当而消失,造成了数据的价值的流失。

既然生态大数据有这些特点,那么它有哪些存储需求呢?

当前,生态大数据面临严重安全隐患,强安全的存储对于生态大数据而言势在必行。

大数据的安全主要包括大数据自身安全和大数据技术安全,比如在大数据的数据存储中,由于黑客外部网络攻击和人为操作不当造成数据信息泄露。外部攻击包括对静态数据和动态数据的数据传输攻击、数据内容攻击、数据管理和网络物理攻击等。

例如,很多野外生态环境监测的海量数据需要网络传输,这就加大了网络攻击的风险。如果涉及到军用的一些生态环境数据,如果被黑客获得这些数据,就可能推测到我国军方的一些信息,或者获取敏感的生态环境数据,后果不堪设想。

生态大数据的商业化应用需要整合集成政府、企业、科研院所等 社会 多来源的数据。只有不同类型的生态环境大数据相互连接、碰撞和共享,才能释放生态环境大数据的价值。

以当前的智慧城市建设为例,很多城市都在全方位、多维度建立知识产权、种质资源、农资、农产品、病虫害疫情等农业信息大数据中心,为农业产供销提供全程信息服务。建设此类大数据中心,离不开各部门生态大数据的共享。

但是,生态大数据共享面临着巨大挑战。首先,我国生态环境大数据包括气象、水利、生态、国土、农业、林业、交通、 社会 经济等其他部门的大数据,涉及多领域多部门和多源数据。虽然目前这些部门已经建立了自己的数据平台,但这些平台之间互不连通,只是一个个的数据孤岛。

其次,相关部门因为无法追踪数据的轨迹,担心数据的利益归属问题,便无法实现数据的共享。因此,要想挖掘隐藏在生态大数据背后的潜在价值,实现安全的数据共享是关键,也是生态大数据产生价值的前提和基础。

生态大数据来之不易,是研究院所、企业、个人等 社会 来源的集体智慧。

其中,很多生态大数据涉及到了知识产权的保护。但是目前的中心化存储无法保证知识产权的保护,无法对数据的使用进行溯源管理,容易造成知识产权的侵犯和隐私数据的泄露。

这些就是生态大数据在存储方面的需求。在当前产业区块链快速发展的今天,区块链的分布式存储是可以为生态大数据存储提供全新的存储方式的。 这个核心前提就是区块链的分布式存储、不可篡改和数据追踪特性

把区块链作为底层技术,搭建此类平台,专门存储生态大数据,可以设置节点管理、存储管理、用户管理、许可管理、业务通道管理等。针对上层业务应用提供高可用和动态扩展的区块链网络底层服务的实现。在这个平台的应用层,可以搭建API接口,让整个平台的使用灵活可扩展。区块链分布式存储有如下特点:

利用区块链的分布式存储,能够实现真正的生态大数据安全存储。

首先,数据永不丢失。这点对于生态大数据的 历史 数据特别友好,方便新老数据的调用和对比。

其次,数据不易被泄露或者攻击。因为数据采取的是分布式存储,如果遭遇攻击,也只能得到存储在部分节点里的数据碎片,无法完全获得完整的数据信息或者数据段。

区块链能够实现生态数据的存储即确权,这样就能够避免知识产权被侵害,实现安全共享。毕竟生态大数据的获取,是需要生态工作者常年在野外驻守,提取数据的。

生态大数据来之不易,是很多生态工作者的工作心血和结晶,需要得到产权的保护,让数据体现出应用价值和商业价值,保护生态工作者的工作动力,让他们能够深入一线,采集出更多优质的大数据。

同时,利用区块链的数据安全共享机制,也能够打破气象、林业、湿地等部门的数据壁垒,构建安全可靠的数据共享机制,让数据流转更具价值。

现在有部分生态工作者,为了牟取私利,会将生态数据篡改。如果利用区块链技术,则没有那么容易了。

利用加密技术,把存储的数据放在分布式存储平台进行加密处理。如果生态大数据发生变更,平台就可以记录其不同版本,便于事后追溯和核查。

这个保护机制主要是利用了数据的不可篡改,满足在使用生态大数据的各类业务过程中对数据的安全性的要求。

区块链能够对数据提供安全监控,记录应用系统的操作日志、数据库的操作日志数据,并加密存储在系统上,提供日志预警功能,对于异常情况通过区块链浏览器展示出来,便于及时发现违规的操作和提供证据。

以上就是区块链的分布式存储能够在生态大数据方面所起的作用。未来,肯定会出现很多针对生态大数据存储的平台诞生。

生态大数据是智慧城市建设的重要基础资料 ,引用区块链技术,打造相关的生态大数据存储和管理平台,能够保证生态大数据的安全存储和有效共享,为智慧城市建设添砖加瓦,推动产业区块链的发展。

作者:Justina,微信公众号:妙译生花,从事于区块链运营,擅长内容运营、海外媒体运营。

题图来自Unsplash, 基于CC0协议。

⑦ 自动驾驶下的海量数据,业界如何安全高效存储

近几年来,各行业纷纷跨界加入造车行列,不说传了多年要造车的国外手机巨头、出资纯电动汽车的科技互联网大厂,国内的科技企业也在跃跃欲试,比如阿里巴巴、华为、网络、小米和滴滴出行。

除了这些高科技企业,还有小马智行、文远知行、AutoX、赢彻科技和主线科技等新兴的自动驾驶初创企业;超星未来、奥特贝睿、宏景智驾等专注于私家车高阶自动驾驶研发的新型一级供应商;以及纯电动车起家的蔚来,小鹏,理想等造车新势力,都纷纷加入汽车产业链,推动了汽车电动化和智能化的进程。

西部数据资深产品市场经理额日特

也正是这些新玩家的加入,使得传统汽车产业链受到了前所未有的压力,同时也推动了传统汽车厂商加速新技术和新应用的落地。在西部数据资深产品市场经理额日特看来,随着汽车智能网联的不断推进,汽车的电子电气架构(E/E)也随之变化,从最初的分布式架构向域融合和中央控制单元过渡。

轮子上的智能手机,对存储架构提出更多要求

如今,不少人业内人士都认可汽车在向“轮子上的智能手机”演变,这个转变,让厂商开始将越来越多的摄像头、雷达、激光雷达等传感器、电动机,甚至以太网、人工智能等技术都引入汽车。

额日特认为,更多传感器的引入,网联技术、人工智能技术的增加,以及汽车电子电气架构的改变,对汽车内存储产品的要求发生了很大的变化。

“在汽车存储领域,单车存储的 数量将会显着降低,容量则会显着提升 。”额日特在不久前广州举办的Auto Tech 2021上演讲时指出。

Counterpoint的报告也印证了这一点,该分析机构预计,未来十年内,汽车单车的存储容量将会达到2TB左右。“目前车内存储主要用在智能座舱和中控系统,且燃油车以32GB为主,电动汽车一般使用64GB,或128GB,相对于2TB来说,还有一个巨大的提升空间。”额日特表示。

他分析称,为了应对汽车电动化、智能化、网联化,及自动化方向的发展,存储产品也面临这很多挑战,主要有四个比较重大的挑战:

一是数据 的可靠性 和 安全性 ,这是存储厂商所面临最基本和最严苛的挑战,也是相关法规及保险责任靠量的关键因素。因为对于自动驾驶来说,数据的可靠性和安全性意味着生命的安全。

存储厂商在数据可靠性和安全性方面也做了不少工作,额日特拿e.MMC、UFS和SSD来说,存储单元是由两个部分组成的,一部分是存储介质Raw NAND,另一部分是控制器和固件。

为了保证更好的TBW(Total Bytes Written),即产品生命周期里能承受的总写入数据量,存储厂商一般都会 通过控制器和固件对底层做一个读写均衡 。“TBW通俗地讲就是耐擦写,意思是NAND Flash是有寿命的,如果数据手册里规定了NAND Flash的擦写次数是3,000次,客户就需要考量该TBW是否满足自己的应用需求。”

还有一个是主机锁定 ,即在汽车主机上焊上一个内存,加了主机锁的内存放到另外一个主机上是没有用的,因为它已经与原来的主机做了锁定,这样也可以确保数据的安全。

另外,写保护也是一个很重要的功能 ,比如汽车如果出事故了,有的用户担心数据会被汽车厂商篡改,“我们存储厂商在与主机厂商、Tier 1企业一起共同努力,协商一个有效的协同保护机制,确保车辆在发生事故后,在警察没有查看数据之前,没有任何一家,包括内存厂商都无法篡改存储器内的数据,以确保司法监管在调查的时候的公正性和严肃性。”额日特表示。

二是复杂的应用场景 ,随着电子电气架构向域及中央控制单元转变,应用的融合对存储的要求也变得更加复杂,不再是单一的读或写。比如导航是一个读密集型操作,行车记录仪是一个写密集型操作。

特别是随着电子电气架构的改变,融合中央控制单元的使用,使得内存需要承受更加复杂的操作系统环境。比如高通的8155平台把智能座舱、数字仪表和中控融合到了一起,此时就需要使用Hypervisor,以允许多个操作系统和应用共享同一个硬件。 但实际上,现在的内存结构,只能做到逻辑分区,不能做到物理分区。

“举一个简单的例子,我们现在所使用的电脑有C盘、D盘、或者E盘,实际上C、D、E盘只是逻辑分区,底层的内存是没有做到物理分区的,这些盘存储的数据都是打散存储在一块内存里,不论是哪个盘坏掉,代表的就是整个内存盘都坏了。”额日特指出。

因此,这就会带来一个问题,比如行车记录仪是一个需要高擦写支持的应用,如果把行车记录仪也融合到智能座舱内的话,做起来很容易。但要是不做物理分区,由于行车记录仪的高擦写,可能整个内存很快就会坏掉。

为了适应这个改变,也为了数据的更加安全,“西部数据现在可以提供一种解决方案,那就是在底层做读写均衡的隔离,比如 一块内存里面,可以分别使用 TLC 和S LC 两种N AND F lash ,由于SLC可以支持高擦写,因此,SLC部分就可以作为行车记录仪的存储。”额日特表示。

三是海量数据存储 ,为了适应自动驾驶的需求,越来越多的雷达和摄像头被部署在汽车上,行车过程中会产生大量的数据。

特别是自动驾驶出租车的企业对数据的存储容量需求是很大的,现在单车一天生成的数据量在8GB左右,但实际上,现在主流汽车的存储容量在2GB到4GB之间。

额日特以西部数据与Waymo的合作为例,西部数据在Waymo自动驾驶出租车上安装了10块2TB的工业级SSD,也就是说Waymo的单车存储容量要求是20TB。其实这也是大部分自动驾驶汽车的存储需求。

四是高性能, 雷达和摄像头会在行车过程中产生大量的数据,为了防止数据丢失,必然需要高性能、大带宽存储的支持。

其实存储产品也在通过不停地创新来获得更高的传输速率。在嵌入式存储器方面,目前汽车领域使用的主流存储产品是e.MMC,比e.MMC更快的是UFS产品,目前汽车领域主要采用的还是UFS2.1。实际上,消费类电子已经在大规模采用UFS3.0的产品了。额日特预计汽车级UFS3.1的产品,应该会在两年内面市。

另外,在SSD方面,目前汽车领域的SSD主要还是采用SATA接口,未来带宽更高、速度更快的NVMe接口的SSD产品也可能会在汽车上得到应用。使用SSD的好处就是容量可以做得更大,比如UFS接口能做到的最大容量可能是512GB,但SSD可以轻松做到4TB、8TB,甚至更大。

满足汽车需求的解决方案

据额日特介绍,西部数据可以提供从端到云的完整解决方案,以支持当前和未来的车辆系统要求,它为多样的应用场景和数据中心,提供了小尺寸嵌入式终端存储和可移动存储,用于获取和分析从车辆收集的大量数据。他特意强调,西部数据的汽车级闪存产品通过了IATF16949认证,符合AEC-Q100标准。

产品方面,有iNAND汽车级嵌入式存闪存盘(EFD),支持UFS和e.MMC接口,具有多种容量,采用11.5×13mm的小包装,可为汽车OEM和一级供应商提供符合其需求的选择。比如iNAND AT EU312 是一款基于 3D NAND 技术的汽车级UFS(通用闪存存储),具有高数据传输速度的UFS 2.1接口和额外的UFS 3.0汽车功能,可提供最高256GB的容量,性能是前代基于e.MMC的产品的2.5倍。AT EU312利用第5代SmartSLC 技术,可提供高性能和可靠的写入。

其e.MMC 嵌入式闪存盘基于e.MMC 5.1 标准,采用2D或3D NAND技术。具体产品有EM122已经获得许多汽车设计的认证并投入生产,EM132在汽车市场中容量达到了256GB。

在PCIe SSD方面,有CL SN720和CL SN520等产品,采用了PCIe Gen3 NVMe接口,容量高达2TB,耐久性高达1600 TBW。

与合作伙伴的成功案例

在本次Auto Tech 2021展会上,西部数据不仅展示了自己家的汽车存储解决方案,也带来了合作伙伴的一些成功案例。

有为信息展示的“主动安全智能防控车载视频终端K5-P”解决方案。

在车载监控方面,其合作伙伴有为信息展示了“主动安全只能防控车载视频终端K5-P”解决方案,该解决方案支持ADAS、DSM只能监控,采用了记录仪、视频功能、主动安全功能一体化设计。同时支持硬盘(2.5” HDD)+ SD卡(西部数据WD Purple micro SD存储卡),双重存储保证数据安全;且具有硬盘防震保护机制;此外,有为信息的专利的存储介质保护装置,可防止任意拆卸硬盘及插拔存储卡。加上其独特流媒体文件系统存储方式,保证了数据安全不被篡改。

车载信息娱乐系统方面,其合作伙伴掌锐展示了“前装车规模组”解决方案------CS199 MT8666AV模组,该模组基于联发科 MT8666AV芯片封装的前装车规级带4G通信模组,具有功能丰富,集成度高、尺寸小、低功耗、性能优、品质稳定的特点,可满足汽车智能化、连网化的前装需求,帮助客户缩短项目开发周期,减少研发投入并降低品控风险。存储方面,采用的是西部数据iNAND AT EM132产品,是汽车市场首个基于3D TLC NAND e.MMC接口产品,采用了标准BGA封装,容量涵盖了从32GB到256GB,具有快速启动、自动刷新、增强型运行健康状态监测,支持固件在线升级和100%预烧录,有AEC-Q100温度2级(-40°C 至105°C)和3级(-40°C至85°C)两种选择。

铱斯电子展示的智能驾驶辅助系统解决方案。

此外,西部数据现场还展示了采用iNAND AT EM122的智能驾舱、智能驾驶、以及车联网等丰富的解决方案。

西部数据公司中国区嵌入式产品销售部门销售总监文芳女士

西部数据公司中国区嵌入式产品销售部门销售总监文芳表示:“车联网、自动驾驶等新技术的商业化落地,对汽车新四化的发展起到了巨大的推动作用,同时也对车载存储解决方案的安全性、可靠性、大容量、高性能以及复杂的场景应用提出了更严苛的要求。西部数据作为数据基础架构的领导者,提供覆盖8GB-18TB容量,包括e.MMC/UFS/micro SD/SSD/HDD等不同规格的车规级及企业级存储产品,支持端-边-云新型数据架构在汽车领域的应用,满足当前和未来单车智能及车路协同的多样化需求。”

未来,西部数据将不断突破创新,以卓越的产品及解决方案赋能汽车领域的改革与发展,为人们带来更安全、优质的驾驶体验。

结语

近年来,汽车行业正在经历前所未有的变革,自动驾驶不断发展,高清3D地图、高级辅助驾驶系统(ADAS)、自主计算机、AI、大数据、增强型信息娱乐系统、无线更新、以及V2X技术等等逐步在汽车上得到普及,而这些功能都需要板载数据存储,未来汽车的存储需求将会越来越大,如何满足汽车市场的特殊需求,是存储企业必须要考虑的,抓住汽车市场,就意味着抓住了未来。

转载自电子发烧友 @2019

⑧ 在大数量级的数据存储上,比较靠谱的分布式文件存储有哪些

一、 Ceph

Ceph最早起源于Sage就读博士期间的工作、成果于2004年发表,并随后贡献给开源社区。经过多年的发展之后,已得到众多云计算和存储厂商的支持,成为应用最广泛的开源分布式存储平台。
二、 GFS

GFS是google的分布式文件存储系统,是专为存储海量搜索数据而设计的,2003年提出,是闭源的分布式文件系统。适用于大量的顺序读取和顺序追加,如大文件的读写。注重大文件的持续稳定带宽,而不是单次读写的延迟。
三、 HDFS

HDFS(Hadoop Distributed File System),是一个适合运行在通用硬件(commodity hardware)上的分布式文件系统,是Hadoop的核心子项目,是基于流数据模式访问和处理超大文件的需求而开发的。该系统仿效了谷歌文件系统(GFS),是GFS的一个简化和开源版本。