结构化数据存储计算_大数据存储与应用特点及技术路线分析

⑴ DolphinDB靠谱吗

我个人认为比较靠谱，DolphinDB是由浙江智臾科技有限公司研发的一款高性能分布式时序数据库，集成了功能强大的编程语言和高容量高速度的流数据分析系统，为海量结构化数据的快速存储、检索、分析及计算提供一站式解决方案，适用于量化金融及工业物联网等领域。已被金融、物联网及高校等领域数十家客户所采用。根据各个行业反馈还是挺靠谱的。

⑵ 怎样的架构设计才是真正的数据仓库架构

一直想整理一下这块内容，既然是漫谈，就想起什么说什么吧。我一直是在互联网行业，就以互联网行业来说。
先大概列一下互联网行业数据仓库、数据平台的用途：

整合公司所有业务数据，建立统一的数据中心；
提供各种报表，有给高层的，有给各个业务的；
为网站运营提供运营上的数据支持，就是通过数据，让运营及时了解网站和产品的运营效果；
为各个业务提供线上或线下的数据支持，成为公司统一的数据交换与提供平台；
分析用户行为数据，通过数据挖掘来降低投入成本，提高投入效果；比如广告定向精准投放、用户个性化推荐等；
开发数据产品，直接或间接为公司盈利；
建设开放数据平台，开放公司数据；
。。。。。。

上面列出的内容看上去和传统行业数据仓库用途差不多，并且都要求数据仓库/数据平台有很好的稳定性、可靠性；但在互联网行业，除了数据量大之外，越来越多的业务要求时效性，甚至很多是要求实时的，另外，互联网行业的业务变化非常快，不可能像传统行业一样，可以使用自顶向下的方法建立数据仓库，一劳永逸，它要求新的业务很快能融入数据仓库中来，老的下线的业务，能很方便的从现有的数据仓库中下线；

其实，互联网行业的数据仓库就是所谓的敏捷数据仓库，不但要求能快速的响应数据，也要求能快速的响应业务；

建设敏捷数据仓库，除了对架构技术上的要求之外，还有一个很重要的方面，就是数据建模，如果一上来就想着建立一套能兼容所有数据和业务的数据模型，那就又回到传统数据仓库的建设上了，很难满足对业务变化的快速响应。应对这种情况，一般是先将核心的持久化的业务进行深度建模（比如：基于网站日志建立的网站统计分析模型和用户浏览轨迹模型；基于公司核心用户数据建立的用户模型），其它的业务一般都采用维度+宽表的方式来建立数据模型。这块是后话。

整体架构下面的图是我们目前使用的数据平台架构图，其实大多公司应该都差不多：

逻辑上，一般都有数据采集层、数据存储与分析层、数据共享层、数据应用层。可能叫法有所不同，本质上的角色都大同小异。

我们从下往上看：

数据采集数据采集层的任务就是把数据从各种数据源中采集和存储到数据存储上，期间有可能会做一些简单的清洗。

数据源的种类比较多：

网站日志：

作为互联网行业，网站日志占的份额最大，网站日志存储在多台网站日志服务器上，

一般是在每台网站日志服务器上部署flume agent，实时的收集网站日志并存储到HDFS上；

业务数据库：

业务数据库的种类也是多种多样，有Mysql、Oracle、SqlServer等，这时候，我们迫切的需要一种能从各种数据库中将数据同步到HDFS上的工具，Sqoop是一种，但是Sqoop太过繁重，而且不管数据量大小，都需要启动MapRece来执行，而且需要Hadoop集群的每台机器都能访问业务数据库；应对此场景，淘宝开源的DataX，是一个很好的解决方案（可参考文章《异构数据源海量数据交换工具-Taobao DataX 下载和使用》），有资源的话，可以基于DataX之上做二次开发，就能非常好的解决，我们目前使用的DataHub也是。

当然，Flume通过配置与开发，也可以实时的从数据库中同步数据到HDFS。

来自于Ftp/Http的数据源：

有可能一些合作伙伴提供的数据，需要通过Ftp/Http等定时获取，DataX也可以满足该需求；

其他数据源：

比如一些手工录入的数据，只需要提供一个接口或小程序，即可完成；

数据存储与分析毋庸置疑，HDFS是大数据环境下数据仓库/数据平台最完美的数据存储解决方案。

离线数据分析与计算，也就是对实时性要求不高的部分，在我看来，Hive还是首当其冲的选择，丰富的数据类型、内置函数；压缩比非常高的ORC文件存储格式；非常方便的SQL支持，使得Hive在基于结构化数据上的统计分析远远比MapRece要高效的多，一句SQL可以完成的需求，开发MR可能需要上百行代码；

当然，使用Hadoop框架自然而然也提供了MapRece接口，如果真的很乐意开发Java，或者对SQL不熟，那么也可以使用MapRece来做分析与计算；Spark是这两年非常火的，经过实践，它的性能的确比MapRece要好很多，而且和Hive、Yarn结合的越来越好，因此，必须支持使用Spark和SparkSQL来做分析和计算。因为已经有Hadoop Yarn，使用Spark其实是非常容易的，不用单独部署Spark集群，关于Spark On Yarn的相关文章，可参考：《Spark On Yarn系列文章》

实时计算部分，后面单独说。

数据共享这里的数据共享，其实指的是前面数据分析与计算后的结果存放的地方，其实就是关系型数据库和NOSQL数据库；

前面使用Hive、MR、Spark、SparkSQL分析和计算的结果，还是在HDFS上，但大多业务和应用不可能直接从HDFS上获取数据，那么就需要一个数据共享的地方，使得各业务和产品能方便的获取数据；和数据采集层到HDFS刚好相反，这里需要一个从HDFS将数据同步至其他目标数据源的工具，同样，DataX也可以满足。

另外，一些实时计算的结果数据可能由实时计算模块直接写入数据共享。

数据应用
业务产品

业务产品所使用的数据，已经存在于数据共享层，他们直接从数据共享层访问即可；

报表

同业务产品，报表所使用的数据，一般也是已经统计汇总好的，存放于数据共享层；

即席查询

即席查询的用户有很多，有可能是数据开发人员、网站和产品运营人员、数据分析人员、甚至是部门老大，他们都有即席查询数据的需求；

这种即席查询通常是现有的报表和数据共享层的数据并不能满足他们的需求，需要从数据存储层直接查询。

即席查询一般是通过SQL完成，最大的难度在于响应速度上，使用Hive有点慢，目前我的解决方案是SparkSQL，它的响应速度较Hive快很多，而且能很好的与Hive兼容。

当然，你也可以使用Impala，如果不在乎平台中再多一个框架的话。

OLAP

目前，很多的OLAP工具不能很好的支持从HDFS上直接获取数据，都是通过将需要的数据同步到关系型数据库中做OLAP，但如果数据量巨大的话，关系型数据库显然不行；

这时候，需要做相应的开发，从HDFS或者HBase中获取数据，完成OLAP的功能；

比如：根据用户在界面上选择的不定的维度和指标，通过开发接口，从HBase中获取数据来展示。

其它数据接口

这种接口有通用的，有定制的。比如：一个从Redis中获取用户属性的接口是通用的，所有的业务都可以调用这个接口来获取用户属性。

实时计算现在业务对数据仓库实时性的需求越来越多，比如：实时的了解网站的整体流量；实时的获取一个广告的曝光和点击；在海量数据下，依靠传统数据库和传统实现方法基本完成不了，需要的是一种分布式的、高吞吐量的、延时低的、高可靠的实时计算框架；Storm在这块是比较成熟了，但我选择Spark Streaming，原因很简单，不想多引入一个框架到平台中，另外，Spark Streaming比Storm延时性高那么一点点，那对于我们的需要可以忽略。

我们目前使用Spark Streaming实现了实时的网站流量统计、实时的广告效果统计两块功能。

做法也很简单，由Flume在前端日志服务器上收集网站日志和广告日志，实时的发送给Spark Streaming，由Spark Streaming完成统计，将数据存储至Redis，业务通过访问Redis实时获取。

任务调度与监控在数据仓库/数据平台中，有各种各样非常多的程序和任务，比如：数据采集任务、数据同步任务、数据分析任务等；

这些任务除了定时调度，还存在非常复杂的任务依赖关系，比如：数据分析任务必须等相应的数据采集任务完成后才能开始；数据同步任务需要等数据分析任务完成后才能开始；这就需要一个非常完善的任务调度与监控系统，它作为数据仓库/数据平台的中枢，负责调度和监控所有任务的分配与运行。

前面有写过文章，《大数据平台中的任务调度与监控》,这里不再累赘。

总结在我看来架构并不是技术越多越新越好，而是在可以满足需求的情况下，越简单越稳定越好。目前在我们的数据平台中，开发更多的是关注业务，而不是技术，他们把业务和需求搞清楚了，基本上只需要做简单的SQL开发，然后配置到调度系统就可以了，如果任务异常，会收到告警。这样，可以使更多的资源专注于业务之上。

⑶ 什么是结构化数据

结构化数据（有时称为关系数据）是遵循某种严格架构的数据，因此所有数据都具有相同的字段或属性。共享架构允许使用SQL（结构化查询语言）等查询语言轻松搜索此类数据。此功能使此数据样式非常适合CRM系统、预留和库存管理等应用程序。
结构化数据通常存储在具有行和列的数据库表中，其中键列指示表中的一行与另一个表的另一行中的数据之间的关系。
结构化数据很简单，易于输入，查询和分析。所有数据都遵循相同的格式。但强制采用一致的结构也意味着数据演变会更加困难，因为必须更新每个记录才能符合新的结构。
一个结构化数据的具体例子
业务分析师希望实现商业智能，以计算库存管道和查看销售数据，为了执行这些操作，需要将多个月的数据聚合在一起，然后进行查询。由于需要聚合类似数据。因此必须对这些数据进行结构化处理，以便将一个月的数据与下个月的进行比较。

⑷ 结构化数据和非结构化数据什么关系

除了存储在关系数据库和存储非关系数据库之外的明显区别之外，最大的区别在于分析结构化数据与非结构化数据的便利性。针对结构化数据存在成熟的分析工具，但用于挖掘非结构化数据的分析工具正处于萌芽和发展阶段。并且非结构化数据要比结构化数据多得多。非结构化数据占企业数据的80%以上，并且以每年55%~65%的速度增长。

以下为补充资料：

典型的结构化数据包括：

信用卡号码、日期、财务金额、电话号码、地址、产品名称等。

典型的人为生成的非结构化数据包括：

文本文件：文字处理、电子表格、演示文稿、电子邮件、日志。
电子邮件：电子邮件由于其元数据而具有一些内部结构，我们有时将其称为半结构化。但是，消息字段是非结构化的，传统的分析工具无法解析它。
社交媒体：来自新浪微博、微信、QQ、Facebook，Twitter，LinkedIn等平台的数据。
网站： YouTube，Instagram，照片共享网站。
移动数据：短信、位置等。
通讯：聊天、即时消息、电话录音、协作软件等。
媒体：MP3、数码照片、音频文件、视频文件。
业务应用程序：MS Office文档、生产力应用程序。

典型的机器生成的非结构化数据包括：

卫星图像：天气数据、地形、军事活动。
科学数据：石油和天然气勘探、空间勘探、地震图像、大气数据。
数字监控：监控照片和视频。
传感器数据：交通、天气、海洋传感器。

⑸ 玉溪电脑培训学校告诉你组成区块链基础运算功能的组织架构内容

随着互联网的都不发展，消费者对区块链技术和数字虚拟货币的认知程度也在不断的提高。今天，我们就一起来了解一下区块链技术的基础运算方法都有哪些结构构成的。下面java课程http://www.kmbdqn.cn/就一起来了解一下具体情况吧。

构成计算技术的基本元素是存储、处理和通信。大型主机、PC、移动设备和云服务都以各自的方式展现这些元素。各个元素之内还有专门的构件块来分配资源。

本文聚焦于区块链的大框架：介绍区块链中各个计算元素的模块以及各个模块的一些实现案例，偏向概论而非详解。

区块链的组成模块

以下是去中心化技术中各个计算元素的构件块：

存储：代币存储、数据库、文件系统/blob

处理：有状态的业务逻辑、无状态的业务逻辑、高性能计算

通信：数据、价值和状态的连接网络

存储

作为基本计算元素，存储部分包含了以下构件块。

代币存储。代币是价值的存储媒介(例如资产、证券等)，价值可以是比特币、航空里程或是数字作品的版权。代币存储系统的主要作用是发放和传输代币(有多种变体)，同时防止多重支付之类的事件发生。

比特币和Zcash是两大“纯净”的、只关注代币本身的系统。以太坊则开始将代币用于各种服务，以实现其充当全球计算中心的理想。这些例子中代币被用作运营整个网络架构的内部激励。

还有些代币不是网络用来推动自身运行的内部工具，而是用做更高级别网络的激励，但它们的代币实际上是存储在底层架构中的。一个例子是像Golem这样的ERC20代币，运行在以太坊网络层上。另一个例子是Envoke的IP授权代币，运行在IPDB网络层上。

数据库。数据库专门用来存储结构化的元数据，例如数据表(关系型数据库)、文档存储(例如JSON)、键值存储、时间序列或图数据库。数据库可以使用SQL这样的查询快速检索数据。

传统的分布式(但中心化)数据库如MongoDB和Cassandra通常会存储数百TB甚至PB级的数据，性能可达到每秒百万次写入。

SQL这样的查询语言是很强大的，因为它将实现与规范区分开来，这样就不会绑定在某个具体的应用上。SQL已经作为标准应用了数十年，所以同一个数据库系统可以用在很多不同的行业中。

换言之，要在比特币之外讨论一般性，不一定要拿图灵完备性说事。你只需要一个数据库就够了，这样既简洁又方便扩展。有些时候图灵完备也是很有用的，我们将在“去中心化处理”一节具体讨论。

BigchainDB是去中心化的数据库软件，是专门的文档存储系统。它基于MongoDB(或RethinkDB)，继承了后者的查询和扩展逻辑。但它也具备了区块链的特征，诸如去中心化控制、防篡改和代币支持。IPDB是BigchainDB的一个受监管的公开实例。

在区块链领域，也可以说IOTA是一个时间序列数据库。

文件系统/blob数据存储。这些系统以目录和文件的层级结构来存储大文件(电影、音乐、大数据集)。

IPFS和Tahoe-LAFS是去中心化的文件系统，包含去中心化或中心化的blob存储。FileCoin、Storj、Sia和Tieron是去中心化的blob存储系统，古老而出色的BitTorrent也是如此，虽然后者使用的是p2p体系而非代币。以太坊Swarm、Dat、Swarm-JS基本上都支持上述两种方式。

数据市场。这种系统将数据所有者(比如企业)与数据使用者(比如AI创业公司)连接在一起。它们位于数据库与文件系统的上层，但依旧是核心架构，因为数不清的需要数据的应用(例如AI)都依赖这类服务。Ocean就是协议和网络的一个例子，可以基于它创建数据市场。还有一些特定应用的数据市场：EnigmaCatalyst用于加密市场，Datum用于私人数据，DataBrokerDAO则用于物联网数据流。

处理

接下来讨论处理这个基本计算元素。

“智能合约”系统，通常指的是以去中心化形式处理数据的系统[3]。它其实有两个属性完全不同的子集：无状态(组合式)业务逻辑和有状态(顺序式)业务逻辑。无状态和有状态在复杂性、可验证性等方面差异巨大。三种去中心化的处理模块是高性能计算(HPC)。

无状态(组合式)业务逻辑。这是一种任意逻辑，不在内部保留状态。用电子工程术语来说，它可以理解为组合式数字逻辑电路。这一逻辑可以表现为真值表、逻辑示意图、或者带条件语句的代码(if/then、and、or、not等判断的组合)。因为它们没有状态，很容易验证大型无状态智能合约，从而创建大型可验证的安全系统。N个输入和一个输出需要O(2^N)个计算来验证。

跨账本协议(ILP)包含crypto-conditions(CC)协议，以便清楚地标出组合电路。CC很好理解，因为它通过IETF成为了互联网标准，而ILP则在各种中心和去中心化的支付网络(例如超过75家银行使用的瑞波)中广泛应用。CC有很多独立实现的版本，包括JavaScript、Python、Java等。BigchainDB、瑞波等系统也用CC，用以支持组合式业务逻辑/智能合约。

⑹ 数据库结构

新一轮油气资源评价数据库是建立在国家层面上的数据库，数据库设计首先立足于国家能源政策和战略制定的宏观要求，还要结合油气资源评价的工作特征和各个评价项目及资源的具体情况。使用当前最流行和最成熟的数据库技术进行数据库的总体结构设计。

数据库的设计以《石油工业数据库设计规范》为指导标准，以《石油勘探开发数据》为设计基础，借鉴前人的优秀设计理念和思路，参考国内外优秀的资源评价数据库和油气资源数据库的设计技术优势，结合本轮资源评价的具体特点，按照面向对象的设计和面向过程的设计相结合的设计方法，进行数据库的数据划分设计。

油气资源评价数据库要满足新一轮全国油气资源评价工作的常规油气资源评价、煤层气资源评价、油砂资源评价、油页岩资源评价四个油气资源评价的数据需求。进行数据库具体数据内容设计。

并且，数据库的设计要为油气资源评价的快速、动态评价和远程评价工作的需求保留足够数据扩展接口，数据库具有良好开放性、兼容性和可扩充性。

（一）数据划分

数据库内存放的数据将支持资源评价的整个过程。为了能更好地管理库中数据，需要对整个过程中将用到的数据进行分类管理。具体分类方式如下（图4-11）：

图4-11 数据分类示意图

1.按照应用类型划分

按照数据在资源评价过程中的应用类型划分，可以划分为基础数据、参数数据和评价结果数据。

基础数据是指从勘探生产活动及认识中直接获取的原始数据，这些数据一般没有经过复杂的处理和计算过程。如分析化验数据、钻井地质数据、盆地基础数据等。这些数据是整个评价工作的基础。

参数数据是指在评价过程中各种评价方法和软件直接使用的参数数据。

评价结果数据是指资源评价中产生的各种评价结果数据，如资源量结果数据、地质评价结果数据等。

2.按照评价对象划分

本次评价共分为大区、评价单元、计算单元三个层次，在研究中又使用了盆地、一级构造单元，在评价对象总体考虑中按照评价对象将数据划分为大区、评价单元、计算单元等类型。

3.按照获取方式划分

按照获取方式可以将数据分为直接获取、研究获取、间接获取几类。

4.按照存储类型划分

按照存储类型可以将数据划分为结构化数据和非结构化数据。

结构化数据是指能够用现有的关系数据库系统直接管理的数据，进一步又可以分为定量数据和定性数据两类。

非结构化数据是指不能用现有的关系数据库系统直接管理和操作的数据，它必须借助于另外的工具管理和操作。如图件数据、文档数据等。

库中数据类型的划分共分六个层次逐次划分，包括：数据存储类型→资源类型→评价对象→应用→获取方式→数据特征。

对于结构化存储的数据在应用层分为三类：基础数据、中间数据和结果数据，基础数据中包含用于类比的基础数据、用于统计分析的基础数据和直接用于公式运算的基础数据；结构化存储的数据在获取方式上可以继续划分，其中，用于公式运算的数据可以细化为专家直接录入、由地质类比获取、通过生产过程获取、通过地质研究过程获取及其他方式。中间数据可以从以下方式获取：标准、统计、类比、参数的关联。结果数据的获取有两种方式：公式运算结果和通过钻井、地质、综合研究等提交的文字报告。

对于非结构化存储的数据在应用层分为两类：图形数据和文档数据。

图形数据在获取方式上可以继续划分成四种方式：通过工程测量数据获取（如地理图件、井位坐标数据等）、通过地质研究过程获取（如沉积相图、构造区划图等）、由综合研究获取（如综合评价图等）、其他方式。

图形数据在表现方式上又可以进一步分为有坐标意义的图形（如构造单元划分图、地理图、井位图等）、数值图（如产烃率曲线图、酐洛根热降解图等）和无坐标含义图（如剖面图）等。

文档数据是指评价过程中产生的各种报告、项目运行记录等。

（二）数据库结构

从业务需求上，根据数据用途、数据类型和数据来源，可将本次的油气资源评价数据库分为三级：基础库、参数库、成果库（图4-12）。其结构如下：

图4-12 数据库结构示意图

1.基础库

基础库是油气资源评价工作的最基础的原始数据，有实测数据（物探数据、测井数据、钻井数据、开发数据等）、实验数据和经验数据等。

确定基础数据实际上是一项涉及油田勘探、开发等领域的多学科的复杂工作，是油气资源评价工作的研究过程和研究成果在数据库中的具体表现方式。在设计数据库的过程中，需要与参数研究专家经过多次反复，才能最终确定基础数据库，确保基础数据库能满足目前所有评价工作中计算的需要。

2.参数库

参数库用于存储油气资源评价工作所用到的参数数据，评价软件，直接从参数库中提取参数数据，用于计算。参数数据由基础数据汇总而来，也可以由专家根据经验直接得到。

本次评价中所涉及的参数大致可以分为以下几类：①直接应用的参数；②通过标准或类比借用的参数；③通过研究过程或复杂的预处理得到的参数。

3.成果库

成果库用于存储资源评价结果，包括各种计算结果、各种文档、电子表格、图片、图册等数据。

数据库的体系结构采用分布式多层数据库结构，包括三个组成部分：应用服务层、应用逻辑层和数据服务层。

数据库体系结构如图4-13所示。

图4-13 体系结构结构图

（1）应用服务层：应用服务层包含复杂的事务处理逻辑，应用服务层主要由中间件组件构成。中间件是位于上层应用和下层服务之间的一个软件层，提供更简单、可靠和增值服务。并且能够实现跨库检索的关键技术。它能够使应用软件相对独立于计算机硬件和操作系统平台，把分散的数据库系统有机地组合在一起，为应用软件系统的集成提供技术基础，中间件具有标准程序接口和协议，可以实现不同硬件和操作系统平台上的数据共享和应用互操作。而在具体实现上，中间件是一个用API定义的分布式软件管理框架，具有潜在的通信能力和良好的可扩展性能。中间件包含系统功能处理逻辑，位于应用服务器端。它的任务是接受用户的请求，以特定的方式向应用服务器提出数据处理申请，通过执行相应的扩展应用程序与应用服务层进行连接，当得到应用服务器返回的处理结果后提交给应用服务器，再由应用服务器传送回客户端。根据国内各大石油公司具体的需求开发相应的地质、油藏、生产等应用软件功能程序模块和各种算法模块。

（2）应用逻辑层：逻辑数据层是扩展数据服务层逻辑处理层，针对当前的底层数据库的数据结构，根据具体的需求，应用各种数据库技术，包括临时表、视图、存储过程、游标、复制和快照等技术手段从底层数据库中提取相关的数据，构建面向具体应用的逻辑数据库或者形成一个虚拟的数据库平台。逻辑数据层包含底层数据库的部分或全部数据处理逻辑，并处理来自应用服务层的数据请求和访问，将处理结果返回给逻辑数据层。

形成一个虚拟的数据库平台我们可以应用数据库系统中的多个技术来实现。如果系统中的一个节点中的场地或分片数据能够满足当前虚拟数据库，可以在应用服务层中使用大量的查询，生成一个以数据集结果为主的虚拟数据库平台，并且由数据集附带部分数据库的管理应用策略。或者对节点上的数据库进行复制方法进行虚拟数据库的建立。对与需要对多个节点上的数据库进行综合筛选，则要对各个节点上的数据库进行复制，合并各个复制形成一个应用逻辑层，从而建立一个虚拟数据平台。

（3）数据服务层：即数据库服务器层，其中包含系统的数据处理逻辑，位于不同的操作系统平台上，不同数据库平台（异构数据库），具体完成数据的存储、数据的完整性约束。也可以直接处理来自应用服务层的数据请求和访问，将处理结果返回给逻辑数据层或根据逻辑数据层通过提交的请求，返回数据信息和数据处理逻辑方法。

（三）数据建设标准

1.评价数据标准

系统数据库中的数据格式、大小、类型遵从国家及行业标准，参考的标准如表4-23。

表4-23 数据库设计参考标准

续表

系统中数据的格式及单位参考《常规油气资源评价实施方案》、《煤层气资源评价实施方案》、《油砂资源评价实施方案》、《油页岩资源评价实施方案》及数据字典。

2.图形图件标准

对于地质研究来说，地质类图件是比较重要的。各种地质评价图形遵循以下标准（表4-24）。

表4-24 系统图形遵循的相关标准

系统对图形的要求为必须为带有地理坐标意义的、满足上述标准体系要求的矢量图形，且采用统一的地理底图。图形格式采用：MapGIS图形交换格式、GeoInfo图形格式、ArcInfo图形交换格式、MapInfo图形交换格式和GeoMap图形交换格式。

图件的比例尺要求：

全国性图件：1∶400万或1:600万

大区图件：1:200万

盆地图件：1:40万或1:50万

评价单元图件：1:10万或1:20万

图件的内容要求符合《常规油气资源评价实施方案》、《煤层气资源评价实施方案》、《油砂资源评价实施方案》和《油页岩资源评价实施方案》的规定。

（四）数据内容

数据库中存储的数据包括常规油气相关数据、煤层气相关数据、油砂相关数据和油页岩相关数据；还有可采系数研究涉及的数据，包括研究所需基础数据和研究成果数据；以及趋势预测相关数据。

⑺ Bigtable---分布式的结构化数据存储系统

sina

Bigtable 是一个分布式的结构化数据存储系统，它被设计用来处理海量数据：通常是分布在数千台普通服务器上的PB 级的数据。Google 的很多项目使用Bigtable 存储数据，包括Web 索引、GoogleEarth、Google Finance。这些应用对Bigtable 提出的要求差异非常大，无论是在数据量上（从URL到网页到卫星图像）还是在响应速度上（从后端的批量处理到实时数据服务）。
Bigtable 已经实现了下面的几个目标：适用性广泛、可扩展、高性能和高可用性,Bigtable 是一个稀疏的、分布式的、持久化存储的多维度排序Map。

图一：一个存储Web 网页的例子的表的片断。行名是一个反向URL。contents 列族存放的是网页的内容，anchor 列族存放引用该网页的锚链接文本（alex 注：如果不知道HTML 的Anchor，请Google一把）。CNN 的主页被Sports Illustrater和MY-look 的主页引用，因此该行包含了名为“anchor:cnnsi.com”和“anchhor:my.look.ca”的列。每个锚链接只有一个版本（alex 注：注意时间戳标识了列的版本，t9 和t8 分别标识了两个锚链接的版本）；而contents 列则有三个版本，分别由时间戳t3，t5，和t6 标识。

行
Bigtable 通过行关键字的字典顺序来组织数据。表中的每个行都可以动态分区。每个分区叫做一个”Tablet”，Tablet 是数据分布和负载均衡调整的最小单位。

列族
Webtable 有个列族language，language 列族用来存放撰写网页的语言。
我们在language 列族中只使用一个列关键字，用来存放每个网页的语言标识ID。Webtable 中另一个有用的列族是anchor；这个列族的每一个列关键字代表一个锚链接，如图一所示。Anchor 列族的限定词是引用该网页的站点名；Anchor 列族每列的数据项存放的是链接文本。访问控制、磁盘和内存的使用统计都是在列族层面进行的。

时间戳
不同版本的数据通过时间戳来索引。Bigtable 时间戳的类型是64 位整型。
Bigtable 可以给时间戳赋值，用来表示精确到毫秒的“实时”时间；用户程序也可以给时间戳赋值。如果应用程序需要避免数据版本冲突，那么它必须自己生成具有唯一性的时间戳。数据项中，不同版本的数据按照时间戳倒序排序，即最新的数据排在最前面。为了减轻多个版本数据的管理负担，我们对每一个列族配有两个设置参数， Bigtable 通过这两个参数可以对废弃版本的数据自动进行垃圾收集。用户可以指定只保存最后n 个版本的数据，或者只保存“足够新”的版本的数据（比如，只保存最近7 天的内容写入的数据）。

Bigtable支持的其他特性
1、Bigtable 支持单行上的事务处理，利用这个功能，用户可以对存储在一个行关键字下的数据进行原子性的读-更新-写操作。
2、Bigtable 允许把数据项用做整数计数器。
3、Bigtable 允许用户在服务器的地址空间内执行脚本程序
4、Bigtable 可以和MapRece一起使用，MapRece 是Google 开发的大规模并行计算框架。我们已经开发了一些Wrapper 类，通过使用这些Wrapper 类，Bigtable 可以作为MapRece 框架的输入和输出。

Bigtable依赖于google的几项技术。用GFS来存储日志和数据文件；按SSTable文件格式存储数据；用Chubby管理元数据：
Bigtable是建立在其它的几个Google基础构件上的。BigTable 使用Google 的分布式文件系统(GFS)存储日志文件和数据文件。BigTable 集群通常运行在一个共享的机器池中，池中的机器还会运行其它的各种各样的分布式应用程序，BigTable 的进程经常要和其它应用的进程共享机器。BigTable 依赖集群管理系统来调度任务、管理共享的机器上的资源、处理机器的故障、以及监视机器的状态。
BigTable 内部存储数据的文件是Google SSTable 格式的。SSTable 是一个持久化的、排序的、不可更改的Map 结构，而Map 是一个key-value 映射的数据结构，key 和value 的值都是任意的Byte串，从内部看，SSTable 是一系列的数据块（通常每个块的大小是64KB，这个大小是可以配置的）。。SSTable 使用块索引（通常存储在SSTable 的最后）来定位数据块；在打开SSTable的时候，索引被加载到内存。每次查找都可以通过一次磁盘搜索完成：首先使用二分查找法在内存中的索引里找到数据块的位置，然后再从硬盘读取相应的数据块。也可以选择把整个SSTable 都放在内存中，这样就不必访问硬盘了。

BigTable 还依赖一个高可用的、序列化的分布式锁服务组件，叫做Chubby。Chubby有五个活跃副本，同时只有一个主副本提供服务，副本之间用Paxos算法维持一致性，Chubby提供了一个命名空间（包括一些目录和文件），每个目录和文件就是一个锁，Chubby的客户端必须和Chubby保持会话，客户端的会话若过期则会丢失所有的锁。

Bigtable 包括了三个主要的组件：链接到客户程序中的库、一个Master主服务器和多个Tablet片服务器。
Bigtable会将表（table）进行分片，片（tablet）的大小维持在100-200MB范围，一旦超出范围就将分裂成更小的片，或者合并成更大的片。每个片服务器负责一定量的片，处理对其片的读写请求，以及片的分裂或合并。片服务器可以根据负载随时添加和删除。这里片服务器并不真实存储数据，而相当于一个连接Bigtable和GFS的代理，客户端的一些数据操作都通过片服务器代理间接访问GFS。主服务器负责将片分配给片服务器，监控片服务器的添加和删除，平衡片服务器的负载，处理表和列族的创建等。注意，主服务器不存储任何片，不提供任何数据服务，也不提供片的定位信息。

客户端需要读写数据时，直接与片服务器联系。因为客户端并不需要从主服务器获取片的位置信息，所以大多数客户端从来不需要访问主服务器，主服务器的负载一般很轻。

Master 服务器主要负责以下工作：为Tablet 服务器分配Tablets、检测新加入的或者过期失效的Table 服务器、对Tablet 服务器进行负载均衡、以及对保存在GFS 上的文件进行垃圾收集。除此之外，它还处理对模式的相关修改操作，例如建立表和列族。

我们使用一个三层的、类似B+树的结构存储Tablet 的位置信息。

第一层是一个存储在Chubby 中的文件，它包含了Root Tablet 的位置信息。这个Chubby文件属于Chubby服务的一部分，一旦Chubby不可用，就意味着丢失了root tablet的位置，整个Bigtable也就不可用了。
第二层是root tablet。root tablet其实是元数据表（METADATA table）的第一个分片，它保存着元数据表其它片的位置。root tablet很特别，为了保证树的深度不变，root tablet从不分裂。
第三层是其它的元数据片，它们和root tablet一起组成完整的元数据表。每个元数据片都包含了许多用户片的位置信息。

片的数据最终还是写到GFS里的，片在GFS里的物理形态就是若干个SSTable文件。下图展示了读写操作基本情况。

BigTable和GFS的关系
集群包括主服务器和片服务器，主服务器负责将片分配给片服务器，而具体的数据服务则全权由片服务器负责。但是不要误以为片服务器真的存储了数据（除了内存中memtable的数据），数据的真实位置只有GFS才知道，主服务器将片分配给片服务器的意思应该是，片服务器获取了片的所有SSTable文件名，片服务器通过一些索引机制可以知道所需要的数据在哪个SSTable文件，然后从GFS中读取SSTable文件的数据，这个SSTable文件可能分布在好几台chunkserver上。
一个简化的Bigtable结构图：

结构图以Webtable表为例，表中存储了网易、网络和豆瓣的几个网页。当我们想查找网络贴吧昨天的网页内容，可以向Bigtable发出查询Webtable表的(com..tieba, contents:, yesterday)。

假设客户端没有该缓存，那么Bigtable访问root tablet的片服务器，希望得到该网页所属的片的位置信息在哪个元数据片中。使用 METADATA.Webtable.com..tieba 为行键在root tablet中查找，定位到最后一个比它大的是 METADATA.Webtable.com..www ，于是确定需要的就是元数据表的片A。访问片A的片服务器，继续查找 Webtable.com..tieba ，定位到 Webtable.com..www 是比它大的，确定需要的是Webtable表的片B。访问片B的片服务器，获得数据。

这里需要注意的是，每个片实际都由若干SSTable文件和memtable组成，而且这些SSTable和memtable都是已排序的。这就导致查找片B时，可能需要将所有SSTable和memtable都查找一遍；另外客户端应该不会直接从元数据表获得SSTable的文件名，而只是获得片属于片服务器的信息，通过片服务器为代理访问SSTable。

⑻ 什么是大数据，看完这篇就明白了

什么是大数据

如果从字面上解释的话，大家很容易想到的可能就是大量的数据，海量的数据。这样的解释确实通俗易懂，但如果用专业知识来描述的话，就是指数据集的大小远远超过了现有普通数据库软件和工具的处理能力的数据。

大数据的特点

海量化

这里指的数据量是从TB到PB级别。在这里顺带给大家科普一下这是什么概念。

MB，全称MByte，计算机中的一种储存单位，含义是“兆字节”。

1MB可储存1024×1024=1048576字节（Byte）。

字节（Byte）是存储容量基本单位，1字节（1Byte）由8个二进制位组成。

位（bit）是计算机存储信息的最小单位，二进制的一个“0”或一个“1”叫一位。

通俗来讲，1MB约等于一张网络通用图片（非高清）的大小。

1GB=1024MB，约等于下载一部电影（非高清）的大小。

1TB=1024GB，约等于一个固态硬盘的容量大小，能存放一个不间断的监控摄像头录像（200MB/个）长达半年左右。

1PB=1024TB，容量相当大，应用于大数据存储设备，如服务器等。

1EB=1024PB，目前还没有单个存储器达到这个容量。

多样化

大数据含有的数据类型复杂，超过80%的数据是非结构化的。而数据类型又分成结构化数据，非结构化数据，半结构化数据。这里再对三种数据类型做一个分类科普。

①结构化数据

结构化的数据是指可以使用关系型数据库(例如:MySQL,Oracle,DB2)表示和存储，表现为二维形式的数据。一般特点是：数据以行为单位，一行数据表示一个实体的信息，每一行数据的属性是相同的。所以，结构化的数据的存储和排列是很有规律的，这对查询和修改等操作很有帮助。

但是，它的扩展性不好。比如，如果字段不固定，利用关系型数据库也是比较困难的，有人会说，需要的时候加个字段就可以了，这样的方法也不是不可以，但在实际运用中每次都进行反复的表结构变更是非常痛苦的，这也容易导致后台接口从数据库取数据出错。你也可以预先设定大量的预备字段，但这样的话，时间一长很容易弄不清除字段和数据的对应状态，即哪个字段保存有哪些数据。

②半结构化数据

半结构化数据是结构化数据的一种形式，它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构，但包含相关标记，用来分隔语义元素以及对记录和字段进行分层。因此，它也被称为自描述的结构。半结构化数据，属于同一类实体可以有不同的属性，即使他们被组合在一起，这些属性的顺序并不重要。常见的半结构数据有XML和JSON。

③非结构化数据

非结构化数据是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、各类报表、图像和音频/视频信息等等。非结构化数据其格式非常多样，标准也是多样性的，而且在技术上非结构化信息比结构化信息更难标准化和理解。所以存储、检索、发布以及利用需要更加智能化的IT技术，比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等。

快速化

随着物联网、电子商务、社会化网络的快速发展，全球大数据储量迅猛增长，成为大数据产业发展的基础。根据国际数据公司(IDC)的监测数据显示，2013年全球大数据储量为4.3ZB(相当于47.24亿个1TB容量的移动硬盘)，2014年和2015年全球大数据储量分别为6.6ZB和8.6ZB。近几年全球大数据储量的增速每年都保持在40%，2016年甚至达到了87.21%的增长率。2016年和2017年全球大数据储量分别为16.1ZB和21.6ZB，2018年全球大数据储量达到33.0ZB。预测未来几年，全球大数据储量规模也都会保持40%左右的增长率。在数据储量不断增长和应用驱动创新的推动下，大数据产业将会不断丰富商业模式，构建出多层多样的市场格局，具有广阔的发展空间。

核心价值

大数据的核心价值，从业务角度出发，主要有如下的3点：

a.数据辅助决策：为企业提供基础的数据统计报表分析服务。分析师能够轻易获取数据产出分析报告指导产品和运营，产品经理能够通过统计数据完善产品功能和改善用户体验，运营人员可以通过数据发现运营问题并确定运营的策略和方向，管理层可以通过数据掌握公司业务运营状况，从而进行一些战略决策；

b.数据驱动业务：通过数据产品、数据挖掘模型实现企业产品和运营的智能化，从而极大的提高企业的整体效能产出。最常见的应用领域有基于个性化推荐技术的精准营销服务、广告服务、基于模型算法的风控反欺诈服务征信服务，等等。

c.数据对外变现：通过对数据进行精心的包装，对外提供数据服务，从而获得现金收入。市面上比较常见有各大数据公司利用自己掌握的大数据，提供风控查询、验证、反欺诈服务，提供导客、导流、精准营销服务，提供数据开放平台服务，等等。

大数据能做什么？

1、海量数据快速查询(离线)

能够在海量数据的基础上进行快速计算，这里的“快速”是与传统计算方案对比。海量数据背景下，使用传统方案计算可能需要一星期时间。使用大数据技术计算只需要30分钟。

2.海量数据实时计算（实时）

在海量数据的背景下，对于实时生成的最新数据，需要立刻、马上传递到大数据环境，并立刻、马上进行相关业务指标的分析，并把分析完的结果立刻、马上展示给用户或者领导。

3.海量数据的存储（数据量大，单个大文件）

大数据能够存储海量数据,大数据时代数据量巨大,1TB=1024*1G 约26万首歌(一首歌4M),1PB=1024 * 1024 * 1G约2.68亿首歌(一首歌4M)

大数据能够存储单个大文件。目前市面上最大的单个硬盘大小约为10T左右。若有一个文件20T,将无法存储。大数据可以存储单个20T文件，甚至更大。

4.数据挖掘（挖掘以前没有发现的有价值的数据）

挖掘前所未有的新的价值点。原始企业内数据无法计算出的结果，使用大数据能够计算出。

挖掘（算法）有价值的数据。在海量数据背景下，使用数据挖掘算法，挖掘有价值的指标（不使用这些算法无法算出）

大数据行业的应用？

1.常见领域

2.智慧城市

3.电信大数据

4.电商大数据

大数据行业前景(国家政策)？

2014年7月23日，国务院常务会议审议通过《企业信息公示暂行条例（草案）》

2015年6月19日，国家主席、总理同时就“大数据”发表意见：《国务院办公厅关于运用大数据加强对市场主体服务和监管的若干意见》

2015年8月31日，国务院印发《促进大数据发展行动纲要》。国发〔2015〕50号

2016年12月18日，工业和信息化部关于印发《大数据产业发展规划》

2018年1月23日。中央全面深化改革领导小组会议审议通过了《科学数据管理办法》

2018年7月1日，国务院办公厅印发《关于运用大数据加强对市场主体服务和监管的若干意见》

2019年政府工作报告中总理指出“深化大数据、人工智能等研发应用，培育新一代信息技术、高端装备、生物医药、新能源汽车、新材料等新兴产业集群，壮大数字经济。”

总结

我国着名的电商之父，阿里巴巴创始人马云先生曾说过，未来10年，乃至20年，将是人工智能的时代，大数据的时代。对于现在正在学习大数据的我们来说，未来对于我们更是充满了各种机遇与挑战。

python学习网，大量的免费python视频教程，欢迎在线学习！

⑼ 数据划分

评价数据库内存放的数据将支持资源评价的整个过程。为了能更好地管理库中数据，需要对整个过程中将用到的数据进行分类管理。具体分类方式如图3-1所示。

1.按照应用类型划分

按照数据在资源评价过程中的应用类型划分，可以划分为基础数据、参数数据和评价结果数据。

图3-1 数据分类示意图

参数数据是指在评价过程中各种评价方法和软件直接使用的参数数据。

评价结果数据是指资源评价中产生的各种评价结果数据，如资源量结果数据、地质评价结果数据等。

2.按照评价对象划分

3.按照获取方式划分

按照获取方式可以将数据分为直接获取、研究获取、间接获取几类。

4.按照存储类型划分

按照存储类型可以将数据划分为结构化数据和非结构化数据。

结构化数据是指能够用现有的关系数据库系统直接管理的数据，进一步又可以分为定量数据和定性数据两类。

非结构化数据是指不能用现有的关系数据库系统直接管理和操作的数据，它必须借助于另外的工具管理和操作。如图件数据、文档数据等。

库中数据类型的划分共分六个层次逐次划分，包括：数据存储类型→资源类型—→评价对象→应用→获取方式→数据特征。

对于结构化存储的数据在应用层分为三类：基础数据、中间数据和结果数据，基础数据中包含用于类比的基础数据、用于统计分析的基础数据和直接用于公式运算的基础数据；

结构化存储的数据在获取方式上可以继续划分，其中，用于公式运算的数据可以细化为专家直接录入、由地质类比获取、通过生产过程获取、通过地质研究过程获取及其他方式。中间数据可以从以下方式获取：标准、统计、类比、参数的关联。结果数据的获取有两种方式：公式运算结果和通过钻井、地质、综合研究等提交的文字报告。

对于非结构化存储的数据在应用层分为两类：图形数据和文档数据；

图形数据在获取方式上可以继续划分成四种方式：通过工程测量数据获取（如地理图件、井位坐标数据等）、通过地质研究过程获取（如沉积相图、构造区划图等）、由综合研究获取（如综合评价图等）、其他方式获取。

文档数据是指评价过程中产生的各种报告、项目运行记录等。

⑽ 大数据存储与应用特点及技术路线分析

大数据存储与应用特点及技术路线分析

大数据时代，数据呈爆炸式增长。从存储服务的发展趋势来看，一方面，对数据的存储量的需求越来越大；另一方面，对数据的有效管理提出了更高的要求。大数据对存储设备的容量、读写性能、可靠性、扩展性等都提出了更高的要求，需要充分考虑功能集成度、数据安全性、数据稳定性，系统可扩展性、性能及成本各方面因素。

大数据存储与应用的特点分析

“大数据”是由数量巨大、结构复杂、类型众多数据构成的数据集合，是基于云计算的数据处理与应用模式，通过数据的整合共享，交叉复用形成的智力资源和知识服务能力。其常见特点可以概括为3V:Volume、Velocity、Variety(规模大、速度快、多样性)。

大数据具有数据规模大(Volume)且增长速度快的特性，其数据规模已经从PB级别增长到EB级别，并且仍在不断地根据实际应用的需求和企业的再发展继续扩容，飞速向着ZB(ZETA-BYTE)的规模进军。以国内最大的电子商务企业淘宝为例，根据淘宝网的数据显示，至2011年底，淘宝网最高单日独立用户访问量超过1.2亿人，比2010年同期增长120%,注册用户数量超过4亿，在线商品数量达到8亿，页面浏览量达到20亿规模，淘宝网每天产生4亿条产品信息，每天活跃数据量已经超过50TB.所以大数据的存储或者处理系统不仅能够满足当前数据规模需求，更需要有很强的可扩展性以满足快速增长的需求。

(1)大数据的存储及处理不仅在于规模之大，更加要求其传输及处理的响应速度快(Velocity)。

相对于以往较小规模的数据处理，在数据中心处理大规模数据时，需要服务集群有很高的吞吐量才能够让巨量的数据在应用开发人员“可接受”的时间内完成任务。这不仅是对于各种应用层面的计算性能要求，更加是对大数据存储管理系统的读写吞吐量的要求。例如个人用户在网站选购自己感兴趣的货物，网站则根据用户的购买或者浏览网页行为实时进行相关广告的推荐，这需要应用的实时反馈;又例如电子商务网站的数据分析师根据购物者在当季搜索较为热门的关键词，为商家提供推荐的货物关键字，面对每日上亿的访问记录要求机器学习算法在几天内给出较为准确的推荐，否则就丢失了其失效性；更或者是出租车行驶在城市的道路上，通过GPS反馈的信息及监控设备实时路况信息，大数据处理系统需要不断地给出较为便捷路径的选择。这些都要求大数据的应用层可以最快的速度，最高的带宽从存储介质中获得相关海量的数据。另外一方面，海量数据存储管理系统与传统的数据库管理系统，或者基于磁带的备份系统之间也在发生数据交换，虽然这种交换实时性不高可以离线完成，但是由于数据规模的庞大，较低的数据传输带宽也会降低数据传输的效率，而造成数据迁移瓶颈。因此大数据的存储与处理的速度或是带宽是其性能上的重要指标。

(2)大数据由于其来源的不同，具有数据多样性的特点。

所谓多样性，一是指数据结构化程度，二是指存储格式，三是存储介质多样性。对于传统的数据库，其存储的数据都是结构化数据，格式规整，相反大数据来源于日志、历史数据、用户行为记录等等，有的是结构化数据，而更多的是半结构化或者非结构化数据，这也正是传统数据库存储技术无法适应大数据存储的重要原因之一。所谓存储格式，也正是由于其数据来源不同，应用算法繁多，数据结构化程度不同，其格式也多种多样。例如有的是以文本文件格式存储，有的则是网页文件，有的是一些被序列化后的比特流文件等等。所谓存储介质多样性是指硬件的兼容，大数据应用需要满足不同的响应速度需求，因此其数据管理提倡分层管理机制，例如较为实时或者流数据的响应可以直接从内存或者Flash(SSD)中存取，而离线的批处理可以建立在带有多块磁盘的存储服务器上，有的可以存放在传统的SAN或者NAS网络存储设备上，而备份数据甚至可以存放在磁带机上。因而大数据的存储或者处理系统必须对多种数据及软硬件平台有较好的兼容性来适应各种应用算法或者数据提取转换与加载(ETL)。

大数据存储技术路线最典型的共有三种：

第一种是采用MPP架构的新型数据库集群，重点面向行业大数据，采用Shared Nothing架构，通过列存储、粗粒度索引等多项大数据处理技术，再结合MPP架构高效的分布式计算模式，完成对分析类应用的支撑，运行环境多为低成本 PC Server，具有高性能和高扩展性的特点，在企业分析类应用领域获得极其广泛的应用。

这类MPP产品可以有效支撑PB级别的结构化数据分析，这是传统数据库技术无法胜任的。对于企业新一代的数据仓库和结构化数据分析，目前最佳选择是MPP数据库。

第二种是基于Hadoop的技术扩展和封装，围绕Hadoop衍生出相关的大数据技术，应对传统关系型数据库较难处理的数据和场景，例如针对非结构化数据的存储和计算等，充分利用Hadoop开源的优势，伴随相关技术的不断进步，其应用场景也将逐步扩大，目前最为典型的应用场景就是通过扩展和封装 Hadoop来实现对互联网大数据存储、分析的支撑。这里面有几十种NoSQL技术，也在进一步的细分。对于非结构、半结构化数据处理、复杂的ETL流程、复杂的数据挖掘和计算模型，Hadoop平台更擅长。

第三种是大数据一体机，这是一种专为大数据的分析处理而设计的软、硬件结合的产品，由一组集成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析用途而特别预先安装及优化的软件组成，高性能大数据一体机具有良好的稳定性和纵向扩展性。

以上是小编为大家分享的关于大数据存储与应用特点及技术路线分析的相关内容，更多信息可以关注环球青藤分享更多干货

结构化数据存储计算

以下为补充资料：

典型的机器生成的非结构化数据包括：

与结构化数据存储计算相关的内容