主题数据库建设方案_数据库数据

Ⅰ 信息系统开发中如何根据数据的固有属性来确定主题数据库的两种方式存储

信息系统高级项目管理工程师：信息系统基础知识

信息系统的概念

一般泛指收集、存储、处理和传播各种信息的具有完整功能的集合体。当代的信息系统是指以计算机为信息处理工具，以网络为信息传输手段的信息系统。
信息系统4个发展阶段

阶段1：电子数据处理阶段。该阶段仅着眼于减轻人们在计算方面的劳动强度，是属于电子数据处理(EDP)业务，只是对企业单项业务进行处理，较少涉及管理内容。

阶段2：事务处理阶段(TPS)。计算机应用开始对企业的局部事务的管理，形成了事务处理系统(TPS),但它并未形成对企业全局的、整体的管理。

阶段3：管理信息系统阶段(MIS)。用系统思想建立起来的，以计算机为基本信息处理手段，以现代通信设备为基本传输工具，且能为管理决策提供信息服务的人机系统。即管理信息系统是一个由人和计算机等组成的，能进行管理信息的收集、传输、存储、加工、维护和使用的系统。在这一阶段，信息系统形成了对企业全局性的、整体性的计算机应用。强调以企业管理系统为背景，以基层业务系统为基础，强调企业各业务系统间的信息联系，以完成企业总体任务为目标。

阶段4：决策支持系统阶段(DSS)。

这四个发展阶段，他们之间的关系并不是取代关系，而是互相促进、共同发展的关系，在一个企业里，以上四个阶段的信息系统，可能同时都存在，也可能只有其中一种，更高级的是几种信息系统互相融合成一体，比如ERP、SRM等就是这种情况。
信息系统的类型

1.从计算机应用的角度可以分为，人工信息系统、基于计算机的信息系统

2.从独立性的角度可以分为，独立信息系统、综合信息系统

3.从处理方式角度可以分为，批处理信息系统、联机处理信息系统

4.从数据环境分类可以分为:数据文件、应用数据库、主题数据库、信息检索系统

数据文件:简单、容易实现；很高的维护费用。

应用数据库:为分散的应用而设计。简单事项、数据分散，缺少共享，且维护费用高

主体数据库:经过严格的数据分析，建立应用模型，开发需要花费较长的时间。但是后期的维护费用很低。使用户直接与这些数据库交互使用数据。如果管理不善也会蜕变为第二类或者第一类数据环境。

信息检索系统：比传统的数据库有更大的灵活性和动态可变性。一般应该与第三类数据环境共存，支持综合信息服务和决策系统。

5.以应用层次分类。战略级、战术级、操作级、事务级。他是根据使用用户层级的不同进行的划分。
信息系统的生命周期

1.信息系统规划阶段，经过概念产生过程、需求分析过程最终形成需求分析报告。

2.信息系统的开发阶段，总体规划、系统分析、系统设计、系统实施和系统验收。

总体规划，必须服从和服务于企业的总体目标和企业的管理决策活动。一个比较完整的总体规划应当包含开发目标、总体架构、组织结构、管理流程、实施计划和技术规范等。

系统分析阶段，主要目标是为系统设计阶段提供逻辑模型，是企业管理流程和信息流程的交汇点。主要包括组织结构和功能分析、业务流程分析、数据和数据流程分析、系统初步方案等。

系统设计阶段，根据系统分析，设计实施方案。架构设计、数据库设计、处理流程设计、功能模块设计、安全控制方案设计、系统组织和队伍设计、管理流程设计

系统实施阶段，将设计文本变成能在计算机上运行的软件系统(开发)，用户在实施阶段逐步变为系统的主导地位

系统验收阶段，试运行阶段。

3.信息系统运行与维护阶段，长时间的运行是检验系统质量的试金石。维护分为4种类型:排错性维护、适应性维护、完善性维护和预防性维护。系统运行初期，排错性维护和适应性维护比较多，而到后期完善性维护和预防性维护比较多。

4.信息系统更新阶段，也称信息系统消亡阶段。
信息系统建设原则

1.高层管理人员介入原则,CIO介入

2.用户参与开发原则，一是用户有确定的范围；二是用户应当参与全过程的开发；三是用户应当深度参与系统开发

3.自顶向下规划原则

4.工程化原则

5.其他原则-（创新性原则、整体性原则、发展性原则、经济性原则）
信息系统规划方法

1.企业规划方法(BSP).UC矩阵是BSP方法将过程和数据类两者作为定义企业信息系统总体结构的基础，具体做法是利用过程/数据矩阵，即UC矩阵，来表达两者之间的关系。矩阵中行表示过程,列表示数据类，并以字母U(Use)和C(Create)来表示过程对数据类的使用和产生。

2.战略数据规划方法。数据环境对于信息系统至关重要，建设主题数据库是信息系统开发的中心任务，围绕主题数据库搞好应用软件开发。

3.信息工程方法。

4.关键成功因素法(CSF)，在每个企业中都存在着对企业成功起关键作用的因素，称为CSF。C通过企业的CSF，确定企业业务的关键信息需求，通过对CSF的识别，找出实现目标所需要的关键信息集合，从而确定系统开发的优先次序

5.战略集合转化法(SST)，SST方法就是把企业的战略集合转化为信息系统的战略集合，而后者由信息系统的目标、环境约束和战略规划组成。

6.CSF、SST、BSP之间的关系。在信息系统战略规划的实践中，往往把这三种方法结合起来使用，统称为CSB方法。CSB方法先用CSF方法确定企业目标，然后用SST方法补充完善企业目标，并将这些目标转化为信息系统目标，用BSP方法校核两个目标，并确定信息系统结构。
信息系统开发方法

1

Ⅱ 如何有效的进行数据治理和数据管控

从技术实施角度看，主要包含“理”“采”“存”“管”“用”这五个，即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。

数据资源梳理：数据治理的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单，包含组织机构、业务事项、信息系统，以及以数据库、网页、文件和 API 接口形式存在的数据项资源，本步骤的输出物为分门别类的数据资源清单。

数据采集清洗：通过可视化的 ETL 工具（例如阿里的 DataX，Pentaho Data Integration）将数据从来源端经过抽取 (extract)、转换 (transform)、加载 (load) 至目的端的过程，目的是将散落和零乱的数据集中存储起来。

基础库主题库建设：一般情况下，可以将数据分为基础数据、业务主题数据和分析数据。基础数据一般指的是核心实体数据，或称主数据，例如智慧城市中的人口、法人、地理信息、信用、电子证照等数据。主题数据一般指的是某个业务主题数据，例如市场监督管理局的食品监管、质量监督检查、企业综合监管等数据。而分析数据指的是基于业务主题数据综合分析而得的分析结果数据，例如市场监督管理局的企业综合评价、产业区域分布、高危企业分布等。那么基础库和主题库的建设就是在对业务理解的基础上，基于易存储、易管理、易使用的原则抽像数据存储结构，说白了，就是基于一定的原则设计数据库表结构，然后再根据数据资源清单设计数据采集清洗流程，将整洁干净的数据存储到数据库或数据仓库中。

元数据管理：元数据管理是对基础库和主题库中的数据项属性的管理，同时，将数据项的业务含义与数据项进行了关联，便于业务人员也能够理解数据库中的数据字段含义，并且，元数据是后面提到的自动化数据共享、数据交换和商业智能（BI）的基础。需要注意的是，元数据管理一般是对基础库和主题库中（即核心数据资产）的数据项属性的管理，而数据资源清单是对各类数据来源的数据项的管理。

血缘追踪：数据被业务场景使用时，发现数据错误，数据治理团队需要快速定位数据来源，修复数据错误。那么数据治理团队需要知道业务团队的数据来自于哪个核心库，核心库的数据又来自于哪个数据源头。我们的实践是在元数据和数据资源清单之间建立关联关系，且业务团队使用的数据项由元数据组合配置而来，这样，就建立了数据使用场景与数据源头之间的血缘关系。数据资源目录：数据资源目录一般应用于数据共享的场景，例如政府部门之间的数据共享，数据资源目录是基于业务场景和行业规范而创建，同时依托于元数据和基础库主题而实现自动化的数据申请和使用。

质量管理：数据价值的成功发掘必须依托于高质量的数据，唯有准确、完整、一致的数据才有使用价值。因此，需要从多维度来分析数据的质量，例如：偏移量、非空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等等。需要注意的是，优秀的数据质量模型的设计必须依赖于对业务的深刻理解，在技术上也推荐使用大数据相关技术来保障检测性能和降低对业务系统的性能影响，例如 Hadoop，MapRece，HBase 等。

商业智能（BI）：数据治理的目的是使用，对于一个大型的数据仓库来说，数据使用的场景和需求是多变的，那么可以使用 BI 类的产品快速获取需要的数据，并分析形成报表，像派可数据就属于专业的BI厂商。

数据共享交换：数据共享包括组织内部和组织之间的数据共享，共享方式也分为库表、文件和 API 接口三种共享方式，库表共享比较直接粗暴，文件共享方式通过 ETL 工具做一个反向的数据交换也就可以实现。我们比较推荐的是 API 接口共享方式，在这种方式下，能够让中心数据仓库保留数据所有权，把数据使用权通过 API 接口的形式进行了转移。API 接口共享可以使用 API 网关实现，常见的功能是自动化的接口生成、申请审核、限流、限并发、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等等。

Ⅲ 数据仓库数据建模的几种思路

数据仓库数据建模的几种思路主要分为一下几种

1. 星型模式

星形模式(Star Schema)是最常用的维度建模方式。星型模式是以事实表为中心，所有的维度表直接连接在事实表上，像星星一样。星形模式的维度建模由一个事实表和一组维表成，且具有以下特点：a. 维表只和事实表关联，维表之间没有关联；b. 每个维表主键为单列，且该主键放置在事实表中，作为两边连接的外键；c. 以事实表为核心，维表围绕核心呈星形分布；

星座模型

Ⅳ 教你轻松掌握数据仓库的规划和构建策略

教你轻松掌握数据仓库的规划和构建策略

数据仓库作为决策支持系统（DSS）的基础，具有面向主题的、集成的、不可更新的、随时间不断变化的特性。这些特点说明了数据仓库从数据组织到数据处理，都与原来的数据库有很大的区别，这也就需要在数据仓库系统设计时寻求一个适合于数据仓库设计的方法。在一般的系统开发规划中，首先需要确定系统的功能，这些系统的功能一般是通过对用户的需求分析得到的。从数据仓库的应用角度来看，DSS分析员一般是企业中的中高层管理人员，他们对决策支持的需求不能预先做出规范的说明，只能给设计人员一个抽象地描述。
这就需要设计人员在与用户不断的交流沟通中，将系统的需求逐步明确，并加以完善。因此数据仓库的开发规划过程实际上是一个用户和设计人员对其不断了解、熟悉和完善的过程。数据仓库的开发应用规划是开发数据仓库的首要任务。只有制定了正确的数据仓库规划，才能使组织主要力量有序地实现数据仓库的开发应用。在数据仓库规划中一般需要经历这样几个过程：选择实现策略、确定数据仓库的开发目标和实现范围、选择数据仓库体系结构、建立商业和项目规划预算。当数据仓库规划完成后，需要编制相应的数据仓库规划说明书，说明数据仓库与企业战略的关系，以及与企业急需处理的、范围相对有限的开发机会，重点支持的职能部门和今后数据仓库开发工作的建议，实际使用方案和开发预算，作为数据仓库实际开发的依据。
1、选择数据仓库实现策略
数据仓库的开发策略主要有自顶向下、自底向上和这两种策略的联合使用。自顶向下策略在实际应用中比较困难，因为数据仓库的功能是一种决策支持功能。这种功能在企业战略的应用范围中常常是很难确定的，因为数据仓库的应用机会往往超出企业当前的实际业务范围，而且在开发前就确定目标，会在实现预定目标后就不再追求新的应用，是数据仓库丧失更有战略意义的应用。由于该策略在开发前就可以给出数据仓库的实现范围，能够清楚地向决策者和企业描述系统的收益情况和实现目标，因此是一种有效的数据仓库开发策略。该方法使用时需要开发人员具有丰富的自顶向下开发系统的经验，企业决策层和管理人员完全知道数据仓库的预定目标并且了解数据仓库能够在那些决策中发挥作用。
自底向上策略一般从某个数据仓库原型开始，选择一些特定的为企业管理人员所熟知的管理问题作为数据仓库开发的对象，在此基础上进行数据仓库的开发。因此，该策略常常用于一个数据集市、一个经理系统或一个部门的数据仓库开发。该策略的优点在于企业能够以较小的投入，获得较高的数据仓库应用收益。在开发过程中，人员投入较少，也容易获得成效。当然，如果某个项目的开发失败可能造成企业整个数据仓库系统开发的延迟。该策略一般用于企业洗碗对数据仓库的技术进行评价，以确定该技术的应用方式、地点和时间，或希望了解实现和运行数据仓库所需要的各种费用，或在数据仓库的应用目标并不是很明确时，数据仓库对决策过程影响不是很明确时使用。
在自顶向下的开发策略中可以采用结构化或面向对象的方法，按照数据仓库的规划、需求确定、系统分析、系统设计、系统集成、系统测试和系统试运行的阶段完成数据仓库的开发。而在自底向上的开发中，则可以采用螺旋式的原型开发方法，使用户可以根据新的需求对试运行的系统进行修改。螺旋式的原型开发方法要求在较短的时间内快速的生成可以不断增加功能的数据仓库系统，这种开发方法主要适合于这样一些场合：在企业的市场动向和需求无法预测，市场的时机是实现产品的重要组成部分，不断地改进对与企业的市场调节是必需的；持久的竞争优势来自连续不断地改进，系统地改进是基于用户在使用中的不断发现。自顶向下和自底向上策略的联合使用具有两种策略的优点，既能快速的完成数据仓库的开发与应用，还可建立具有长远价值的数据仓库方案。但在实践中往往难以操作，通常需要能够建立、应用和维护企业模型、数据模型和技术结构的、具有丰富经验的开发人员，能够熟练的从具体（如业务系统中的元数据）转移到抽象（只基于业务性质而不是基于实现系统技术的逻辑模型）；企业需要拥有由最终用户和信息系统人员组成的有经验的开发小组，能够清楚地指出数据仓库在企业战略决策支持中的应用。
2、确定数据仓库的开发目标和实现范围
为确定数据仓库的开发目标和实现范围，首先需要对企业管理者等数据仓库用户解释数据仓库在企业管理中的应用和发展趋势，说明企业组织和使用数据来支持跨功能系统的重要性，对企业经营战略的支持，以确定开发目标。在该阶段确认与使用数据仓库有关的业务要求，这些要求应该只支持最主要的业务职能部门，将使用精力集中在收益明显的业务上，使数据仓库的应用立即产生效果，不应该消耗太多的精力在各个业务上同时铺开数据仓库的应用。
在确定开发目标和范围以后，应该编制需求文档，作为今后开发数据仓库的依据。数据仓库开发的首要目标是确定所需要信息的范围，确定用户提供决策帮助时，在主题和指标域需要哪些数据源。这就需要定义：用户需要什么数据？面向主题的数据仓库需要什么样的支持数据？为成功地向用户提交数据，开发人员需要哪些商业知识？哪些背景知识？这就需要定义整体需求，以文件的形式整理现存的记录系统和系统环境，对使用数据仓库中数据的候选应用系统进行标识、排序，构造一个传递模型，确定尺度、事实及时间标记算法，以便从系统中抽取信息且将他们放入数据仓库。通过信息范围确定可为开发人员提供一个良好的分析平台，和用户一起分析哪些信息是数据仓库需要的，进行商业活动需要什么数据。开发人员可以和用户进一步定义需要，例如数据分级层次、聚合的层次、加载的频率以及需要保持的时间表等。数据仓库开发的另一个重要目标是确定利用哪些方法和工具访问和导航数据？虽然用户都需要存取并且检索数据仓库的内容，但是所存取的粒度有所不同，有的可能是详细的记录，有的可能是比较概括的记录或十分概括的记录。用户要求的数据概括程度不同，将导致数据仓库的聚集和概括工具的需求不同。
数据仓库还有具有一定功能来访问和检索图表、预定义的报表、多维数据、概括性数据和详细记录。用户从数据仓库中获得信息，应该有电子表格、统计分析器和支持多维分析的分析处理器等工具的支持，以解释和分析数据仓库中的内容，产生并且验证不同的市场假设、建议和决策方案。为将决策建议和各种决策方案向用户清楚地表达出来，需要利用报表、图表和图像等强有力的信息表达工具。数据仓库开发的其他目标，是确定数据仓库内部数据的规模。在数据仓库中不仅包含当前数据，而且包含多年的历史数据。数据的概括程度决定了这些数据压缩和概括的最大限度。如果要让数据仓库提供对历史记录进行决策查询的功能，就必须支持对大量数据的管理。数据的规模不仅直接影响决策查询的时间，而且还将直接影响企业决策的质量。
在数据仓库的开发目标中，还有：根据用户对数据仓库的基本需求，确定数据仓库中数据的含义；确定数据仓库内容的质量，以确定使用、分析和建议的可信级别；哪种类型的数据仓库可以满足最终用户的需求，这些数据仓库应该具有怎样的功能；需要哪些元数据，如何使用数据源中的数据等。数据仓库的开发目标多种多样，十分复杂，需要开发人员和用户在开发与使用的过程中不断交互完善。因此，在规划中需要确定数据仓库的开发范围。使开发人员能够根据需求和目标的重要性逐步进行，并且在开发中吸取经验教训，为数据仓库在企业中的全部实现提供技术准备。因此，在为数据仓库确定总体开发方向和目标以后，就必须确定一个有限的能够很快体现数据仓库效益的使用范围。在考虑数据仓库苦的应用范围时，主要从使用部门的数量和类型、数据源的数量、企业模型的子集、预算分配以及开发项目所需的时间等角度分析。
在分析这些因素时，可从用户的角度和技术的角度两方面进行。从用户的角度应该分析哪些部门最先使用数据仓库？是哪些人员为了什么目的使用数据仓库？以及数据仓库首先要满足哪些决策查询？因为这些决策查询往往确定了关于数据维数、报表的种类，这些因素都将确定数据仓库定义时所需要的数量关系。查询的格式越具体，越容易提供数据仓库的维数、聚集和概括的规划说明。从技术角度分析，应该确定数据仓库中元数据库的规模，数据仓库的元数据库是存储数据仓库中数据定义的模型。数据定义存储在仓库管理器的目录中，可以作为所有查询和报表工具构造和查询数据仓库的依据。元数据库的规模直接表示了数据仓库中必须管理的数据规模。通过对元数据库规模的管理，实际上就确定了数据仓库中所需要管理的数据规模。
3、数据仓库的结构选择
数据仓库的结构可以进行灵活的选择，可将组织所使用的各种平台进行恰当的分割，把数据源、数据仓库和最终用户使用的工作站分割开来进行恰当的设计。
（1）数据仓库的应用结构
基于业务处理系统的数据仓库在这种结构中，将运作的数据用于无需修改数据的只读应用程序中。具有这种结构的数据仓库元数据库是一种虚库，而不是数据仓库自身的元数据。在数据仓库元数据库的直接指导下，对数据仓库的查询就是简单的从数据库中抽取数据。
单纯数据仓库
利用在数据仓库中的数据源净化、集成、概括和集成等操作，将数据源从业务处理系统中传输进集中的数据仓库，各部门的数据仓库应用只在数据仓库中进行。这种结构经常发生在多部门、少用户使用数据仓库的情况下。这里的集中仅仅是逻辑上的，物理上可能是分散的。
单纯数据集市
数据集市是指在部门中使用的数据仓库，因为企业中的各个职能部门都有自己的特殊需要，而统一的数据仓库可能不能满足这些部门的特殊要求。这种体系结构经常发生在个别部门对数据仓库的应用感兴趣，而组织中其他部门却对数据仓库的应用十分冷漠之时，由热心的部门单独开发式所采用。
数据仓库和数据集市
企业各部门拥有满足自己需要的数据集市，其数据从企业数据仓库中获取，而数据仓库从企业各种数据源中收集和分配。这种体系结构是一种较为完善的数据仓库体系结构，往往发生在组织整体对数据仓库应用感兴趣之时所采用的体系结构。
（2）数据仓库的技术平台结构单层结构
单层结构主要是在数据源和数据仓库之间共享平台，或者让数据源、数据仓库、数据集市与最终用户工作站使用同一个平台。共享一个平台可以降低数据抽取和数据转换的复杂性，但是共享平台在应用中可能遇到性能和管理方面的问题，这种体系结构一般在数据仓库规模较小，而组织的业务系统平台具有较大潜力之时所采用。
客户/服务器两层结构
一层为客户机，一层为服务器，最终用户访问工具在客户层上运行，而数据源、数据仓库和数据集市位于服务器上，该技术机构一般用于普通规模的数据仓库。
三层客户/服务器结构
基于工作站的客户层、基于服务器的中间层和基于主机的第三层。主机层负责管理数据源和可选的源数据转换；服务器运行数据仓库和数据集市软件，并且存储仓库的数据；客户工作站运行查询和报表运用程序，且还可以存储从数据集市或数据仓库卸载的局部数据。在数据仓库稍具规模，两层数据仓库结构已经不能满足客户的需求，要讲数据仓库的数据存储管理、数据仓库的应用处理和客户端应用分开之时，可以采用这种结构。
多层式结构
这是在三层机构基础上发展起来的数据仓库结构，在该结构中从最内数据层到最外层的客户层依次是：单独的数据仓库存储层、对数据仓库和数据集市进行管理的数据仓库服务层、进行数据仓库查询处理的查询服务层、完成数据仓库应用处理的应用服务层和面向最终用户的客户层。体系层次可能多达五层，这种体系结构一般用于超规模数据仓库系统。
4、数据仓库使用方案和项目规划预算
数据仓库的实际使用方案与开发预算，是数据仓库规划中最后需要确定的问题。因为数据仓库主要用于对企业管理人员的决策支持，确保其实用性是十分重要的，因此需要让最终用户参与数据仓库的功能设计。这种参与是通过用户的实际使用方案进行的，使用方案是一个非常重要的需求模型。实际使用方案必须有助于阐明最终用户对数据仓库的要求，这些要求有的只使用适当的数据源就可以得到基本满足，而有的却需要来自企业外部的数据源，这就需要通过使用方案将这些不同的要求联系起来。实际使用方案还可以将最终用户的决策支持要求与数据仓库的技术要求联系起来。因为当用户确定最终要求后，为元数据库的范围确定一个界限。还可以确定所需要的历史信息的数量，当根据特定的用户进行数据仓库的规划时，就可确定最终用户所关心的维度（时间、方位、商业单位和生产企业），因为维度与所需要的概括操作有明显的关系，必须选择对最终用户有实际意义的维度，如：“月”、“季度”、“年”等。最后，还可以确定数据集市/数据仓库的结构需要，使设计人员确定采用单纯数据仓库结构，还是单纯的数据集市结构或者是两者相结合的结构。
在实际使用开发方案确定后，还需要对开发方案的预算进行估计，确定项目的投资数额。投资方案的确定可以依据以往的软件开发成本，但是这种预算的评估比较粗糙。另一种方法是参照结构进行成本评估，也就是说，将数据仓库实际使用方案所确定的构件进行分解，根据各个构件的成本进行预算估算。数据仓库的构件包含在数据源、数据仓库、数据集市、最终用户存取、数据管理、元数据管理、传输基础等部分中，这些构件有的在企业原有信息系统中已经具备，有的可以选择商品化构件，有的则需要自我开发。根据这些构件的不同来源，可以确定比较准确的预算。在完成数据仓库规划后，就需要编制数据仓库开发说明书，说明系统与企业战略目标的关系，以及系统与企业急需处理的范围相对有限的开发机会，所设想的业务机会的说明以及目标任务概况说明、重点支持的职能部门和今后工作的建议。数据仓库项目应有明确的业务价值计划开始，在计划中需要阐明期望取得的有形和无形的利益。无形利益包含利用数据仓库使决策完成得更快更好等利益。
业务价值计划最好由目标业务主管来完成，因为数据仓库是用户驱动的，应该让用户积极参与数据仓库的建设，在规划书中要确定数据仓库开发目标的实现范围、体系结构和使用方案及开发预算。

Ⅳ 中心数据库设计

5.2.2.1 数据库

根据该系统的开发需求，按照数据库的功能和作用将其分为风险查询类、风险评价类、系统管理类三大类（萨师煊等，2000）。主要数据见表5.5。

表5.5 海外油气与金属矿产资源开发风险管理系统的主要数据表

续表

5.2.2.2 数据仓库

油价数据来源于美国能源部（DOE）下属的能源信息署（EIA）网站、中石油（CNPC）网站和《华尔街日报》（WSJ）网站提供的油价数据，油价序列本身就是一个不规则的时间序列，油价数据具有以下几个特点。

（1）数据的一致性差

油价数据格式多样，存在数据冗余，主要体现在：使用的数据格式均不相同，并且各个子系统相对独立。在网站单独作用的情况下，一般都没有问题，但要将这些不同系统或不同时期的数据集中起来综合利用，就可能出现数据不齐全、不一致或重复的现象。

（2）数据存放的分散

油价数据来源多，缺乏统一管理，没有一种相应的网页数据自动化抓取操作实现数据的本地化操作过程。

（3）数据资源开发不充分

大容量数据导致对数据资源的开发利用不充分，缺乏对获取的数据如各分析机构制定的期货合约元数据进行各种深层次分析、综合、提炼、挖掘和展现的应用，因此很难对丰富的统计数据资源进行二次开发利用。

根据油价数据中所包含的油气产品种类、油气产品合约制定日期、油气产品的价格类型、不同市场下油气产品价格的差异等，能够加深对油价走势的了解。油价的这种与时间相关性、不可修改性，以及集成的性质，使得我们采用多种角度对原始数据进行理解，并真实反映其特性，也让我们发现使用一种整合的技术对油价进行精确预测十分必要。

数据仓库的构建流程如图5.13所示由下至上逐步实现。

图5.13 数据仓库构建流程

1）数据源。

A.数据源的复杂性。数据分散在数据库管理系统、电子表格、电子邮件系统、电子文档甚至纸上。系统中要求采集的3个数据源中，EIA 网站存储在网页上的油价相关事件更新较慢，虽然提供了各市场日、周、月、年的油价数据下载，但是下载完成之后的表格字段格式时常发生变化，这为实现自动获取数据并下载到本地自动入库的要求增加了难度；中石油网站数据除上述只显示3条数据之外，网站上会将访问流量过大的IP地址列入黑名单使其不能继续下载到本地进行保存，为这些数据建立统一的模型将会耗费很大精力。

B.数据的有效性。由于存在经验局限，如何处理数据的空值、不同时间间隔时间字段格式，入库时应注意的问题等，如果应用程序没有检验数据的有效性，会对数据多维显示产生极大影响，因此也归结为数据源数据质量问题。

C.数据的完整性。数据源上的数据并不那么明显或者容易获得。油价是高度敏感的数据，因此各个网站虽然提供了各个油品交易市场的日、月或年数据，但是完整性并不能充分保证，根据企业政策的不同，有时对要获得的数据，需花费大量精力。为此，要对不同的数据源进行建库，以保证所获数据的完整性。

2）数据处理。

高效的多维数据集展示离不开底层数据源数据的精确获取，或者叫做数据理解和数据清洗。于是系统在基于元数据获取、加工、入库和多维数据集展示上实现预期的要求。

A.ETL。该功能是整个油价数据仓库的核心之一，主要功能是按照事先定义的数据表对应关系从相关系统表中抽取数据（Extraction），经过数据清洗和转换（Transform）,最终把正确的数据装载到数据仓库的源数据中（Load），作为以后应用的基础。

B.数据转换。该功能是在数据抽取过程中按照定义的规则转换数据，避免了数据在分析时的多样性，保证数据一致性。

C.数据集成。该功能主要是把油价信息数据仓库系统的源数据，按照事先定义的计算逻辑以主题的方式重新整合数据，并以新的数据结构形式存储。

3）数据存储。

星型模型（星型架构）是数据仓库开发中多维展现重要的逻辑结构，构成星型模型的几个重要特征是：维、度和属性，在实际应用中表示为事实表和维度表。在油价数据中，各市场的期现货价格表为数据仓库的事实表，油品类型、合约规定日期等为维度表。

油价数据仓库星型模型的设计方案如下：

A.事实表。数据库表中EIA的期现货价格表（包括日、周、月、年表）作为数据仓库中的事实表，根据不同时间维度构成多个星型模型，即星座模型。这些价格表中以市场编号、油气产品类型、期货合约日期、价格单位度量衡编号作为主键和外键与其他维度表相连，形成多维展示联动的基础，以油价数据和其他事实数据为记录数据，作为主要输出结果。

B.维度表。根据市场、油品、价格数据、度量衡和事件类型作为油气数据仓库中多维分析的角度和目标。

图5.14以EIA的日期货数据表作事实表为例，构建星型模型，其他不同时间维度的模型结构图与此图基本相同。

图5.14 以EIA数据为例的日期货价格星型模型

以星型模型设计为基础，完善数据存储中操作型数据存储（ODS）的原型设计，提供DB-DW之间中间层的数据环境，可实现操作型数据整合和各个系统之间的数据交换。

Ⅵ 如何设计、创建一个面向CRM的数据仓库

1 CRM系统

1.1 CRM简介

一个完整的CRM主要可分成3个部分：操作型CRM、协作型CRM和分析型CRM。操作型CRM是CRM中最基本的功能系统，它提供整个CRM的流程管理功能，主要是提供以客户为中心的市场、销售，服务与支持等业务流程的自动化。协作型CRM是以客户服务中心为主要表现形式，以计算机电话集成技术为核心，使客户可以通过电话、传真、E-mail、Web站点等方式更快捷、更有效地与企业进行交互。

分析型CRM是通过对操作型CRM、协作型CRM、其它企业应用系统和外部数据源中保存的与客户相关的数据的集成，建立以客户为中心的数据仓库，获得企业范围内客户数据的一致视图，并以集成后的客户数据为基础，通过查询与报表分析、OLAP分析和数据挖掘等手段获取关于客户的知识，为客户提供个性化的产品和服务，提高客户的满意度和忠诚度，实现客户终身价值的最大化。本文主要针对的是分析型CRM。

1.2在CRM中应用数据仓库的必然性

数据仓库是CRM的中心环节甚至是CRM的灵魂所在，它存储了企业内部和外部的各种数据，并将这些源数据整理成一致的、随时间变化的以及最大限度优化分析的客户信息库，通过OLAF分析和数据挖掘来发现大量客户信息中所隐藏的规律，为企业进行经营决策提供支持。另一方面，它将CRM的业务平台与分析平台进行了有效地分离，使得业务型数据库可以专注于事务处理，既提高了事务处理的效率又优化了分析处理的能力。

传统的企业事务处理系统部是各个部门根据自身事务处理的需要保留部分数据，而且各个模块之间的联系并不紧密，虽然客户的部分信息也能从这些系统中获取，但远远不能满足需要。例如，对于一个典型的以客户行为为目标的分析，通常需要更多的日常积累的、反映历史变化的数据才有可能进行有效地分析，然而在这一点上传统的教据库系统是很难做到的(不论是从数据的存储量还是从数据的整合来考虑)。因此，数据仓库的引入是必然的。

1.3分析型CRM的体系结构

将数据仓库技术引入到对客户信息的管理与组织上来，即建立一个面向CRM应用系统的客户信息数掘仓库，它实现了来自企业内部及外部的多种分割应用的客户信息的集成和统一，这正是分析型CRM的基本任务。如图1所示为分析型CRM的体系结构。其中，客户信息数据仓库是分析型CRM的核心，它的任务主要是从OLTP系统中抽取数据、把抽取出的数据进行统一的格式转换，将数据加载到数据仓库环境中(以上3步称为ETL，即extract，transform，load，抽取，转换，装载)，管理和维护数据仓库中的数据。最后，通过对这些数据的OLAP分析和数据挖掘，企业管理者可以得到许多有价值的信息，从而更好地为客户服务。

建立数据仓库时，这里采用的是一种可扩展的数据仓库体系结构，即中间层包括两种类型的数据库：一种是基本的包含多个主题的数据仓库；另一种足从属的针对某一主题的数据集市。如图1所示，这里根据数据仓库中的4个主题分别设计了4千数据集市。采用可扩展的体系结构，可以缩短数据仓库的建设周期，降低费用支出，并且避免了直接建立数据集市而不建立数据仓库所存在的扩展性较差、多个教据集市间难以保持同步的铗点。

2客户信息数据仓库的设计

设计客户信息数据仓库的第一步就是要确立主题。主题是一个抽象的概念，是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的对象。设计数据仓库首先要从操作型环境中的数据入手，结合决策支持的实际需要，确定数据仓库的主题。根据所涉及的分析型CRM的功能，该客户信息数据仓库包含了客户发展、客户购买、产品和市场营销4个主题。其中，客户购买主题主要是从不同的角度对客户的购买行为进行分析，如客户的购买行为同客户的背景信息之间的关联，其中背景信息主要包括客户的教育程度、收入水平、年龄、性别、是否已婚等。在客户信息数据仓库模型中，分3步来进行设计，分剧是概念模型、逻辑模型和物理模型设计。本文针对某网上书店，以客户购买主题为例，给出该客户信息数据仓库模型的完整的设计方案。

2.1概念模型设计

数据仓库设计中概念模型设计的目的是确定面向主题的信息包围。信息包图作为一种公共的、一致的和紧凑的概念模型设计工具，能够明确反映用户的需求以及实现该需求所需的各种要素及其之间的关系。信息包图由名称、维度、类别和度量组成，其中类别表述的是维的层次性。

该网上书店的客户信息数据仓库中客户购买主题信息包图如图2所示。其中，对于图书有3种分类方法，前两种较常见，还有一种是按图书存在形式分类，可分为普通图书、Vbook和Ebook。普通图书即传统纸制图书，Ebook指以计算机和网络为载体的电子图书，Vbook是一种新的多媒体演示、培训、商业交流的载体，具备音频和视频的功能，如各领域专家的讲座，教学考试类培训课程等。随着计算机的普及和网络的发展，Ebook和Vbook越来越受到读者的青睐。

2.2逻辑模型设计

数据仓库的逻辑模型一般有星型模型和雪花模型两种。星型模型是基于关系型数据库的、面向OLAP的一种多维数据模型的数据组织形式，它由事实表和多个维度表组成，通过使用一个包括主题的事实表和多个包含事实的非正规化描述的维度表来执行决策支持查询，从而获得比高度规范化设计结构更高的查询性能。

雪花模型虽然较星型模型更符合规范化的设计结构，但它增加了查询的复杂度，降低了查询的性能，因此，这里采用星型模型。

星型模型的建立要以概念模型中的信息包圈为基础，将信息包图转换为星型模型，具体方法为：将信息包图中的度量实体放入星型模型的中心位置上，信息包图中的维度实体放入度量实体的周边。该客户信息数据仓库中客户购买主题的逻辑模型。

2.3物理模型设计

物理模型是指教据在数据仓库中的存放形式和组织形式。设计物理模型，要在星型模型或雪花模型的基础上，确定事实表和维表的结构；明确二者的数据字段、数据类型、关联字段、索引结构；确定数据仓库中多维数据集的存储结构，如物理存取方式、数据存储结构、数据存放位置以厦存储分配是否分区等。进行物理模型设计时，应重点考虑的因素有I／O存取时间、空间利用率和维护代价。

目前大多数数据仓库都是建立在关系型数据库的基础上，基终数据的存储是由数据库系统进行管理的。在该数据仓库的设计中，选用MSSQLServer2000及其组件分析服务器来作为数据库和数据仓库的管理系统。数据仓库在逻辑上是多维的，但在物理存储上其多维数据集的存储方式可以有关系型联机分析处理(，ROLAP)，多维联机分析处理(，MOLAP)和混台联机分析处理(，HOLAP)3种方式。

在该数据仓库中，多维数据集的存储选择HOLAP方式，即基本数据保留在原有的关系数据库中，而聚合体则存储在分析服务器上的多维结构中，这样不仅可以避免数据重复，还能够提高查询性能(因为聚合体存储在多维数据集中)，仅在频繁访问详细数据时对性能影响较大。

3 实现

针对该网上书店，此数据仓库的实施是以MSSQLServer2000平台为基础。通过SQLServer中的DTS服务，并辅以VBScript来实现将源数据导入数据仓库的ETL过程；通过AnalysisServices来建立多维数据集，实现OLAP操作，支持多维查询袁达式(multidimensionalexpression，MDX)查询，并通过自动构造MDX语句，实现上卷、下钻、切片、切块、旋转等OLAP运算。

该客户信息数据仓库共包含了客户发展、客户购买、产品和市场营销4个主题，对客户购买主题的OLAP分析示例。其中，用户可以从客户所在地区、年龄层、性别、婚姻状况，职业、年收入层、会员星级、图书一按内容分类、图书按出版社分类、图书一按存在形式分类及时间共11个维度，来分析客户购买数量、金额、成本、利润及平均单价这5个度量。

此外，利用AnalysisServices所提供的数据透视表服务，用户可以用VB或其它语言开发自己想要的前端数据展现程序，也可以直接利用现有工具，如MSOffice套件中的Excel、Access，来实现对多维数据集的数据展现功能，从而可以方便地得到各种统计报表和分析图形。利用Excel展现了对2005年不同年龄层的客户对不同种类图书的购买情况的利润分析。

Ⅶ 数据库数据

简而言之，数据库是面向事务的设计，数据仓库是面向主题设计的。

数据库一般存储在线交易数据，数据仓库存储的一般是历史数据。

数据库设计是尽量避免冗余，一般采用符合范式的规则来设计，数据仓库在设计是有意引入冗余，采用反范式的方式来设计。

数据库是为捕获数据而设计，数据仓库是为分析数据而设计，它的两个基本的元素是维表和事实表。维是看问题的角度，比如时间，部门，维表放的就是这些东西的定义，事实表里放着要查询的数据，同时有维的ID。

单从概念上讲，有些晦涩。任何技术都是为应用服务的，结合应用可以很容易地理解。以银行业务为例。数据库是事务系统的数据平台，客户在银行做的每笔交易都会写入数据库，被记录下来，这里，可以简单地理解为用数据库记帐。数据仓库是分析系统的数据平台，它从事务系统获取数据，并做汇总、加工，为决策者提供决策的依据。比如，某银行某分行一个月发生多少交易，该分行当前存款余额是多少。如果存款又多，消费交易又多，那么该地区就有必要设立ATM了。

显然，银行的交易量是巨大的，通常以百万甚至千万次来计算。事务系统是实时的，这就要求时效性，客户存一笔钱需要几十秒是无法忍受的，这就要求数据库只能存储很短一段时间的数据。而分析系统是事后的，它要提供关注时间段内所有的有效数据。这些数据是海量的，汇总计算起来也要慢一些，但是，只要能够提供有效的分析数据就达到目的了。

数据仓库，是在数据库已经大量存在的情况下，为了进一步挖掘数据资源、为了决策需要而产生的，它决不是所谓的“大型数据库”。那么，数据仓库与传统数据库比较，有哪些不同呢?让我们先看看W.H.Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。

“面向主题的”:传统数据库主要是为应用程序进行数据处理，未必按照同一主题存储数据;数据仓库侧重于数据分析工作，是按照主题存储的。这一点，类似于传统农贸市场与超市的区别—市场里面，白菜、萝卜、香菜会在一个摊位上，如果它们是一个小贩卖的;而超市里，白菜、萝卜、香菜则各自一块。也就是说，市场里的菜(数据)是按照小贩(应用程序)归堆(存储)的，超市里面则是按照菜的类型(同主题)归堆的。

“与时间相关”:数据库保存信息的时候，并不强调一定有时间信息。数据仓库则不同，出于决策的需要，数据仓库中的数据都要标明时间属性。决策中，时间属性很重要。同样都是累计购买过九车产品的顾客，一位是最近三个月购买九车，一位是最近一年从未买过，这对于决策者意义是不同的。

“不可修改”:数据仓库中的数据并不是最新的，而是来源于其它数据源。数据仓库反映的是历史信息，并不是很多数据库处理的那种日常事务数据(有的数据库例如电信计费数据库甚至处理实时信息)。因此，数据仓库中的数据是极少或根本不修改的;当然，向数据仓库添加数据是允许的。

数据仓库的出现，并不是要取代数据库。目前，大部分数据仓库还是用关系数据库管理系统来管理的。可以说，数据库、数据仓库相辅相成、各有千秋。

补充一下，数据仓库的方案建设的目的，是为前端查询和分析作为基础，由于有较大的冗余，所以需要的存储也较大。为了更好地为前端应用服务，数据仓库必须有如下几点优点，否则是失败的数据仓库方案。

1.效率足够高。客户要求的分析数据一般分为日、周、月、季、年等，可以看出，日为周期的数据要求的效率最高，要求24小时甚至12小时内，客户能看到昨天的数据分析。由于有的企业每日的数据量很大，设计不好的数据仓库经常会出问题，延迟1-3日才能给出数据，显然不行的。

2.数据质量。客户要看各种信息，肯定要准确的数据，但由于数据仓库流程至少分为3步，2次ETL，复杂的架构会更多层次，那么由于数据源有脏数据或者代码不严谨，都可以导致数据失真，客户看到错误的信息就可能导致分析出错误的决策，造成损失，而不是效益。

3.扩展性。之所以有的大型数据仓库系统架构设计复杂，是因为考虑到了未来3-5年的扩展性，这样的话，客户不用太快花钱去重建数据仓库系统，就能很稳定运行。主要体现在数据建模的合理性，数据仓库方案中多出一些中间层，使海量数据流有足够的缓冲，不至于数据量大很多，就运行不起来了。
是否可以解决您的问题？

Ⅷ 建设内容

(一)科研建设

技术方法优势明显，研究方向明确，科研问题典型或普遍，技术示范性强，研究内容具体，且长期固定，具有符合基地发展的研究项目，能依托基地形成科研团队并完成科研成果、如研究报告、获奖项目、专利、主要文章、主要技术方法和产品等。具备进行现场观察与研究、技术试验的条件等基础设施。

(二)场地建设

对于观测类基地应有一个或多个支撑科学研究的观测或数据采集点(站)。基地建设要紧密结合科学研究方向和任务，科研基地选区位于重要地质构造带、成矿(藏)区带以及能够解决地学科学问题的区域，具有代表性和典型性，交通和自然条件相对较为便利。应该突出科研特色，因此总体规划建设应本着全面规划，分步实施，滚动发展，逐步完善的原则，使基地能持续、协调发展，即要突出重点，又要注重全局，整体推进。野外观测与实验研究基地的规模可根据学科发展方向和科研重点建设，不一定强调规模大小，根据需要有的可能就是一个观测站，有的可以大到集观测、实验、开发、综合研究于一体的实体。场所建设应根据基地的研究内容尽量多样化，避免千篇一律的“四合院厢房”式风格。

基地应有固定的场所和展室，大型基地可建设展览馆。场地由科研用房、展示用房、辅助用房、观测与实验设备、标本与岩心库、剖面与地质遗迹等组成。小型的观测基地可根据其研究内容和任务具体确定。基地观测点(站)应具备数据采集和处理的基本功能。基地展室是基地的主要组成部分，是利用图片、文字、模型、实物、影视及信息系统等多媒体形式，集中展示基地内科研内容、研究成果、地质现象、地质遗迹、矿山史迹，普及科学文化知识，并可作为科研、科普互动的场所。

1.选址原则

特色性原则：基地选择要突出科研特色，学科特色，区域特色，紧密结合科学研究方向和任务，应满足本专业科技发展的需要，基地场所的条件要符合科研工作的研究方向，支撑学科发展，如选择在典型地质结构和构造带、典型地质剖面、典型矿山、能反映重大地质问题或容易得到观测数据的地区。基地周围应有一定的社会资源配套条件，应该充分挖掘基地资源的优势和特色，将其所具备的科学、自然、历史、文化等一系列的内容，有重点、有目标地发展成为一些科技活动的项目，实现基地科研性、创新性、服务性、观摩性、教学性、知识性统一的特点。

可持续发展原则：基地建设应坚持长期性的原则，统一布局，分步实施，制定好近期和中长期建设规划。基地要为科研提供稳定性的基础数据，通过长期的观测，为地质活动规律，灾害防治等有关地学科学问题的解决提供科学依据，建设初期要充分考虑基地长期性、稳定性的特点，要以科学的发展观为指导，以永续利用为前提，要保持可持续发展的能力。

保护性原则：对于矿山和有地质遗迹类的基地，保护原则更为重要，它们是科研和观摩的重要资料，也是旅游的重要资源。有些基地拥有珍贵的矿业资源、地质现象、地貌景观、自然及人文资源，其中很多都是不可再生资源，在建设中要首先突出保护性原则，尤其是对矿业、地质遗迹要进行严格保护。基地兼顾文化传承作用，科学普及和旅游发展主要依托其珍贵的矿业遗迹和优越的自然环境，因而应坚持在保护基础之上进行科学合理的开发利用。要根据矿业遗迹不同的级别和类型，严格划定其保护范围，制定相应的保护措施，并协调处理好遗迹保护、科学研究、开发利用之间的关系，加强引导性规划措施，使这些矿业遗迹能够完整、持久地展现在世人面前，实现资源保护、提高生态环境质量与社会发展相协调。

2.场地规划

在确定场地位置、类型、范围、规模的基础上，综合协调各方面的关系，要合理区划基地的功能分区，统筹安排基础设施、科研设施、服务设施、展示设施、保护设施等。根据基地综合发展需要，结合地域特点来设置不同类型的功能分区，进行功能分区是为了调节控制功能特征，以便针对基地的类型和特征分区，进行合理的设计与建设，实施恰当的建设强度和管理制度，即有利于展现和突出基地的分区特点，也有利于加强基地的整体特征。基地功能分区，应主体鲜明，特色显着，应突出各个分区的特点，便于管理，控制各分区的规模，解决各个分区间的分隔、过渡与联系关系，基地设计应尽量维护原有自然资源、人文资源、矿业、地质遗迹资源的相对完整性，

3.路线设计

要根据基地内的各类地层剖面、地质遗迹、矿业遗迹、主要数据观测点、主要设备布置点、展室以及人文景观和自然景观等资源的分布形式的特点，对基地的各种资源按照一定的方式进行有机地组合设计，使整个基地形成完整的资源结构体系，并按科研工作流程设计观摩路线。

基地的布局和建设要突出基地的主题，观摩点必须以基地主题为主，突出基地主题的发展历史，将科研与自然景观、人文景观融为一体。做好基地的静态空间布局与动态空间布局的紧密结合，处理好动与静之间的关系，使之协调成为有机的艺术整体。观摩点的连续序列布局应按基地的内在规律进行安排，运用多种构景手法，形成即多样统一、又特色鲜明的展示系列。

以基地总体规划为基础，按照基地地理位置和科学内容，按照展示内容最多、又不重复又不遗漏、不同路线各有侧重、最大限度地展示基地的科研特征和自然特征的原则，设计观摩路线，各条路线应该有主要的标示和内容的说明。

在合理布局，充分利用各种方式，提供丰富的观摩内容的前提下，考虑到参观过程的阶段性和空间序列变化的节奏感，线路的安排要做到由“启景—高潮—结景”，逐步引人入胜。线路的布置还要做到在保证安全、保护环境的基础上尽量便捷，使参观者在最短的时间内了解基地的主要科研内容和研究主体，并感受基地的精华所在和体会基地的多种效益功能。

(三)标牌标识

基地的标牌是基地的重要组成部分，是基地的形象工程。标志牌是一种通过文字、图像、图形表达传递信息功能的牌子，一般有标志碑(图)、标识牌(图)、电子屏、标志物，其功能有说明牌、引导牌、提醒标志、服务标志、管理标志。标牌制作应注意：标识牌制作要坚持标牌与基地主题相协调原，主题突出，特征鲜明，形象完整，就地取材，厉行节约，标牌规模与样式组合相协调，尽量采用国际通用形象标志，文字书写采用中英两种文字，且规范、美观，表达准确，语言友善。

标识牌的设计：标识牌设计制作中要注意与基地特征相符合，与基地环境相协调，突出基地特色，把握其引导性、知识性、宣传性和装饰性功效，要重视规范性和系统性。标识牌要反映特定科研环境的文化内涵和鲜明突出的形象特征。设计要有系统的视觉面貌，重视设计对于造型、色彩、文字、图案设计等标识设计，在设计过程中，参与设计的所有成员必须统一思路、统一宏观与细节，除了在设计概念方面的一致性外，还需要制作标识手册，其中包括：用色、字体、形式、尺寸、材料等制作方案，以确保施工过程的准确无误和设计的完整性。

(四)文字展示材料

(1)基地的基本概况(名称、地理位置、自然条件、区域地质与构造、成矿地质背景、经济社会状况)。

(2)基地的科研概况，基地建设的意义、主要科学任务和主要研究内容。(根据类型介绍，包括研究历史、科研成果和科技贡献概况，地质、找矿理论、模式、模型、理论创新、技术方法创新等主要研究成果介绍及出版物、奖、专利等情况，承担国家、部门和地方的研究任务与经费、存在的重要科学问题、进一步开展的研究工作和研究方向等)。

(3)科研基地使用的主要技术方法，场地及基础设施、主要仪器等(方法原理及特点、技术方法研发、优选和改进，技术方法适用范围、适用条件等)。

(4)科研基地的主要地质现象概况(包括典型的野外现象现状和保护措施)。

(5)支撑基地的科研队伍和科技人员概况(科研基地负责人、研究团队的概况，人才培养情况，基地合作交流情况，承担项目情况等。

(6)科普知识。根据深入浅出、即通俗易懂又严谨科学的原则，介绍基地内的科研过程，研究工作的目的意义，研究成果的应用、地质现象、科研设备、地质遗迹和相关的地学知识。

(7)文字表述要内容翔实，图文并茂，言简意赅。

(五)实物标本

实物标本的内容比较多样：可以是基地内遗迹的典型标本，可以是相关地质知识所涉及的实物标本，也可以是其他地质剖面提供的有典型意义的标本，还可以是与地质相关的使用工具、科研人员生活用具等人文资源实物标本等。

(六)图件

原理图：在基地中，原理图主要表现为仪器设备的工作原理、科研工作流程，原理图力争简单、明了、准确，有些工作流程在科研项目中也是十分重要的，甚至关系科研的整体质量。

模式图：基地的模式图包括地质构造演化模式、矿床成因模式、地下水循环模式、技术方法工作模式等，要求模式图清晰，反映的问题符合逻辑，图标、图例标准规范。

地质图：地质图是将沉积岩层、火成岩体、地质构造等的形成时代和相关地质体、地质现象，用图例表示在某种比例尺的地形图上的一种图件，是表示地壳表层岩相、岩性、地层年代、地质构造、岩浆活动、矿产分布等地图的总称。地质图编制要按照相应的图幅编图规范编制，力求图面轮廓清楚，内涵丰富，达到科学性、专业性、艺术性、实用性相结合。

剖面图：剖面图是用规定的符号、花纹和颜色按一定的比例，沿一定的方向，标示一定距离内、地下一定深度内地质现象的图件。剖面图要求图名、图例、比例尺、方位准确，各单元布置合理，地质、地层界线、颜色清晰。

平面图：这里的平面图是基地布局或规划的平面图，也可以是反映基地全貌的示意图。包括工作区地理位置及交通条件、标高点、基地整体布局、地质现象、矿床等，在图上应反映出地物大致的位置、相互间的距离。

(七)声像资料

视频材料是基地宣传最直观、最生动的方式，可以制作成光盘向观众发放。成功的光盘制作，应该以一个好的脚本为基础，脚本要根据实际资料，突出基地特色，以科学性、通俗性的方式编写，文字内容简练、准确。光盘最好请专业人员，用较为专业的设备制作，对抽象性的科学问题尽量使用三维动画的形式处理，整个制作过程应该有地质专家参与和指导。

(八)实验设备建设

基地根据类型和承担科技工作的需要，应有一定的科研设备与实验仪器，设备与仪器建设一般分为：观测系统、采集系统、传输系统、处理系统、显示系统、实验设备(固定设备、移动设备)等，基地根据不同类型，应配备相应的设备和数据应用研究系统，仪器设备应附有标牌和使用注意事项。对于技术方法类基地，至少能满足一种或一套技术方示范的需求。

实验设备是基地开展科研和获取观测和实验数据的重要手段，可分为固定设备和移动设备。实验设备安装时都有详细的说明书，说明书中给出的安装环境和环境参数，在野外安装时除按设备说明书的要求，还应注意防雨、防雷电，移动设备要有安全的存放处，各种设备应建立使用日志，对于共享和开放设备应有专人登记保管。所有设备应置于安全处，并标有明显的标志，如仪器设备功能作用、使用说明、安全注意事项等。

(九)数据建设

1.数据库建设

对于科研数据，数据库建设尤为重要，数据库建设要选好建设平台，尽量选用通用成熟的软件，建立统一管理平台，避免多源异构的现象，给用户使用造成困难。尽可能实现野外观测数据从采集、描述、建库、处理、表达和服务的全过程数字化，要建立有效的数据库更新与维护机制，保证数据资源的现势性。应配备冗余存储介质和备份系统，有条件的可实现镜像系统实时备份，对重要历史数据实行双备份。

2.数据共享与服务

数据共享是基地的主要开放内容之一，除正常开展学术交流，提供信息共享应是基地的责任，要提高信息共享与社会化服务意识，制定相关信息共享办法，建立地质数据统一的信息共享与服务基础平台，有条件的可建设数据共享与远程调用系统，同时要注意保密和保护知识产权。

3.网站建设

基地应建立自己的网站，通过网站宣传基地的研究内容、研究报告和研究成果，提高信息服务和成果共享的能力。网站制作总体上分为策划、前台和后台3部分。一般都是由3种不同专业的人合作完成，网站设计一般由团队完成。

(十)人才建设

基地应该至少有一个科研团队，在此开展长期的科研工作。基地应有固定研究人员、客座研究人员和辅助科研人员，有条件的基地可采取开放课题的做法，吸引更多的科学家来基地从事科研工作。基地还应应配备专职管理人员和兼职工作人员，负责基地日常管理工作。基地应开展人员培训工作，一般情况每年应不少于两次。

(十一)运行与管理

基地的运行机制是“产、学、研结合，开放、竞争、协作”。应制定相应的基地管理办法，包括基地管理办法、项目管理办法、合作研究管理办法、数据共享管理办法、安全保密管理办法、主要仪器设备操作规程、参观须知、应急预案、基地活动日志等。

(十二)科学普及建设

1.科普材料

科普材料要以单行本的形式制作，要求简单通俗，深入浅出，图文并茂，即通俗易懂又严谨科学，内容包括：基地建设的主要内容和意义、对国家经济发展和人们生活的影响，基地的科研概况、主要科学任务、科研成果，基地地理位置、交通条件、地质背景、地质遗迹、主要设备与技术方法等，如矿山类可介绍矿山历史、矿床名称、矿种、矿石组合、开采深度、储量、品位、围岩基岩、矿床类型、成矿时代、构造单元、找矿及开采历史过程、本矿山主要产品的用途等相关的地学知识。

2.科普材料制作要求

科学性：科学性是指科普材料制作的内容要符合客观实际，反映出事物的本质和内在规律，符合逻辑，即概念、原理、定义和论证等内容叙述清楚，实验材料、实验数据、实验结果是否可靠等。科普材料制作要体现科学的“简单性原则”，就是把解释复杂现象的规律，越简单越好，越简单越可能使公众接近客观真理，更容易获取地学知识。基地承担着大量的科研任务，学科门类复杂，涉及地质、构造、岩石、矿物、地下水、地球物理、地球化学、地质灾害等，并在研究中不断探索地质演化、成矿模式、地下水循环、地球物理和地球化学效应等内部自然规律，特别是基地错综复杂的观测数据，应用更简单、更形象的方式呈现给公众，用科学的语言，简单明了的道理解释说明基地的研究过程、成果及复杂的地质现象的意义，使公众更贴近生活，进一步崇尚科学，提高保护地球、保护资源的意识。

通俗性：基地除进行正常的科研外，还要承担科学普及的工作，特别是公益性研究单位的研究工作应该对社会和公众有回馈。科普材料在保证科学性前提下，必须注重通俗性，尽量用通俗的语言和形象的比喻，通俗语言容易达到意义明晰、单纯、易于理解的效果；必须用专业术语的应附有普通解释，对科研工作应用浅近的道理阐述深奥的概念或道理，简洁明了，通俗易懂；尽量选用大众常用的语言，俗语或惯用语，通俗语言的应用自然会使公众有明确的认识，增进更深一层的理解。

艺术性：基地材料在科学性、通俗性的前提下，应增加其艺术性和趣味性。科学关注的是客观事实，艺术则依赖个体的感受，要把枯燥乏味的科学研究变为大众喜闻乐见的形式，采用生动活泼的表现形式，增加欣赏性，让公众在轻松愉快的气氛中更好地获得知识，提高对科学的认知，了解科学的本质。

可视性：基地除制作音像制品外，三维可视化也是除科研工作表达形式外的科普有利工具，三维可视化是用于显示描述和理解地下及地面诸多地质现象特征的一种工具，广泛应用于地质和地球物理学各领域。三维可视是描绘和理解模型的一种手段，是数据体的一种表征形式。它能够利用大量数据，检查资料的连续性，发现和提出有用的规律，为分析、理解及重复数据提供了有用工具，对多学科的交流协作起到桥梁作用。三维可视化既是一种解释工具，也是一种成果表达工具。三维体可视化解释是通过对来自于地下界面的地震反射率数据体采用各种不同的透明度参数在三维空间内直接解释地层的构造、岩性及沉积特点。这种三维立体扫描和追踪技术可使解释人员快速选定目标，结合精细的钻井标定，可帮助解释人员准确快速的描述各种复杂的地质现象。对公众展示三维可视化时，尽量要遵循通俗易懂的原则，增强其观赏性。

互动性：互动性主要是人的心理交感和行为交往过程，这些在互动行为中表现出来的相互作用、相互影响的特性被称为互动性。基地进行科普时，应注意科普相互作用、相互影响的效应。随着公众科技水平的提高，他们对科普活动的要求也越来越高，很多人已经不再满足被动的科普，他们盼望科普活动主动起来、互动起来，从静态转向动态，从围观转为参与。在活动时科学家与公众展开富有意义的交流，可以迅速、准确、个性化地获得信息、反馈信息。如向参观现场演示某种地质现象的发生，在某些环节上可以问答；某些项目的测试工作，可以在专家指导下由公众完成，互动是一种主动认知的学习方式，是科学知识传播的最理想方式。互动也可以用沟通、讨论、问答的方式进行。

(十三)环境建设

1.绿色基地建设

基地在规划时就要注意其环境建设，遵守国家环保规定，结合基地类别和专业特色，建造一些特殊景观，应考虑设施安排合理，环境友好。基地要保持实验设备、设施及室内外环境清洁卫生。因科研需要进行施工时，尽量不要破坏环境，把损失降到最低。基地范围内的沟、坑、井、洞，必须加装盖板，确保使用安全方便。不得随意排放废气、废水、固体废弃物“三废”物质和噪声，对“三废”要妥善处理，对噪声要积极防治。

废弃物处理：基地在科研过程中可能会产生一些废弃物，要根据具体情况做好废气、废水和废物的处理工作，避免污染环境。处理主要包括废物的破碎、焚化、填埋、分解、吸收等。特别在处理废物时，应避免产生二次污染，对有毒有害废物应确保不致对人和环境产生危害。

实验环境保护：基地人员要提高科研与实验环境保护的意识，避免实验设备、样品和实验环境的污染，包括噪音、震动、电磁、废气、废水、废物、粉尘、垃圾、放射性物质、化学物质等对采集数据和实验数据的污染，以提高采集数据的可用性和实验数据的真实性。

2.遗迹保护

地质遗迹是在地球演化的漫长地质历史时期，由地球内外动力的地质作用，形成发展并遗留下来的不可再生的各种地质体，是地球历史的“档案”和地球学科研究的依据，是自然资源或生态环境的重要组成部分。其主要类型包括：有重大观赏和重要科学研究价值的地质地貌景观；有重要价值的地质剖面和构造形迹；有重要价值的古人类遗址、古生物化石遗迹；有特殊价值的矿物、岩石及其典型产地；有特殊意义的水体资源；典型的地质灾害遗迹等。矿业遗迹是矿业开发过程中探、采、选、冶、加工等活动，以及遗物和史籍等遗留下来的踪迹和与采矿活动相关的实物，是人类矿业活动的历史见证。地质遗迹和矿山遗址具有重大的观赏和科学研究价值，是宝贵的自然资源和文化遗产，是人类的财富。重要地质遗迹要按照《地质遗迹保护规定》进行保护，坚持保护优先、科学为本、可持续利用的原则，要掌握地质遗迹资源的变化规律，为保护地质遗迹提供科学依据。地质遗迹保护点的建设内容主要根据保护等级，采用立碑标示、工程隔离、整治修复、动态监测等几种方式。

地质剖面：对于地质矿床类的基地来说反映地质遗迹的主要是地质剖面，地质剖面是研究地层、岩体、构造和矿床的基础资料，对追溯地质历史、矿床成因等具有重大科学研究价值和科学研究意义。典型矿床自然属性集中表现是矿床的地质剖面，它通过由各种矿物、岩石组成的地层及证明层序关系的古生物遗迹，由地层构成的地质构造遗迹，直接或间接的找矿标志等，集中反映了矿床的各种典型特征。尤其对典型层型剖面(含副层型剖面)、生物化石组合带地层剖面，岩性岩相建造剖面及典型地质构造剖面和构造形迹，具有国际或国内大区域地层(构造)对比意义的典型剖面、化石及产地，有区域地层(构造)对比意义的典型剖面、化石及产地、典型矿床地质剖面保护极为重要。对地质剖面首先要确定保护主体，制订保护计划，然后按照相关保护要求对重要地质剖面进行围栏设置、标志物、防洪沟槽、地质剖面标志碑牌、生态恢复等建设，使之成为科普、科考的重要基地。

矿山遗址：对于矿山类的基地，应该把矿业遗迹的保护放在首位，基地建设应将矿山遗迹与周围的环境有机地结合，恢复和保护自然环境，推动可持续发展。矿业遗迹分为珍稀级、重要级和一般级，根据分级按照相关要求进行保护。珍稀级：具有全球或大区域典型意义的矿产地质遗迹，能为世界矿业发展史提供重要证据的矿业遗迹，具有代表当时国际先进科学技术水平的矿业遗迹；重要级：具有区域典型意义的矿产地质遗迹，能为国家矿业发展史提供重要证据的矿业遗迹，具有代表当时全国先进科学技术水平的矿业遗迹；一般级：具有地区典型意义的矿产地质遗迹，能为地区矿业发展史提供重要证据的矿业遗迹，具有代表当时地区先进科学技术水平的矿业遗迹。

矿山设备：对于矿山类基地可能包括与矿业开发的各种活动遗留下来的废旧矿山设备，包括勘查、探矿、采矿、选矿、运输、冶炼、加工、配套设施、人文活动等设备、设施。对这类设备的保护应采取保持或恢复其原貌，修旧如旧，尽量保持原貌，展示当时的社会和科学发展水平。对于一些淘汰的废旧设备可将它们稍微整理，向人们展示设备的结构构造，让人们学到更多的知识。对有些残缺不全的废旧设备还可以进行巧妙的利用，不同的部件可巧妙地组合成一系列艺术品，提高艺术欣赏价值。

(十四)安全建设

1.消防安全

基地消防安全建设可参照中华人们共和国公共安全行业标准《社会单位消防安全四个能力建设标准》建设，提高“四个能力”和以落实“六化”为核心内容的消防安全标准建设。即提高检查消除火灾隐患能力、扑救初起火灾能力、组织疏散逃生能力、消防宣传教育能力；落实消防组织制度规范化、标准悬挂统一化、设施器材标识化、重点部位警示化、培训演练经常化、检查巡查常态化。针对基地的实际情况，具体实现必要的建设内容，配备相应的灭火器材、装备和个人防护器材，制定和完善事故应急处置操作程序，规范基地自身消防安全管理行为，建立消防安全自查，火灾隐患自除，消防责任自负的自我管理与约束机制，全面提高自身的消防安全管理水平。

2.有害及危险品安全

对于有些类型的基地可能存放具有易燃、易爆、有毒、致病菌、腐蚀、放射性等性质的固体、液体、气体或化学药品等，对于这类物品应参照国务院颁布的《化学危险物品安全管理条例》的有关规定进行管理。对于有毒有害物品要严格履行保管和使用手续。化学危险品要保管应该科学化，储存在通风、低温、阴凉、干燥的房子内，保管地点应有相应的防火、防爆、防静电、隔离、监测、报警等设施，特别要注意性质相抵触的危险品绝对不能堆放在一起，接触化学危险品、剧毒及致病微生物等的仪器设备和器皿必须有明确醒目的标记，使用后及时清洁，特别是维修保养或移至其他场地前必须进行彻底的净化，管理人员应具备急救知识，使用化学危险品的地方应备齐急救器材和用品。

3.劳动防护安全

基地的劳动保护目的是为科研人员、工作人员和参观人员创造安全、卫生、舒适的工作和学习条件，消除和预防科技活动中可能发生的伤害、中毒等，要认真贯彻“安全第一，预防为主”的方针，提高安全意识，强化安全制度，努力改善工作条件。对有些开展钻探、物探、仪器设备操作等专有设备以及含有工程施的基地，要做好安全防护工作，同时对接触有毒、有害化学危险品进行实验必须谨慎小心，严格按操作规程进行，做好安全保护工作，制定相应的管理办法和操作规程，设立醒目的警示标志，必要时应有人员监护。

4.专有设备安全

这里指的是基地专有的大型仪器、精密仪器、稀有仪器的技术安全，使用人员首先要了解仪器使用说明书，熟悉操作程序，工作人员要树立高度的安全责任感。清洁、整齐、有序的环境是保证仪器精度、维护设备使用寿命的前提条件。大型精密仪器要逐台建立技术档案，要有使用、维修等记录，定期对仪器的性能指标进行校检和标定，对精度和性能降低的仪器要及时进行修复，保证科研实验数据的准确。

5.应急演练

基地应按照应急预案，安排一次应急演练，通过演练，明确各部门、各岗位人员应急管理和处置突发事件的工作职责，检验各种制度的落实程度，提高果断快速应对如火灾等突发事件的应急处置能力和安全意识，评估基地应急准备状态，突发事件应急能力，发现并修改应急预案和执行程序中的缺陷和不足。

Ⅸ 企业如何更好的搭建数据仓库

0 引言
随着计算机应用的深入，大量数据存储在计算机中，信息的存储、管理、使用和维护显得越来越重要，而传统的数据库管理系统很难满足其要求。为了解决大数据量、异构数据集成以及访问数据的响应速度问题，采用数据仓库技术，为最终用户处理所需的决策信息提供有效方法。
1 数据仓库
数据仓库是为管理人员进行决策提供支持的一种面向主题的、集成的、非易失的并随时间而变化的数据集合。数据仓库是一种作为决策支持系统和联机分析应用数据源的结构化数据环境。
从目前数据仓库的发展来讲，数据可以存放于不同类型的数据库中，数据仓库是将异种数据源在单个站点以统一的模型组织的存储，以支持管理决策。数据仓库技术包括数据清理、数据集成、联机分析处理（OLAP）和数据挖掘（DM）。OLAP是多维查询和分析工具，支持决策者围绕决策主题对数据进行多角度、多层次的分析。OLAP侧重于交互性、快速的响应速度及提供数据的多维视图，而DM则注重自动发现隐藏在数据中的模式和有用信息。OLAP的分析结果可以给DM提供分析信息，作为挖掘的依据；DM可以拓展OLAP分析的深度，可以发现OLAP所不能发现的更为复杂、细致的信息。OLAP是联机分析处理，DM是通过对数据库、数据仓库中的数据进行分析而获得知识的方法和技术，即通过建立模型来发现隐藏在组织机构数据库中的模式和关系。这两者结合起来可满足企业对数据整理和信息提取的要求，帮助企业高层做出决策。在欧美发达国家，以数据仓库为基础的在线分析处理和数据挖掘应用，首先在金融、保险、证券、电信等传统数据密集型行业取得成功。IBM、oracle、Teradata、Microsoft、Netezza和SAS等有实力的公司相继推出了数据仓库解决方案。
近几年开始流行“分布式数据仓库”，是在多个物理位置应用全局逻辑模型。数据被逻辑地分成多个域，但不同位置不会有重复的数据。这种分布式方法可以为不同的物理数据创建安全区域，或为全球不同时区的用户提供全天候的服务。此外，有由Kognitio发起数据仓库托管服务，即DBMS厂商为客户开发和运行数据仓库。这种最初出现在业务部门，业务部门购买托管服务，而不是使用企业内IT部门提供的数据仓库。
2 数据挖掘技术
数据挖掘（DataMining），又称数据库中的知识发现（KnoWledge Discoveryin Database，KDD），是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值并最终可为用户理解的模式过程。它是数据库研究中的很有应用价值的新领域，是人工智能、机器学习、数理统计学和神经元网络等技术在特定的数据仓库领域中的应用。数据挖掘的核心模块技术历经数十年的发展，其中包括数理统计、人工智能、机器学习。从技术角度看，数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中，提取隐含在其中的、人们所不知道的、但又是潜在有用的信息和知识的过程。从商业应用角度看，数据挖掘是崭新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理，从中提取辅助商业决策的关键知识。
从技术角度讲，数据挖掘可应用于以下方面：
（1）关联规则发现是在给定的事物集合中发现满足一定条件的关联规则，简单来讲，就是挖掘出隐藏在数据间的相互关系，为业务主题提供指导。
（2）序列模式分析和关联规则发现相似，但其侧重点在于分析数据间的前后关系。模式是按时间有序的。序列模式发现是在与时间有关的事物数据库中发现满足用户给定的最小支持度域值的所有有序序列。
（3）分类分析与聚类分析，分类规则的挖掘实际上是根据分类模型从数据对象中发现共性，并把它们分成不同的类的过程。聚类时间是将d维空间的n个数据对象，划分到k个类中，使得一个类内的数据对象间的相似度高于其他类中数据对象。聚类分析可以发现没有类别标记的一组数据对象的特性，总结出一个类别的特征。
（4）自动趋势预测，数据挖掘能自动在大型数据库里面寻找潜在的预测信息。一个典型的利用数据挖掘进行预测的例子就是目标营销。数据挖掘工具可以根据过去邮件推销中的大量数据找出其中最有可能对将来的邮件推销作出反应的客户。
3 联机分析（OLAP）处理技术
联机分析（OLAP）是数据仓库实现为决策提供支持的重要工具，是共享多维信息，针对特定问题的联机数据访问和分析的快速软件技术。是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来，能够真正为用户所理解，并真实反映企业维特性的信息进行快速、一致、交互地存取，从而获得对数据的更深入了解的一类软件技术（OLAP委员会的定义）。OLAP的特性包括：①快速性：系统应能在5s内对用户的大部分分析要求做出反应；②可分析性：能处理与应用有关的任何逻辑分析和统计分析；⑨多维性：多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析，包括对层次维和多重层次维的完全支持；④信息性：系统应能及时获得信息，并能管理大容量信息。
OLAP的数据结构是多维，目前存在方式：①超立方结构（Hypercube），指用三维或更多的维数来描述一个对象，每个维彼此垂直。数据的测量值发生在维的交叉点上，数据空间的各部分都有相同的维属性（收缩超立方结构。这种结构的数据密度更大，数据的维数更少，并可加入额外的分析维）；②多立方结构（Multicube），即将超立方结构变为子立方结构。面向某特定应用对维分割，它具有强灵活性，提高了数据（特别是稀疏数据）的分析效率。分析方法包括：切片、切块、旋转、钻取等。
OLAP也被称为共享的多维数据的快速分析FASMI，应用在数据密集型行业，如市场和销售分析、电子商务的分析、基于历史数据的营销、预算、财务报告与整合、管理报告、利益率、质量分析等。
4 小结
采用数据仓库的数据挖掘及联机分析技术实现的决策支持系统，是弥补传统辅助决策系统能力不足的有效途径，具有重要的现实意义。

Ⅹ 石油勘探开发数据资源规划方法研究

文必龙计秉玉

（中国石化石油勘探开发研究院信息技术研究所，北京 100083）

摘要当前的各种IT规划方法和软件工程方法在指导石油企业进行数据资源规划时，需要结合石油勘探开发数据资源管理的特点进行具体化。本文分析了石油勘探开发数据资源管理方面的现状及特点，提出了基于业务驱动的石油勘探开发数据资源规划方法，给出了构建勘探开发业务模型、数据资源目录的方法，以及数据中心的总体架构，为石油勘探开发数据资源规划提供了完整的方法论。

关键词数据资源业务驱动业务模型数据中心

Research on Method of Petroleum Exploration and Proction

Data Resource Planning Based on Business－driven

WEN Bilong，JI Bingyu

（Dep.of Information Technology，Exploration and Proction Research

Institute，SINOPEC，Beijing 100083，China）

Abstract To guide data resource planning，the IT planning methods and software engineering theory need to be specified according the features of petroleum data resource management.The features in petroleum exploration and proction data resource management are analyzed，and a method of data resource planning based on business－driven is put forward，that presents the approaches how to build petroleum exploration and proction business model and data resource catalogs，and architecture of data centre.These provide a complete methodology to plan petroleum exploration and proction data resource.

Key words data resource；business－driven；business model；data centre

在油气勘探开发综合研究过程中，需要从海内外油田收集大量的数据，同时综合研究成果中包含了大量的数据，如各种图表、报告。为了管理和应用这些数据，各研究部门纷纷开展了与项目研究相关的数据资料管理系统的建设，但由于缺少统一的规划，在数据资源的建设和管理中存在以下问题：数据库建设 “小、散、杂”，难以管理；数据分散存储，数据之间的逻辑关联度低，不能集成共享；数据收集困难；缺少专门的数据服务机制，数据应用困难。因此，有必要对油气勘探开发综合研究的勘探开发数据资源进行统一规划，即开展数据管理与应用需求分析，从总体上设计数据中心建设方案。

数据资源规划（Data Resource Planning，DRP）的方法主要是基于软件工程理论和IT战略规划的各种方法论。目前多数国际知名的IT咨询公司均采用企业架构（Enterprise Architecture，EA）这一先进理论方法，例如TOGAF企业架构框架，制定具有自身特点的IT规划编制方法论，并在企业规划咨询项目中应用，取得了良好效果^［1］。针对数据资源，高复先在信息工程方法论的基础上，总结出了一套信息资源规划（Information Resource Planning，IRP）方法^［2］。IRP方法以面向主题数据库的总体数据规划方法为基础，按照一定的方法步骤、遵循相关标准规范、利用有效的软件支持工具进行各职能域的信息需求和数据流分析，制定信息资源管理基础标准，建立全域和各职能域的信息系统框架——功能模型、数据模型和系统体系结构模型。

本文根据EA理论和IRP方法，结合油气勘探开发综合研究的特点，提出了一套基于业务驱动的勘探开发数据资源规划方法。

1 数据规划的基本思想

数据资源规划是采用科学合理的方法，对企业生产经营过程中产生和使用的数据的相关内容、标准、技术、软件、人员、支撑条件等进行全面梳理、优化和设计，提出全面的数据资源采集、传输、存储、应用、管理的解决方案，以便企业提高数据的共享程度，降低数据采集、管理、应用的成本，发挥数据资源的最大价值。

数据资源规划的目的是优化企业数据管理质量。这包括提高数据共享程度，降低数据采集、管理、应用的成本，提升数据资源的价值等。其中，首先要向企业不同层级提供相关的信息。对决策层，提供的信息包括：有哪些数据资产，还要投资建设哪些，数据投资效果如何，是否有重复建设；对管理层，提供的信息包括：数据保存在哪里，谁在管理，哪些人在使用，数据质量如何；对执行层，提供的信息包括：有什么数据，数据在哪里，如何获取数据，如何提交成果；对信息服务部门，提供的信息包括：业务部门需要什么数据，如何使用这些数据。

数据资源规划的目标是提出一个数据资源建设解决方案。通过实施方案，可以建立企业数据中心及配套的建设和管理体系，达到数据资源规划的目的。数据资源规划的内容包括梳理数据需求，即数据内容；设计数据相关标准，包括数据元标准、数据采集标准、数据管理标准、数据代码标准等等；设计数据建设和管理的技术方案；数据管理和服务的软件体系架构；数据建设的组织架构和配套制度等。

数据资源规划的过程如图1所示。如果把数据中心的建设作为一个完整的软件工程项目，数据资源规划位于需求分析阶段和概要设计阶段。在项目实施中，还需要进一步根据规划的各项方案进行详细设计、系统开发、系统测试和运行维护。

在数据资源需求分析阶段，通过调研，梳理当前勘探开发综合研究的业务范围、研究活动、已经建立的数据库及数据内容、应用软件及部署情况。根据调用情况建立业务模型，用规范化的方式描述各项研究活动及每项活动的数据需求，并对数据流进行分析，形成统一的数据资源目录。需求分析阶段最终成果是需求分析报告，核心内容由一组规范组成，包括业务模型、数据资源目录、数据元目录、数据流规范。

概要设计阶段主要任务是依据数据需求进行方案设计，形成数据资源建设方案，具体包括：综合数据库建设方案、综合研究数据服务与管理平台建设方案、数据中心运维体系。形成数据模型、数据服务功能、数据管理功能、数据汇交管理流程、数据管理与服务组织架构等总体架构，并形成数据中心建设的项目框架。通过数据资源建设方案明确了数据如何存储，如何控制数据质量，数据如何建设，数据如何管理，数据如何获取、提交、应用等问题。

图1 数据资源规划过程

图2 数据资源规划的成果及其之间的关系

在项目实施阶段，还需要根据数据资源建设方案，对每一个项目进行详细设计和开发。

数据资源规划的成果包括数据资源需求分析报告和数据中心建设方案。需求分析报告中，包含了业务模型、数据资源目录和数据元目录，数据中心建设方案包括数据库和数据模型在内的数据库建设方案、数据服务与管理平台、数据中心运行维护体系。

图2给出了这些成果及其之间的关系。业务模型中的每一个业务活动使用和产生的每一类数据都应在数据资源目录中进行注册，数据资源目录中的每一类数据都要用一个或多个数据元进行描述。数据库中的数据实例应该归类到数据资源目录中，数据元与数据模型之间要建立映射关系。根据上述关系，应用软件或用户可以根据业务活动利用数据服务与管理平台非常方便地从数据中心获取需要的数据。

2 基于6W的业务模型

业务模型（Business Model）是一种通过定义组成活动及活动之间逻辑关系来描述企业经营生产过程的模型。勘探开发业务建模就是要将石油勘探开发生命周期中涉及的业务抽象为一个完整的业务功能结构，建立勘探开发业务模型。建立此模型，在系统地、本质地、概括地把握勘探开发功能结构的同时，还要建立勘探开发业的数据模型、知识模型、软件模型等与功能相关的信息模型。

业务分析与建模过程从形式上可分为4个阶段：一是业务领域划分；二是分业务领域建模；三是业务模型集成；四是业务模型标准化。

业务模型采用 “业务域－业务分类－业务活动” 3层结构。将石油勘探开发涉及的所有业务划分为多个业务域，每个业务域建立多级业务分类，每个分类中定义一个或多项最基本的业务活动。

业务域（Business Domain）是对企业中的一些主要业务活动领域的抽象，而不是现有机构部门的照搬。对油田业务域的划分可以依据某一主题进行。业务领域的划分原则是：(1)根据专业划分业务领域；(2)根据油气田勘探、开发生命周期划分业务领域；(3)根据油气田勘探、开发管理阶段划分管理业务域。业务领域的划分参照以上3种原则进行划分，尽量符合油气田勘探、开发管理约定俗成的管理习惯，做到不同业务域间的业务不重复，并保证能覆盖所有的勘探、开发业务。根据以上原则，油气勘探开发业务领域可划分为“物化探”、“井筒工程”、“分析化验”、“综合研究”、“油气生产”、“地面工程” 等六大业务领域。

业务是由一系列业务活动组成的，对业务活动的描述按照 “6W” 的模式进行^［3］，即活动是由谁（Who）发起的、在什么时间（When）发起的、在哪里（Where）发起的、为什么（Why）要发起这个活动、在这个活动中都涉及了哪些（Which）对象、这些对象的特性是什么（What）。采用业务单元定义了参与业务活动的基本元素以及元素之间的关系。一个业务单元包括以下8类元素：1个业务活动，该活动作用的1个业务对象，实施该活动的组织机构，1组结果对象（输出），1组参与对象（输入），业务规则，相关对象的特性，对象之间的关系。业务单元的结构如图3所示。

业务单元中，“特性” 定义了业务活动需要的数据、业务活动相关的知识，是数据规划中梳理的重点；“参与对象” 包括各种人员、软件、数据、设施、材料、方法等；“作用对象” 包括区块、油藏、井、层位、油田、企业等；“结果对象” 可以是油井等油田实物对象，也可以是文档、方法、研究成果等技术性对象。

基于6W的业务模型的建模通过在统一的业务域分类架构下对单一业务活动的业务单元进行描述，没有进行专门的业务流程梳理，但由于业务单位中描述了业务活动参与对象与结果对象，即定义了活动的输入与输出，以这些对象为中介，因此很容易自动形成业务流、数据流、知识流等各种流程。

业务活动与数据之间的关系可以用 “CUR” 矩阵描述。矩阵中，行对应业务活动，列对应数据元。如果业务活动中创建了某一项数据则行列对应的值标识为 “C”（Create），如果业务活动对数据进行了更新则标识为 “U”（Update），如果业务活动引用了某一项数据则标识为 “R”（Read）。通过CUR矩阵，可以检查某一数据是否有唯一的创建源头，保证数据源头的唯一性。根据CUR关系，可以自动形成数据流。

图3 业务单元的结构

3 勘探开发数据资源目录

勘探开发数据资源目录是对油田企业、勘探开发研究院或中国石化整体已有和需要数据的分类与组织方式描述。数据资源目录描述了企业需要什么数据、有什么数据、数据在哪里、谁在管理数据、哪些人在使用、哪些应用软件在使用等信息。数据资源目录既是一个数据建设单位的数据分类与数据组织规范，也是数据中心进行数据管理与服务平台的核心元数据，同时也是用户建设和使用数据的依据。

数据资源目录的分类模式是多维的，可以从不同角度进行分类。常用的维度包括：

（1）按业务对象组织。包括区块、油藏、井、层位、油田、企业等，除对象本身的基础数据（如井基础信息）即通常所说的静态数据外，还包括该对象的各种动态数据（如井的日报数据）。

（2）按业务活动组织。根据业务模型的 “业务域－业务分类－业务活动” 3层结构进行分类，每一个业务都有一组按 “CUR” 标识的数据。

（3）按特性组织。按数据或知识本身的特性进行分类，如长度、密度、渗透率等。

（4）按项目组织。一个项目使用和产生的数据有哪些。

（5）按单位组织。一个部门使用、产生、管理的数据有哪些。

数据资源目录的各个维度是相互关联的，对象、活动、特性、项目、单位之间的关系如图4所示。

除建立分类目录外，数据资源目录还包括数据实例，因此需要将数据分类与数据库中的实例关联起来，明确标识出每一类包括哪些实例。分类与实例关联的方式主要采用数据集进行定义，通过数据实例的标识符、标识条件确定数据集中的实例^［4］。数据资源分类在数据需求分析阶段完成，分类与数据实例的关联在数据中心运行期间形成。

数据资源目录中数据分为两级：逻辑数据实体和属性。从技术角度，逻辑数据实体的本质就是数据视图，一个数据视图是一个虚数据表，每一个数据视图由多个属性组成，其中至少包括一个关键字。实体的属性用数据元进行描述。数据元是不必要再分的基本数据单元^［5］。当前可直接参照中国石化石油勘探开发数据元字典^［6］。

4 数据中心的总体架构

不同企业数据中心的架构会有所不同^［7］。本文以中国石化石油勘探开发研究院的数据中心为例，说明数据中心建设方案。数据中心包括综合研究勘探开发数据库、数据服务与管理平台、数据中心运维体系，如图5所示。

图4 数据资源分类维度之间的关系

图5 综合研究勘探开发数据中心

勘探开发数据库包括元数据和专业数据。元数据是以数据资源目录为核心，描述了专业的分类、目录、结构、使用动态等信息。外购数据库、地理信息数据库由于来源于外部，自带有成熟的管理软件，属于公共数据，独立于具体的项目研究。由于地震数据和测井数据有专门的格式，由专门的软件进行管理，但要与项目数据进行关联。项目资料与成果主要以文件形式保存，对共享程度较高的数据需要从半结构化的文件形式转换为结构化数据，数据之间相互关联，实现数据的集成。综合研究应用软件有自己内部的项目数据库，通过数据桥技术可以实现在线数据访问。数据通道用于实现石油勘探开发研究院数据中心与中国石化各级数据中心的互联。

综合研究数据服务与管理平台的主要功能包括：GIS研究目标查询、地震剖面显示、测井曲线显示、资料查询、资料搜索、资料提交、资料下载、系统管理、数据发布等。

数据中心运维体系包括运维管理组织机构、数据资料上交管理、数据服务管理3个部分。运维管理队伍的职能包括数据库系统管理、数据服务支持、数据质量控制等。数据资料上交管理按照数据流和数据生命周期，对各环节进行规范管理，包括：外部数据申请、数据采集、原始资料上交、个人/项目组资料管理、成果上交、数据流程调整（数据资料目录注册与注销）、安全与权限、审核与验收等内容。数据服务管理通过数据服务管理制度，规范数据服务行为，建立数据服务技术规范，通过数据应用服务接口规范，为应用系统提供标准的服务接口。

5 结论

数据资源规划方法提出了一套适合石油勘探开发领域开展数据资源建设的方法论。从勘探开发业务需求出发，通过梳理业务流程，建立业务模型，并梳理与业务相关的数据，建立数据资源目录，在此基础上提出完成的数据中心建设方案，从人员组织、数据建设、服务平台构建及运维管理进行规划。数据资源规划方法成功应用于中国石化油气勘探开发数据模型标准建设，开发了中国石化业务模型（Sinopec Business Model，SPBM），定义了物化探、井筒工程、分析化验、综合研究、开发生产、地面工程六大业务域，包括1237个业务活动，对每一个与业务活动相关的数据项进行了梳理。进一步的研究工作将把数据资源规划方法应用于中国石化石油勘探开发研究院数据资源建设，通过研究院业务进行调研，结合SPBM，建立综合研究数据资源目录，设计数据中心建设方案。针对中国石化石油勘探开发研究院综合研究的数据资源规划成果可进一步推广应用于石油行业各石油公司的综合研究数据资源建设。

参考文献

［1］金涛，郑树泉，李名敏，等.企业架构驱动的IT规划方法研究［J］.计算机应用与软件，2009，26（12）：164～166.

［2］高复先.信息资源规划——信息化建设基础工程［M］.北京：清华大学出版社，2002.

［3］肖波，景帅，吴建军，马承杰.模型驱动技术在油田企业数据中心中的应用研究［J］.大庆石油学院学报，2012，36（1）：78～82.

［4］时贵英，文必龙.基于数据元的数据集成技术研究［J］.科学技术与工程，2011，11（18）：4223 ～4227.

［5］Wen Bilong，Zhang Li.Defining semantics for data element with semantic tree［C］.Proceedings of 2008 International Symposium on Information Science and Engineering，2008.12：524～527.

［6］文必龙，肖波，陈新荣.石油勘探开发数据元管理技术［J］.大庆石油学院学报，2012，36（1）：83～87.

［7］李剑峰，肖波，段鸿杰.中国石化油田企业数据中心总体框架设计［J］.大庆石油学院学报，2012，36（1）：73～76.

主题数据库建设方案

与主题数据库建设方案相关的内容