信息资料的存储_信息怎么储存

A. 如何对信息文件资料进行存储谢谢了，大神帮忙啊

1.登记（1）登记的含义：登记即建立信息的完整记录（2）登记分为两种类型，分别是总括登记，即对存储信息按批分类登记；个别登记，即按信息存储顺序逐件登记（3）登记的形式有两种：卡片式登记、簿册式登记 2.编码（1）编码要求：编码结构应表示出信息的组成方式及关系（2）编码步骤：分析所有预编信息；选择最佳的编码方法；确定数码的位数。（3）编码的两种方法：顺序编码法及按信息发生的先后顺序或统一标准编码；分组编码法即利用十进位阿拉伯数字按后续数字来分别信息的大、小类

B. 信息怎么储存

计算机通过存储系统来完成信息的保存和提取。

存储系统是指计算机中由存放程序和数据的各种存储设备、控制部件及管理信息调度的设备（硬件）和算法（软件）所组成的系统。计算机的主存储器不能同时满足存取速度快、存储容量大和成本低的要求，在计算机中必须有速度由慢到快、容量由大到小的多级层次存储器，以最优的控制调度算法和合理的成本，构成具有性能可接受的存储系统。

在计算机系统中存储层次可分为高速缓冲存储器、主存储器、辅助存储器三级。高速缓冲存储器用来改善主存储器与中央处理器的速度匹配问题。辅助存储器用于扩大存储空间。

信息存取过程中，存储系统必须完成逻辑地址空间和物理地址空间之间的变换，并且合理地管理存储系统资源。逻辑地址是指程序员编制的程序地址，由它构成逻辑地址空间。程序主存储器中的实际地址称为物理地址，由它构成物理地址空间。存储映像基本上分为两种情况：一种是逻辑地址空间小于物理地址空间，映像要求可以访问所有的物理存储器；另一种是逻辑地址空间大于物理地址空间，映像要确定每个逻辑地址实际所对应的物理地址。

最后补充下“静态内存”和“动态内存“的区别：

1.静态内存是指在程序开始运行时由编译器分配的内存，它的分配是在程序开始编译时完成的，不占用CPU资源。程序中的各种变量，在编译时系统已经为其分配了所需的内存空间，当该变量在作用域内使用完毕时，系统会自动释放所占用的内存空间。变量的分配与释放，都无须程序员自行考虑。如:基本类型，数组。

2.动态内存：用户无法确定空间大小，或者空间太大，栈上无法分配时，会采用动态内存分配。

3.二者区别:

a) 静态内存分配在编译时完成，不占用CPU资源; 动态内存分配在运行时，分配与释放都占用CPU资源。

b) 静态内存在栈(stack)上分配; 动态内存在堆(heap)上分配。

c) 动态内存分配需要指针和引用类型支持，静态不需要。

d) 静态内存分配是按计划分配，由编译器负责; 动态内存分配是按需分配，由程序员负责。

C. 古代和现代信息存储的方法和工具有什么区别

1、信息载体

最早，数手指头、结绳记事、石头代替法、在洞穴岩壁上绘画；之后竹简、木简、金属容器表面、帛、丝绸、蔡伦造纸、阔叶植物的叶子（热带地区）、动物皮、纸张等。

如今，纸张是人们较为广泛使用的信息载体，而且磁性存储介质、电子信息存贮介质，光学存储介质等也已渗入你我的生活。

未来，人们会探索储存密度更大，存储状态更稳定的信息载体。如生物存储——用DNA存储信息。

2、记录方法

最早，“以物记物”或“借物记物”，即用更易于携带的事物代替所要记录的事物，但此时所有的“物”都是现实意义上的物。之后，人类懂得了用更加简练的符号代替事物。从“象形文字”到后来不断发展更新的的“现代文字”。

而且，随着计算机的发展，人们利用二进制数字的简洁特点，将二进制数字与信息通过公式转换进行关系对应，从而能利用上面所说的磁性存储介质（磁盘）光学存储介质（光盘）或电子信息存贮介质（内存、U盘）进行记录。

3、信息处理工具
手稿演算，算盘，计算器等.

(3)信息资料的存储扩展阅读：

信息储存是将获得的或加工后的信息保存起来，以备将来应用。信息储存和数据储存应用的设备是相同的，但信息储存抢跳储存的思路，为什么要储存这些数据，以什么方式储存这些数据、存在什么介质上，将来有什么用处，对决策可能产生的效果是什么等。只有正确的舍弃信息，才能正确使用信息。

信息储存和数据储存应用的设备市相同的，但信息储存强调储存的思路，即为什么要储存这些数据，以什么方式储存这些数据，存在什么介质上，将来有什么用处，对决策可能产生的效果是什么等。

参考资料：信息存储—网络

D. 文本信息的存储格式有哪些

1、HTML

HTML作为一种编程语言，有指定的语法规则。超文本传输协议规定了浏览器在运行HTML文档时所遵循的规则和进行的操作。协议的制定使浏览器在运行超文本时有了统一的规则和标准。

2、PDF

PDF具有良好的加密特性，一般很多企业单位在办公时候都会有一些比较重要的文件，考虑到因素都会对文档进行加密保护，从而有效地避免PDF文档被人打印、修改。

3、JPEG

JPEG它可以把文件容量压缩到最小的格式。JPG支持不同程度的压缩比，您可以视情况调整压缩倍率，压缩比越大，品质就越低；相反地，压缩比越小，品质就越好。不过要注意的一点是，这种压缩法属于失真型压缩，文件的压缩会使得图形品质下降。

4、GIF

GIF采用LZW压缩算法来存储图像数据，并采用了可变长度等压缩算法。GIF的图像深度从1 bit到8 bit，也即GIF最多支持256种颜色的图像。

GIF格式的另一个特点是其在一个GIF文件中可以存多幅彩色图像，如果把存于一个文件中的多幅图像数据逐幅读出并显示到屏幕上，就可构成一种最简单的动画。

5、PSD

PSD其实是Photoshop进行平面设计的一张"草稿图"，这种格式包含了图形中的图层、通道、遮罩、选取区等Photoshop可以处理的属性，这样全方位的储存如果运用得当的话，几乎可以将您创作的过程留下完整的纪录，以便于下次打开文件时可以修改上一次的设计。

E. 计算机中所有信息的存储都采用

二进制。

二进制（binary）在数学和数字电路中指以2为基数的记数系统，以2为基数代表系统是二进位制的。这一系统中，通常用两个不同的符号0（代表零）和1（代表一）来表示。

数字电子电路中，逻辑门的实现直接应用了二进制，因此现代的计算机和依赖计算机的设备里都用到二进制。

(5)信息资料的存储扩展阅读

二进位计数制仅用两个数码。0和1，所以，任何具有二个不同稳定状态的元件都可用来表示数的某一位。而在实际上具有两种明显稳定状态的元件很多。例如，氖灯的"亮"和"熄"；开关的”开“和”关“。

电压的”高“和”低“、”正“和”负“；纸带上的”有孔“和“无孔”，电路中的”有信号“和”无信号“, 磁性材料的南极和北极等等，不胜枚举。

利用这些截然不同的状态来代表数字，是很容易实现的。不仅如此，更重要的是两种截然不同的状态不单有量上的差别，而且是有质上的不同。这样就能大大提高机器的抗干扰能力，提高可靠性。

F. 计算机中的信息都是以什么形式存放的

计算机中所有信息都是以二进制的形式存储在电脑内部的。

数字电子电路中，逻辑门的实现直接应用了二进制，因此现代的计算机和依赖计算机的设备里都用到二进制。每个数字称为一个比特（Bit，Binary digit的缩写）。

(6)信息资料的存储扩展阅读：

计算机采用二进制原因

1、二进位计数制仅用两个数码。0和1，所以，任何具有二个不同稳定状态的元件都可用来表示数的某一位。而在实际上具有两种明显稳定状态的元件很多。

2、二进位计数制的四则运算规则十分简单。而且四则运算最后都可归结为加法运算和移位，这样，电子计算机中的运算器线路也变得十分简单了。不仅如此，线路简化了，速度也就可以提高。这也是十进位计数制所不能相比的。

3、在电子计算机中采用二进制表示数可以节省设备。可以从理论上证明，用三进位制最省设备，其次就是二进位制。但由于二进位制有包括三进位制在内的其他进位制所没有的优点，所以大多数电子计算机还是采用二进制。

G. 储存信息的原理

U盘是芯片.
硬盘是盘片.
u盘是半导体材料制作的，记录的加电的信号
硬盘是磁盘，就象磁带一样的东西，不过它有扇区，柱面，磁道，磁头==

一、U盘基本工作原理
U盘是采用Flash芯片存储的，Flash芯片属于电擦写电门。在通电以后改变状态，不通电就固定状态。所以断电以后资料能够保存。
Flash芯片的擦写次数在10万次以上，而且你要是没有用到后面的空间，后面的就不会通电

通用串行总线（Universal serial Bus）是一种快速灵活的接口，

当一个USB设备插入主机时，由于USB设备硬件本身的原因，它会使USB总线的数据信号线的电平发生变化，而主机会经常扫描USB总线。当发现电平有变化时，它即知道有设备插入。

当USB设备刚插入主机时，USB设备它本身会初始化，并认为地址是0。也就是没有分配地址，这有点象刚进校的大学生没有学号一样。

正如有一个陌生人闯入时我们会问“你是什么人”一样，当一个USB设备插入主机时，，它也会问：“你是什么设备”。并接着会问，你使用什么通信协议等等。当这一些信息都被主机知道后，主机与USB设备之间就可以根据它们之间的约定进行通信。

USB的这些信息是通过描述符实现的，USB描述符主要包括：设备描述符，配置描述符，

接口描述符，端点描述符等。当一个U盘括入主机时，你立即会发现你的资源管理器里多了一个可移动磁盘，在Win2000下你还可以进一步从主机上知道它是爱国者或是朗科的。这里就有两个问题，首先主机为什么知道插入的是移动磁盘，而不是键盘或打印机等等呢？另外在Win2000下为什么还知道是哪个公司生产的呢？其实这很简单，当USB设备插入主机时，主机首先就会要求对方把它的设备描述符传回来，这些设备描述符中就包含了设备类型及制造商信息。又如传输所采用的协议是由接口描述符确定，而传输的方式则包含在端点描述符中。

USB设备分很多类:显示类,通信设备类,音频设备类,人机接口类,海量存储类.特定类的设备又可分为若干子类,每一个设备可以有一个或多个配置，配置用于定义设备的功能。配置是接口的集合，接口是指设备中哪些硬件与USB交换信息。每个与USB交换信息的硬件是一个端点。因些，接口是端点的集合。

U盘应属于海量存储类。

USB海量存储设备又包括通用海量存储子类,CDROM,Tape等，U盘实际上属于海量存储类中通用海量存储子类。通用海量存储设备实现上是基于块/扇区存储的设备。

USB组织定义了海量存储设备类的规范，这个类规范包括4个独立的子类规范。主要是指USB总线上的传输方法与存储介质的操作命令。

海量存储设备只支持一个接口,即数据接口,此接口有三个端点Bulk input ,Bulk output,中断端点

这种设备的接口采用SCSI-2的直接存取设备协议,USB设备上的介质使用与SCSI-2以相同的逻辑块方式寻址

二、 Bulk-Only传输协议

当一个U盘插入主机以后，主机会要求USB设备传回它们的描述符，当主机得到这些描述符后，即完成了设备的配置。识别出USB设备是一个支持Bulk-Only传输协议的海量存储设备。这时应可进行Bulk-Only传输方式。在此方式下USB与设备之间的数据传输都是通过Bulk-In和Bulk-Out来实现的。

硬盘，英文名称是 Hard disk，发明于1950年。开始的时候，它的直径长达20英寸；并且只能容纳几MB（兆字节）的信息。最初的时候它并不称为Hard disk ，而是叫做“fixed disk"或者"Winchester"（IBM产品流行的代码名称）；如果在某些文献里提到这些名词，我们知道它们是硬盘就可以了。随后，为了把硬盘的名称与"floppy disk"（软盘）区分开来，它的名称就演变成了"hard disk"。硬盘的内部有磁盘，作为保存信息的磁介质；而磁带和软盘里面则使用柔韧的塑料薄膜作为磁介质。

在简单的标准上，硬盘与盒式磁带并没有太大的区别。所有的硬盘和盒式磁带都使用相同的磁性技术录制信息，这点将在“磁带录音机是怎么工作的有介绍”，但这已经不是属于IT硬件的范畴了。硬盘和磁带录音机都从磁存储技术获得最大的效益--磁介质可以轻易地进行擦除和复写，并且信息将记录在磁道里，储存的信息可以永久保存。
想明白硬盘工作原理的最好途径是看清楚它的内部结构。注意：打开硬盘会损坏硬件，因此朋友们不要自己尝试，当然你有一个损坏的硬盘就另当别论了。
硬盘使用了铝片把表面给密封了起来，而另外的一边则布满了控制用的电子元件。电子控制器控制硬盘的读/写机制，还有转动盘片的马达。电子元件还把硬盘磁区域的信息汇编成byte(读），并把bytes转化为磁区域（写）。这些电子元件被装配在与硬盘盘片分开的小电路板上。
在电路板下面是连接盘片的马达，还有采用了高度过滤的通风孔，以便维持硬盘内部和外部的空气压力平衡。
移开了硬盘的顶盖之后，展现在大家眼前的是非常简单但却精密的内部结构。
盘片--当硬盘在工作的时候，它可以转动5,400或者72,00 rpm(通常的情况下，当然最快也有10,000rpm,SCSI硬盘甚至达到了15,000rpm)。这些盘片制造的时候有惊人的精确度，并且表面如镜子般光滑。（你甚至还在盘片里看到了作者的肖像）
臂--位于左上角，是用来保持磁头的读/写控制机制，能够把磁头从盘片的中心移动到硬盘的边缘。臂和它的移动机制相当的轻，并且速度飞快。普通的硬盘每秒可以在盘片中心和边缘之间来会移动50次，如果用肉眼看的话，速度真的是非常惊人。
为了增加硬盘储存的信息量，很多硬盘都使用了多盘片的设计。我们打开的硬盘有三个盘片和6个读/写的磁头。
硬盘里面保持臂的移动速度和精确度都达到了不可置信的地步，它使用了高速的线性马达。
很多硬盘使用了音圈（Voice coil)的方法来移动臂部--与你的立体声系统中扬声器使用的技术类似。

数据的储存
数据储存在盘片表面的扇区(Sector)和磁道(track)里，磁道是一系列的同心圆，而扇区则是磁道组成的圆状表面，如下：
上图黄色部分展示的就是典型的磁道，而蓝色部分则是扇区。扇区包括了固定数量的byte---例如，256或者512byte。无论是在硬盘还是在操作系统水平，扇区都通常组成群集(cluster)。
硬盘的低级格式化过程在盘片上建立了扇区和磁道，每个扇区的开始和结束部分都被写到了盘片上，这个处理使硬盘准备开始以byte的形式保持数据。高级格式化则写入文件储存的结构，例如把文件分配表写入到扇区，这个过程使硬盘准备保持文件。

H. 在一家公司上了两天班自离了，资料信息能保存多久

在许多中小型企业，自身管理不完善，根本没有HR单位，惹人呀，合同书呀，全是办公室人员做兼职的，在这种情况下，不管老总对外开放吹嘘的企业经营管理有多完善，在HR信息管理方法这一款，员工辞职后，信息很难得到合理储存的，有些乃至针对职工信息，都滞留在手机通讯录的层面上，日趋完善的正规公司，以纸制为主导的，很有可能储存1-3年，针对一些出示经营规模的企业，拥有专业的资料管理员，那样在管理体系上，便会确立的要求各种材料的保留周期时间，到期的档案及其材料，会按时消毁，一般不是很关键的材料文档，如个人简介等，储存周期时间以1-3年比较多，有在线系统的大企业，信息有可能是永久的

换句话说，自员工在用人公司工作中的第一天，即彼此建立劳动关系之日起，用人公司就应当为员工缴纳社会保险费。用人公司理应在消除或是劳动合同解除时开具消除或是劳动合同解除的证实，请在十五日内为员工办理档案和社保的关系迁移办理手续。员工理应按照彼此承诺，申请办理交接工作。用人公司按照此方法有关规定理应向职工付款经济补偿金的，在受理交接工作时付款。用人公司对已消除或是停止的劳动合同书的文字，最少储存二年备查簿。

I. 在计算机内部，信息的存储、处理、传送都是采用（）。

二进制。

计算机采用二进制原因

首先，二进位计数制仅用两个数码。0和1，所以，任何具有二个不同稳定状态的元件都可用来表示数的某一位。而在实际上具有两种明显稳定状态的元件很多。

例如，氖灯的"亮"和"熄"；开关的”开“和”关“; 电压的”高“和”低“、”正“和”负“；纸带上的”有孔“和“无孔”，电路中的”有信号“和”无信号“, 磁性材料的南极和北极等等，不胜枚举。利用这些截然不同的状态来代表数字，是很容易实现的。

不仅如此，更重要的是两种截然不同的状态不单有量上的差别，而且是有质上的不同。这样就能大大提高机器的抗干扰能力，提高可靠性。而要找出一个能表示多于二种状态而且简单可靠的器件，就困难得多了。

其次，二进位计数制的四则运算规则十分简单。而且四则运算最后都可归结为加法运算和移位，这样，电子计算机中的运算器线路也变得十分简单了。不仅如此，线路简化了，速度也就可以提高。这也是十进位计数制所不能相比的。

第三，在电子计算机中采用二进制表示数可以节省设备。可以从理论上证明，用三进位制最省设备，其次就是二进位制。

但由于二进位制有包括三进位制在内的其他进位制所没有的优点，所以大多数电子计算机还是采用二进制。此外，由于二进制中只用二个符号 “ 0” 和“1”，因而可用布尔代数来分析和综合机器中的逻辑线路。这为设计电子计算机线路提供了一个很有用的工具。

第四，二进制的符号“1”和“0”恰好与逻辑运算中的“对”（true)与“错”（false）对应，便于计算机进行逻辑运算。

(9)信息资料的存储扩展阅读：

一、十进数转成二进数

整数部分，把十进制转成二进制一直分解至商数为0。读余数从下读到上，即是二进制的整数部分数字。小数部分，则用其乘2，取其整数部分的结果，再用计算后的小数部分依此重复计算，算到小数部分全为0为止，之后读所有计算后整数部分的数字，从上读到下。

二、二进制化为八进制

把二进制化为八进制也很容易，因为八进制以8为基数，8是2的幂（8=23），因此八进制的一位恰好需要三个二进制位来表示。八进制与二进制数之间的对应就是上面表格中十六进制的前八个数。二进制数000就是八进制数0，二进制数111就是八进制数7，以此类推。

J. 大数据下的地质资料信息存储架构设计

颉贵琴胡晓琴

(甘肃省国土资源信息中心)

摘要为推进我国地质资料信息服务集群化产业化工作，更大更好地发挥地质资料信息的价值，本文针对我国现有的地质资料信息集群化共享服务平台存在的缺陷和问题，基于现有系统的存储架构，设计了一种大数据下的地质资料信息存储架构，以便于我国地质资料信息服务集群化产业化工作能够适应大数据时代的数据存储。

关键词大数据地质资料存储 NoSQL 双数据库

0 引言

新中国成立60多年来，我国形成了海量的地质资料信息，为国民经济和社会发展提供了重要支撑。但在地质资料管理方面长期存在资料信息分散、综合研究不够、数字化信息化程度不高、服务渠道不畅、服务能力不强等问题，使地质资料信息的巨大潜在价值未能得到充分发挥。为进一步提高地质工作服务国民经济和社会发展的能力，充分发挥地质资料信息的服务功能，扩大服务领域，国土资源部根据国内外地质工作的先进经验，做出了全面推进地质资料信息服务集群化产业化工作的部署。

目前，全国各省地质资料馆都在有条不紊地对本省成果、原始和实物地质资料进行清理，并对其中重要地质资料进行数字化和存储工作。然而，由于我国地质资源丰富，经过几十年的积累，已经形成了海量的地质资料，数据量早已经超过了几百太字节(TB)。在进行地质资料信息服务集群化工作中，随着共享数据量的不断增大，传统的数据存储方式和管理系统必然会展现出存储和检索方面的不足以及系统管理方面的缺陷。为了解决该问题，需要设计更加先进的数据存储架构来实现海量地质资料的存储。

而大数据(Big Data)作为近年来在云计算领域中出现的一种新型数据，科技工作者在不断的研究中，设计了适合大数据存储管理的非关系型数据库NoSQL进行大数据的存储和管理。本文将针对我国现有的地质资料信息集群化共享服务平台存在的缺陷和问题，利用大数据存储管理模式的思想，提出一种海量地质资料存储架构，改进现有系统存储架构，以便于我国全面推进地质资料信息服务集群化产业化工作。

1 工作现状

1.1 国内外地质资料信息的存储现状

在美国，主要有两大地质资料公共服务平台，分别是地球科学信息中心(ESIC)、地球资源观测和科学中心(EROS)，其目的是通过为社会和政府提供更加便利、快速的地质信息服务。20世纪90年代初，澳大利亚出台了国家地球科学填图协议，采用先进的科学方法和技术进行数据存储，从而形成了第二代澳大利亚陆地地质图。

目前，我国地质资料信息服务集群化产业化工作刚刚起步，虽然国土资源部信息中心已经开发了地质资料信息集群化共享服务平台，并倡导各地方用户使用该系统。但由于各个地方早期的工作背景不一致，因此各地方所使用的存储系统也不尽相同，主要有Access、SQL Server、Oracle、MySQL等系统。本文以国土资源部信息中心开发的地质资料信息集群化共享服务平台的存储系统MySQL为例说明。该系统是基于关系数据库管理系统MySQL的一套分布式存储检索系统。该系统的部署使得我国地质资料信息服务集群化产业化工作取得了重大进展，同时也为我国建立标准统一的地质资料信息共享服务平台和互联互通的网络服务体系奠定了坚实的基础。然而，该系统的研发并没有考虑到地质资料信息进一步集群化以及在未来地质资料信息进入大数据时代的信息共享和存储管理问题，也没有给出明确的解决方案。

1.2 大数据的存储架构介绍

大数据是近年在云计算领域中出现的一种新型数据，具有数据量大、数据结构不固定、类型多样、查询分析复杂等特点。传统关系型数据库管理系统在数据存储规模、检索效率等方面已不再适合大数据存储。NoSQL(Not Only SQL)是与关系数据库相对的一类数据库的总称。这些数据库放弃了对关系数据库的支持，转而采用灵活的、分布式的数据存储方式管理数据，从而可以满足大数据存储和处理的需求。NoSQL基于非关系型数据存储的设计理念，以键值对进行存储，采用的数据字的结构不固定，每一个元组可以有不一样的字段，且每个元组可以根据自己的需要增加一些自己的键值对，可以减少一些检索时间和存储空间。目前，应用广泛的 NoSQL 数据库有 Google BigTable、HBase、MongoDB、Neo4 j、Infinite Graph等。

2 大数据下的地质资料信息存储架构设计

根据国土资源部做出的全面推进地质资料信息服务集群化产业化工作的部署，国土资源部倡导全国地质资料馆使用国土资源部信息中心开发的地质资料信息集群化共享服务平台，实现地质资料信息的存储和共享。该系统采用了数据库管理系统MySQL作为数据存储系统。

为了与现有系统和现有的工作进行对接，并为将来地质资料进入大数据时代后的存储工作做准备，本文设计了一种能用于海量地质资料信息存储并且兼容MySQL的分布式的数据存储架构(图1)。

整个系统可以根据不同的用户等级分为不同的用户管理层，由于图幅限制，在图1 中仅仅展示了3级：国家级管理层(即共享服务平台用户层)、省级管理层以及市级管理层(可根据实际需要延伸至县级)。

每级管理层的每个用户可以单独管理一个服务器。如国土资源部信息中心可以单独管理一个服务器；甘肃省国土资源信息中心可以单独管理一个服务器，陕西省国土资源信息中心可以单独管理一个服务器；甘肃的若干个市级国土资源局可以根据需要分别管理各自的服务器。

在服务器上分别安装两套数据库管理系统，一套是原有的MySQL数据库管理系统，另一套是为大数据存储而配备的NoSQL型数据库管理系统。在服务器上还专门开发一个数据库管理器中间件，用于进行用户层和数据库的通信以及两套数据库之间的通信。

由于各个管理层都各自维护自己的数据库和数据。当用户需要进行数据存储时，他所影响的数据库仅仅是本地数据库，存储效率较高；当用户需要从多个数据库读取数据时，顶层的共享服务平台会根据用户需求进行任务分解，将任务分发给下层的管理层进行数据库读取，由于各个数据库并行读取，从而提高了数据库读取效率。

图1 大数据下的地质资料信息存储架构框图

2.1 用户管理层

用户管理层根据权限范围，分为多层(本文以3层为例)。

位于顶层的国家级管理层(共享服务平台用户层)负责用户访问权限的分配、与其直接关联的数据库的访问、下级管理层任务的分配等工作。

用户访问权限的分配是指为访问本共享服务平台的个人用户和单位用户分配数据的使用权限、安全性的设计等。

与其直接关联的数据库访问是指直接存储在其本地数据库上的数据的访问。在该数据库中不仅要存储所需要的地质资料，还要存储注册用户信息等数据。

下级管理层任务分配是指如果用户需要访问多个下层数据库，用户只需要输入查询这几个下层数据库的命令，而如何查找下层数据库则由该功能来完成。例如某用户要查找甘肃、陕西、上海、北京的铁矿分布图，则用户只需要输入这几个地方及铁矿等查询条件，系统将自动把各个省的数据库查询任务分派到下级管理层。

同理，位于下层的省级管理层和市级管理层除了没有用户访问权限功能外，其余功能与国家级管理层是相同的。各层之间的数据库通过互联网相互连接成分布式的数据库系统。

2.2 MySQL和NoSQL的融合

MySQL是关系型数据库，它支持SQL查询语言，而NoSQL是非关系型数据库，它不支持SQL查询语言。用户要想透明地访问这两套数据库，必须要设计数据库管理器中间件，作为用户访问数据库的统一入口和两套数据库管理系统的通信平台。本文所设计的数据库管理器简单模型如图2所示。

图2 数据库管理器模型

服务器管理器通过用户程序接口与应用程序进行通讯，通过MySQL数据库接口与MySQL服务器通讯，通过NoSQL数据库接口与NoSQL数据库接口通讯。当应用程序接口接收到一条数据库访问命令之后，交由数据库访问命令解析器进行命令解析，从而形成MySQL访问命令或者NoSQL访问命令，通过相应的数据库接口访问数据库；数据库返回访问结果后经过汇总，由应用程序接口返回给应用程序。

两套数据库可以通过双数据库通信协议进行相互的通信和互访。此通信协议的建立便于地质工作人员将已经存入MySQL数据库的不适合结构化存储的数据转存到NoSQL数据库中，从而便于系统的升级和优化。

2.3 系统的存储和检索模式

在本存储框架设计中，系统采用分布式网络存储模式，即采用可扩展的存储结构，利用分散在全国各地的多台独立的服务器进行数据存储。这种方式不仅分担了服务器的存储压力，提高了系统的可靠性和可用性，还易于进行系统扩展。另外，由于地质资料信息存储的特殊性，各地方用户的数据存储工作基本都是在本地服务器进行，很少通过网络进行远程存储，所以数据存储效率较高。

在一台数据库服务器上安装有MySQL和NoSQL型两套数据库管理系统，分别用于存储地质资料信息中的结构化数据和非结构化数据。其中，NoSQL型数据库作为主数据库，用于存储一部分结构化数据和全部的非结构化数据；而MySQL数据库作为辅助数据库，用于存储一部分结构化的数据，以及旧系统中已经存储的数据。使用两套数据库不仅可以存储结构化数据而且还可以适用于大数据时代地质资料信息的存储，因此系统具有很好的适应性和灵活性。

2.4 安全性设计

地质资料信息是国家的机密，地质工作人员必须要保证它的安全。地质资料信息进入数字化时代之后，地质资料常常在计算机以及网络上进行传输，地质资料信息的安全传输和保存更是地质工作人员必须关注和解决的问题。在本存储架构的设计中设计的安全问题主要有数据库存储安全、数据传输安全、数据访问安全等问题。

数据库设计时采用多边安全模型和多级安全模型阻止数据库中信息和数据的泄露来提高数据库的安全性能，以保障地质信息在数据库中的存储安全；当用户登录系统访问数据库时，必须进行用户甄别和实名认证，这主要是对用户的身份进行有效的识别，防止非法用户访问数据库；在对地质资料进行网络传输时，应该首先将数据进行加密，然后再进行网络传输，以防止地质信息在传输过程中被窃取。

3 结语

提高地质资料数字化信息化水平，是国外地质工作强国的普遍做法。为推进我国地质资料信息服务集群化产业化工作，本文针对我国现有的地质资料信息集群化共享服务平台存在的缺陷和问题，利用大数据存储管理模式的思想，基于现有系统的存储架构，设计了一种大数据下的地质资料信息存储架构，以便于我国地质资料信息服务集群化产业化工作能够适应大数据时代的数据存储。该存储架构的设计只涉及了简单模型的构建，具体详细复杂的功能设计和软件实现还需要在进一步的研究工作中完成。

参考文献

[1]吴金朋.一种大数据存储模型的研究与应用[D].北京：北京邮电大学计算机学院，2012.

[2]吴广君，王树鹏，陈明，等.海量结构化数据存储检索系统[J].计算机研究与发展，2012，49(Suppl)：1～5.

[3]黄

，易晓东，李姗姗，等.面向高性能计算机的海量数据处理平台实现与评测[J].计算机研究与发展，2012，49(Suppl)：357～361.

信息资料的存储

与信息资料的存储相关的内容