海量小文件存储系统_大量小文件存储如何选择存储方案

㈠ hdfs的特点有哪些

hdfs的特点
一、hdfs的优点
1.支持海量数据的存储：一般来说，HDFS存储的文件可以支持TB和PB级别的数据。
2.检测和快速应对硬件故障：在集群环境中，硬件故障是常见性问题。因为有上千台服务器连在一起，故障率很高，因此故障检测和自动恢复hdfs文件系统的一个设计目标。假设某一个datanode挂掉之后，因为数据是有备份的，还可以从其他节点里找到。namenode通过心跳机制来检测datanode是否还存活。
3.流式数据访问：（HDFS不能做到低延迟的数据访问，但是HDFS的吞吐量大）=》Hadoop适用于处理离线数据，不适合处理实时数据。HDFS的数据处理规模比较大，应用一次需要大量的数据，同时这些应用一般都是批量处理，而不是用户交互式处理。应用程序能以流的形式访问数据库。主要的是数据的吞吐量，而不是访问速度。访问速度最终是要受制于网络和磁盘的速度，机器节点再多，也不能突破物理的局限。
4.简化的一致性模型：对于外部使用用户，不需要了解hadoop底层细节，比如文件的切块，文件的存储，节点的管理。一个文件存储在HDFS上后，适合一次写入，多次读取的场景。因为存储在HDFS上的文件都是超大文件，当上传完这个文件到hadoop集群后，会进行文件切块，分发，复制等操作。如果文件被修改，会导致重新触发这个过程，而这个过程耗时是最长的。所以在hadoop里，2.0版本允许数据的追加，单不允许数据的修改。
5.高容错性：数据自动保存多个副本，副本丢失后自动恢复。可构建在廉价的机器上，实现线性扩展。当集群增加新节点之后，namenode也可以感知，将数据分发和备份到相应的节点上。
6.商用硬件：Hadoop并不需要运行在昂贵且高可靠的硬件上。它是设计运行在商用硬件（在各种零售店都能买到的普通硬件）的集群上的，因此至少对于庞大的集群来说，节点故障的几率还是非常高的。HDFS遇到上述故障时，被设计成能够继续运行且不让用户察觉到明显的中断。
二、HDFS缺点（局限性）
1、不能做到低延迟数据访问：由于hadoop针对高数据吞吐量做了优化，牺牲了获取数据的延迟，所以对于低延迟数据访问，不适合hadoop。对于低延迟的访问需求，HBase是更好的选择。
2、不适合大量的小文件存储：由于namenode将文件系统的元数据存储在内存中，因此该文件系统所能存储的文件总数受限于namenode的内存容量。根据经验，每个文件、目录和数据块的存储信息大约占150字节。因此，如果有一百万个小文件，每个小文件都会占一个数据块，那至少需要300MB内存。如果是上亿级别的，就会超出当前硬件的能力。
3、修改文件：对于上传到HDFS上的文件，不支持修改文件。Hadoop2.0虽然支持了文件的追加功能，但是还是不建议对HDFS上的文件进行修改。因为效率低下。HDFS适合一次写入，然后多次读取的场景。
4、不支持用户的并行写：同一时间内，只能有一个用户执行写操作。

㈡大量小文件存储，如何选择存储方案

1、Raid0
2、固态硬盘
3、Fat32：拷贝大量小文件(如拷贝照片、文档转移等)速度很快，但不支持存储单个大于4GB的文件。
NTFS：支持大文件存储，管理性能比Fat32强很多，但是拷贝大量小文件时速度较慢。

㈢海量空间数据存储

(一)空间数据存储技术

随着地理信息系统的发展，空间数据库技术也得到了很大的发展，并出现了很多新的空间数据库技术(黄钊等，2003)，其中应用最广的就是用关系数据库管理系统(RDBMS)来管理空间数据。

用关系数据库管理系统来管理空间数据，主要解决存储在关系数据库中的空间数据与应用程序之间的数据接口问题，即空间数据库引擎(SpatialDatabase Engine)(熊丽华等，2004)。更确切地说，空间数据库技术是解决空间数据对象中几何属性在关系数据库中的存取问题，其主要任务是:

(1)用关系数据库存储管理空间数据;

(2)从数据库中读取空间数据，并转换为GIS应用程序能够接收和使用的格式;

(3)将GIS应用程序中的空间数据导入数据库，交给关系数据库管理。

空间数据库中数据存储主要有三种模式:拓扑关系数据存储模式、Oracle Spatial模式和ArcSDE模式。拓扑关系数据存储模式将空间数据存在文件中，而将属性数据存在数据库系统中，二者以一个关键字相连。这样分离存储的方式由于存在数据的管理和维护困难、数据访问速度慢、多用户数据并发共享冲突等问题而不适用于大型空间数据库的建设。而OracleSpatial实际上只是在原来的数据库模型上进行了空间数据模型的扩展，实现的是“点、线、面”等简单要素的存储和检索，所以它并不能存储数据之间复杂的拓扑关系，也不能建立一个空间几何网络。ArcSDE解决了这些问题，并利用空间索引机制来提高查询速度，利用长事务和版本机制来实现多用户同时操纵同一类型数据，利用特殊的表结构来实现空间数据和属性数据的无缝集成等(熊丽华等，2004)。

ArcSDE是ESRI公司开发的一个中间件产品，所谓中间件是一个软件，它允许应用元素通过网络连接进行互操作，屏蔽其下的通讯协议、系统结构、操作系统、数据库和其他应用服务。中间件位于客户机/服务器的操作系统之上，管理计算资源和网络通讯，并营造出一个相对稳定的高层应用环境，使开发人员可以集中精力于系统的上层开发，而不用过多考虑系统分布式环境下的移植性和通讯能力。因此，中间件能无缝地连入应用开发环境中，应用程序可以很容易地定位和共享中间件提供的应用逻辑和数据，易于系统集成。在分布式的网络环境下，客户端的应用程序如果要访问网络上某个服务器的信息，而服务器可能运行在不同于客户端的操作系统和数据库系统中。此时，客户机的应用程序中负责寻找数据的部分只需要访问一个数据访问中间件，由该中间件完成网络中数据或服务的查找，然后将查找的信息返回给客户端(万定生等，2003)。因此，本系统实现空间数据库存储的基本思想就是利用ArcSDE实现各类空间数据的存储。

目前，空间数据存储技术已比较成熟，出现了许多类似ArcSDE功能的中间件产品，这些软件基本上都能实现空间数据的数据库存储与管理，但对于海量空间数据的存储，各种软件性能差别较大。随着数据量的增长，计算机在分析处理上会产生很多问题，比如数据不可能一次完全被读入计算机的内存中进行处理。单纯依赖于硬件技术，并不能满足持续增长的数据的处理要求。因此需要在软件上找到处理海量数据的策略，并最终通过软硬件的结合完成对海量数据的处理。在海量数据存储问题上，许多专家从不同侧面进行过研究，Lindstrom在地形简化中使用了外存模型(Out-of-core)技术;钟正采用了基于数据分块、动态调用的策略;汪国平等人在研究使用高速网络进行三维海量地形数据的实时交互浏览中，采用了分块、多分辨率模板建立模型等方法。这些技术、方法已经在各自系统上进行了研究和实现。本系统采用的ArcSDE软件基本上也是采用分块模型的方法，具体存储和操作不需要用户过多了解，已经由ArcSDE软件实现。因此，对海量数据的存储管理，更需要从数据的组织方式等方面进行设计。塔里木河流域生态环境动态监测系统采集了大量的遥感影像、正射影像等栅格结构的数据，这些数据具有很大的数据量，为适应流域空间基础设施的管理需要，采取一种新的方式来管理、分发这些海量数据以适应各部门的快速浏览和管理需要。

(二)影像金字塔结构

影像数据库的组织是影像数据库效率的关键，为了获得高效率的存取速度，在数据的组织上使用了金字塔数据结构和网格分块数据结构。该技术主导思想如下:

(1)将数据库中使用到的纹理处理成为大小一致的纹理块;

(2)为每块纹理生成5个细节等级的纹理，分别为0、1、2、3、4，其中1级纹理通过0级纹理1/4压缩得到，2级纹理通过1级纹理1/4压缩得到，…，以此类推;

(3)在显示每个块数据之前，根据显示比例的大小，并以此决定该使用那一级的纹理;

(4)在内存中建立纹理缓冲池，使用LRU算法进行纹理块的调度，确保使用频率高的纹理调度次数尽可能少。

(三)影像数据压缩

影像数据压缩有无损压缩和有损压缩两个方法，具体采取哪种压缩方法需根据具体情况确定。对于像元值很重要的数据，如分类数据、分析数据等采用无损压缩(即LZ77算法)，否则采用有损压缩(即JPEG算法)。通过对影像数据的压缩，一方面可以节约存储空间，另一方面可以加快影像的读取和显示速度。影像数据的压缩一般与构建金字塔同时进行，在构建影像金字塔过程中自动完成数据的压缩。

㈣海量小文件用什么存储好

海量小文件优先选择对象存储，不用考虑元数据管理的问题，如果是老系统的话需要改造支持对象存储。我们公司现在用的元核云的YC-DOS分布式对象存储，稳定性和性能都还不错。

㈤ Bigtable---分布式的结构化数据存储系统

sina

Bigtable 是一个分布式的结构化数据存储系统，它被设计用来处理海量数据：通常是分布在数千台普通服务器上的PB 级的数据。Google 的很多项目使用Bigtable 存储数据，包括Web 索引、GoogleEarth、Google Finance。这些应用对Bigtable 提出的要求差异非常大，无论是在数据量上（从URL到网页到卫星图像）还是在响应速度上（从后端的批量处理到实时数据服务）。
Bigtable 已经实现了下面的几个目标：适用性广泛、可扩展、高性能和高可用性,Bigtable 是一个稀疏的、分布式的、持久化存储的多维度排序Map。

图一：一个存储Web 网页的例子的表的片断。行名是一个反向URL。contents 列族存放的是网页的内容，anchor 列族存放引用该网页的锚链接文本（alex 注：如果不知道HTML 的Anchor，请Google一把）。CNN 的主页被Sports Illustrater和MY-look 的主页引用，因此该行包含了名为“anchor:cnnsi.com”和“anchhor:my.look.ca”的列。每个锚链接只有一个版本（alex 注：注意时间戳标识了列的版本，t9 和t8 分别标识了两个锚链接的版本）；而contents 列则有三个版本，分别由时间戳t3，t5，和t6 标识。

行
Bigtable 通过行关键字的字典顺序来组织数据。表中的每个行都可以动态分区。每个分区叫做一个”Tablet”，Tablet 是数据分布和负载均衡调整的最小单位。

列族
Webtable 有个列族language，language 列族用来存放撰写网页的语言。
我们在language 列族中只使用一个列关键字，用来存放每个网页的语言标识ID。Webtable 中另一个有用的列族是anchor；这个列族的每一个列关键字代表一个锚链接，如图一所示。Anchor 列族的限定词是引用该网页的站点名；Anchor 列族每列的数据项存放的是链接文本。访问控制、磁盘和内存的使用统计都是在列族层面进行的。

时间戳
不同版本的数据通过时间戳来索引。Bigtable 时间戳的类型是64 位整型。
Bigtable 可以给时间戳赋值，用来表示精确到毫秒的“实时”时间；用户程序也可以给时间戳赋值。如果应用程序需要避免数据版本冲突，那么它必须自己生成具有唯一性的时间戳。数据项中，不同版本的数据按照时间戳倒序排序，即最新的数据排在最前面。为了减轻多个版本数据的管理负担，我们对每一个列族配有两个设置参数， Bigtable 通过这两个参数可以对废弃版本的数据自动进行垃圾收集。用户可以指定只保存最后n 个版本的数据，或者只保存“足够新”的版本的数据（比如，只保存最近7 天的内容写入的数据）。

Bigtable支持的其他特性
1、Bigtable 支持单行上的事务处理，利用这个功能，用户可以对存储在一个行关键字下的数据进行原子性的读-更新-写操作。
2、Bigtable 允许把数据项用做整数计数器。
3、Bigtable 允许用户在服务器的地址空间内执行脚本程序
4、Bigtable 可以和MapRece一起使用，MapRece 是Google 开发的大规模并行计算框架。我们已经开发了一些Wrapper 类，通过使用这些Wrapper 类，Bigtable 可以作为MapRece 框架的输入和输出。

Bigtable依赖于google的几项技术。用GFS来存储日志和数据文件；按SSTable文件格式存储数据；用Chubby管理元数据：
Bigtable是建立在其它的几个Google基础构件上的。BigTable 使用Google 的分布式文件系统(GFS)存储日志文件和数据文件。BigTable 集群通常运行在一个共享的机器池中，池中的机器还会运行其它的各种各样的分布式应用程序，BigTable 的进程经常要和其它应用的进程共享机器。BigTable 依赖集群管理系统来调度任务、管理共享的机器上的资源、处理机器的故障、以及监视机器的状态。
BigTable 内部存储数据的文件是Google SSTable 格式的。SSTable 是一个持久化的、排序的、不可更改的Map 结构，而Map 是一个key-value 映射的数据结构，key 和value 的值都是任意的Byte串，从内部看，SSTable 是一系列的数据块（通常每个块的大小是64KB，这个大小是可以配置的）。。SSTable 使用块索引（通常存储在SSTable 的最后）来定位数据块；在打开SSTable的时候，索引被加载到内存。每次查找都可以通过一次磁盘搜索完成：首先使用二分查找法在内存中的索引里找到数据块的位置，然后再从硬盘读取相应的数据块。也可以选择把整个SSTable 都放在内存中，这样就不必访问硬盘了。

BigTable 还依赖一个高可用的、序列化的分布式锁服务组件，叫做Chubby。Chubby有五个活跃副本，同时只有一个主副本提供服务，副本之间用Paxos算法维持一致性，Chubby提供了一个命名空间（包括一些目录和文件），每个目录和文件就是一个锁，Chubby的客户端必须和Chubby保持会话，客户端的会话若过期则会丢失所有的锁。

Bigtable 包括了三个主要的组件：链接到客户程序中的库、一个Master主服务器和多个Tablet片服务器。
Bigtable会将表（table）进行分片，片（tablet）的大小维持在100-200MB范围，一旦超出范围就将分裂成更小的片，或者合并成更大的片。每个片服务器负责一定量的片，处理对其片的读写请求，以及片的分裂或合并。片服务器可以根据负载随时添加和删除。这里片服务器并不真实存储数据，而相当于一个连接Bigtable和GFS的代理，客户端的一些数据操作都通过片服务器代理间接访问GFS。主服务器负责将片分配给片服务器，监控片服务器的添加和删除，平衡片服务器的负载，处理表和列族的创建等。注意，主服务器不存储任何片，不提供任何数据服务，也不提供片的定位信息。

客户端需要读写数据时，直接与片服务器联系。因为客户端并不需要从主服务器获取片的位置信息，所以大多数客户端从来不需要访问主服务器，主服务器的负载一般很轻。

Master 服务器主要负责以下工作：为Tablet 服务器分配Tablets、检测新加入的或者过期失效的Table 服务器、对Tablet 服务器进行负载均衡、以及对保存在GFS 上的文件进行垃圾收集。除此之外，它还处理对模式的相关修改操作，例如建立表和列族。

我们使用一个三层的、类似B+树的结构存储Tablet 的位置信息。

第一层是一个存储在Chubby 中的文件，它包含了Root Tablet 的位置信息。这个Chubby文件属于Chubby服务的一部分，一旦Chubby不可用，就意味着丢失了root tablet的位置，整个Bigtable也就不可用了。
第二层是root tablet。root tablet其实是元数据表（METADATA table）的第一个分片，它保存着元数据表其它片的位置。root tablet很特别，为了保证树的深度不变，root tablet从不分裂。
第三层是其它的元数据片，它们和root tablet一起组成完整的元数据表。每个元数据片都包含了许多用户片的位置信息。

片的数据最终还是写到GFS里的，片在GFS里的物理形态就是若干个SSTable文件。下图展示了读写操作基本情况。

BigTable和GFS的关系
集群包括主服务器和片服务器，主服务器负责将片分配给片服务器，而具体的数据服务则全权由片服务器负责。但是不要误以为片服务器真的存储了数据（除了内存中memtable的数据），数据的真实位置只有GFS才知道，主服务器将片分配给片服务器的意思应该是，片服务器获取了片的所有SSTable文件名，片服务器通过一些索引机制可以知道所需要的数据在哪个SSTable文件，然后从GFS中读取SSTable文件的数据，这个SSTable文件可能分布在好几台chunkserver上。
一个简化的Bigtable结构图：

结构图以Webtable表为例，表中存储了网易、网络和豆瓣的几个网页。当我们想查找网络贴吧昨天的网页内容，可以向Bigtable发出查询Webtable表的(com..tieba, contents:, yesterday)。

假设客户端没有该缓存，那么Bigtable访问root tablet的片服务器，希望得到该网页所属的片的位置信息在哪个元数据片中。使用 METADATA.Webtable.com..tieba 为行键在root tablet中查找，定位到最后一个比它大的是 METADATA.Webtable.com..www ，于是确定需要的就是元数据表的片A。访问片A的片服务器，继续查找 Webtable.com..tieba ，定位到 Webtable.com..www 是比它大的，确定需要的是Webtable表的片B。访问片B的片服务器，获得数据。

这里需要注意的是，每个片实际都由若干SSTable文件和memtable组成，而且这些SSTable和memtable都是已排序的。这就导致查找片B时，可能需要将所有SSTable和memtable都查找一遍；另外客户端应该不会直接从元数据表获得SSTable的文件名，而只是获得片属于片服务器的信息，通过片服务器为代理访问SSTable。

㈥ NTFS 是目前最先进的文件系统吗

文件分配表（FAT）一种供MS-DOS及其它Windows操作系统对文件进行组织与管理的文件系统。文件分配表（FAT）是当您使用FAT或FAT32文件系统对特定卷进行格式化时，由Windows所创建的一种数据结构。Windows将与文件相关的信息存储在FAT中，以供日后获取文件时使用。 FAT32 一种从文件分配表（FAT）文件系统派生而来的文件系统。与FAT相比，FAT32能够支持更小的簇以及更大的容量，从而能够在FAT32卷上更为高效的分配磁盘空间。 NTFS文件系统一种能够提供各种FAT版本所不具备的性能、安全性、可靠性与先进特性的高级文件系统。举例来说，NTFS通过标准事务日志功能与恢复技术确保卷的一致性。如果系统出现故障，NTFS能够使用日志文件与检查点信息来恢复文件系统的一致性。在Windows 2000和Windows XP中，NTFS还能提供诸如文件与文件夹权限、加密、磁盘配额以及压缩之类的高级特性。在NTFS、FAT与FAT32间进行选择在运行Windows XP的计算机上，您可以在三种面向磁盘分区的不同文件系统--NTRS、FAT和FAT32--中加以选择。其中，NTFS是强力推荐您使用的文件系统，与FAT或FAT32相比，它具有更为强大的功能，并且包含Active Directory及其它重要安全特性所需的各项功能。只有选择NTFS作为文件系统，您才可以使用诸如Active Directory和基于域的安全性之类特性。 NTFS和FAT32的选择 Win 2000可以同时支持FAT32和NTFS两种文件系统，FAT32长于与Win 9X的兼容性，NTFS长于系统安全性。在满足应用的前提下，怎样设置文件系统才能充分发挥Win 2000的特性呢？在讨论这个问题之前，我们先来看一下FAT32和NTFS两种文件系统各有哪些特点。 FAT32文件系统在推出FAT32文件系统之前，通常PC机使用的文件系统是FAT16。像基于MS-DOS，Win 95等系统都采用了FAT16文件系统。在Win 9X下，FAT16支持的分区最大为2GB。我们知道计算机将信息保存在硬盘上称为“簇”的区域内。使用的簇越小，保存信息的效率就越高。在FAT16的情况下，分区越大簇就相应的要增大，存储效率就越低，势必造成存储空间的浪费。并且随着计算机硬件和应用的不断提高，FAT16文件系统已不能很好地适应系统的要求。在这种情况下，推出了增强的文件系统FAT32。同FAT16相比，FAT32主要具有以下特点： 1. 同FAT16相比FAT32最大的优点是可以支持的磁盘大小达到2TB（2047GB），但是不能支持小于512MB的分区。基于FAT32的Win 2000可以支持分区最大为32GB；而基于 FAT16的Win 2000支持的分区最大为4GB。 2. 由于采用了更小的簇，FAT32文件系统可以更有效率地保存信息。如两个分区大小都为2GB，一个分区采用了FAT16文件系统，另一个分区采用了FAT32文件系统。采用FAT16的分区的簇大小为32KB，而FAT32分区的簇只有4KB的大小。这样FAT32就比FAT16的存储效率要高很多，通常情况下可以提高15%。 3. FAT32文件系统可以重新定位根目录和使用FAT的备份副本。另外FAT32分区的启动记录被包含在一个含有关键数据的结构中，减少了计算机系统崩溃的可能性。 NTFS文件系统 NTFS文件系统是一个基于安全性的文件系统，是Windows NT所采用的独特的文件系统结构，它是建立在保护文件和目录数据基础上，同时照顾节省存储资源、减少磁盘占用量的一种先进的文件系统。使用非常广泛的Windows NT 4.0采用的就是NTFS 4.0文件系统，相信它所带来的强大的系统安全性一定给广大用户留下了深刻的印象。Win 2000采用了更新版本的NTFS文件系统——NTFS 5.0，它的推出使得用户不但可以像Win 9X那样方便快捷地操作和管理计算机，同时也可享受到NTFS所带来的系统安全性。 NTFS 5.0的特点主要体现在以下几个方面： 1. NTFS可以支持的分区(如果采用动态磁盘则称为卷)大小可以达到2TB。而Win 2000中的FAT32支持分区的大小最大为32GB。 2. NTFS是一个可恢复的文件系统。在NTFS分区上用户很少需要运行磁盘修复程序。NTFS通过使用标准的事物处理日志和恢复技术来保证分区的一致性。发生系统失败事件时，NTFS使用日志文件和检查点信息自动恢复文件系统的一致性。 3. NTFS支持对分区、文件夹和文件的压缩。任何基于Windows的应用程序对NTFS分区上的压缩文件进行读写时不需要事先由其他程序进行解压缩，当对文件进行读取时,文件将自动进行解压缩；文件关闭或保存时会自动对文件进行压缩。 4. NTFS采用了更小的簇,可以更有效率地管理磁盘空间。在Win 2000的FAT32文件系统的情况下,分区大小在2GB～8GB时簇的大小为4KB；分区大小在8GB～16GB时簇的大小为8KB；分区大小在16GB～32GB时,簇的大小则达到了16KB。而Win 2000的NTFS文件系统，当分区的大小在2GB以下时,簇的大小都比相应的FAT32簇小;当分区的大小在2GB以上时(2GB～2TB),簇的大小都为4KB。相比之下，NTFS可以比FAT32更有效地管理磁盘空间，最大限度地避免了磁盘空间的浪费。 5. 在NTFS分区上,可以为共享资源、文件夹以及文件设置访问许可权限。许可的设置包括两方面的内容：一是允许哪些组或用户对文件夹、文件和共享资源进行访问；二是获得访问许可的组或用户可以进行什么级别的访问。访问许可权限的设置不但适用于本地计算机的用户,同样也应用于通过网络的共享文件夹对文件进行访问的网络用户。与FAT32文件系统下对文件夹或文件进行访问相比，安全性要高得多。另外,在采用NTFS格式的Win 2000中,应用审核策略可以对文件夹、文件以及活动目录对象进行审核，审核结果记录在安全日志中，通过安全日志就可以查看哪些组或用户对文件夹、文件或活动目录对象进行了什么级别的操作，从而发现系统可能面临的非法访问,通过采取相应的措施，将这种安全隐患减到最低。这些在FAT32文件系统下,是不能实现的。 6. 在Win 2000的NTFS文件系统下可以进行磁盘配额管理。磁盘配额就是管理员可以为用户所能使用的磁盘空间进行配额限制，每一用户只能使用最大配额范围内的磁盘空间。设置磁盘配额后，可以对每一个用户的磁盘使用情况进行跟踪和控制，通过监测可以标识出超过配额报警阈值和配额限制的用户，从而采取相应的措施。磁盘配额管理功能的提供，使得管理员可以方便合理地为用户分配存储资源，避免由于磁盘空间使用的失控可能造成的系统崩溃，提高了系统的安全性。 7. NTFS使用一个“变更”日志来跟踪记录文件所发生的变更。小提示(选取FAT32和NTFS的建议) 在系统的安全性方面，NTFS文件系统具有很多FAT32文件系统所不具备的特点，而且基于NTFS的Win 2000运行要快于基于FAT32的Win 2000；而在与Win 9X的兼容性方面，FAT32优于NTFS。所以在决定Win 2000中采用什么样的文件系统时应从以下几点出发： 1. 计算机是单一的Win 2000系统，还是采用多启动的Win 2000系统； 2. 本地安装的磁盘的个数和容量； 3. 是否有安全性方面的考虑等。基于以上的考虑，如果要在Win 2000中使用大于32GB的分区的话，那么只能选择NTFS格式。如果计算机作为单机使用，不需要考虑安全性方面的问题，更多地注重与Win 9X的兼容性，那么FAT32是最好的选择。如果计算机作为网络工作站或更多的追求系统的安全性，而且可以在单一的Win 2000模式下运行，强烈建议所有的分区都采用NTFS格式；如果要兼容以前的应用，需要安装Win 9X或其它的操作系统，建议做成多启动系统，这就需要两个以上的分区，一个分区采用NTFS格式，另外的分区采用FAT32格式，同时为了获得最快的运行速度建议将Win 2000的系统文件放置在NTFS分区上，其它的个人文件则放置在FAT32分区中 NTFS适合你吗? 在多操作系统中是否选择将FAT32转换为NTFS，应该根据自己的情况来决定。如果重在性能和安全方面，那么可以将FAT32转换为NTFS；如果重在可操作性和兼容性方面，应该保持FAT32，不进行转换，因为支持FAT32的操作系统更多。而NTFS对Windows Me和以前的Windows版本并不兼容。建议除Windows XP/2003外的系统用FAT32。将FAT32转换为NTFS 在Windows 2000/XP中，可以在命令提示符状态下键入“convert E:/FS NTFS”(假设E盘原来使用的是FAT32)，回车后，在下次重启时自动将E盘转换为NTFS文件系统。转换时最好整理一下磁盘碎片加快转换速度，并且把数据备份到其他不转换的分区中。将NTFS转换为FAT32 将NTFS转换成FAT32相对比较复杂，在不需要旧的文件情况下，我们可以使用Windows 2000/XP的安装光盘来完成转换，在安装时，选择“用FAT文件系统格式化磁盘分区”。如果你需要保存原来的文件，可以用Partition Magic For DOS来转换，不过这种转换的速度比较慢，数据也容易丢失，因此强烈建议转换前备份好数据。转换问题多如果当前的磁盘分区已经采用了NTFS文件系统，而且已经保存了许多资料，包括加密的文件或文件夹，这时转换为FAT32就会出现加密文件无法访问的问题，而且因为两种文件系统采用的文件命名方式不同，在转换后文件名会出现问题该不该选用NTFS文件系统？ Windwos 9X 普及的时候已有Windows NT系统，由于Windows NT系统多用于商业平台，一般家用机都是安装Windows 9X , 在Windows 2000 推出的时候，因为其庞大的体积与众多用应用程序还有与Windows 9X 全然不同的一些操作方式，所以普通用户都没有接触过Windows 2000 , 当然也就没有用过NTFS文件系统。当然NT 3.X 与 NT 4.X系统是很早就出来的，但也是很少有人问津，因为它跟本不适合家用，这里也不多说了。 XP的推出让人耳目一新，越来越多的人安装了XP，但也就引发了他们必需面对的一个问题，那就是这个贴子的标题《该不该选用NTFS文件系统？》。在运行Windows 2000/XP的计算机上，NTFS是系统推荐使用的文件系统，NTFS是最容易处理大容量硬盘的文件系统，NTFS文件系统能够提供目录的各种新功能和其他比较重要的安全功能。使用NTFS文件系统对分区进行格式化时分区中的碎片会更少，性能也会更高。有一点要注意的是，早先的Windows 9.x 系统是无法直接访问NTFS分区的，听说有补丁，但也不是万能的。所以，如果你还不愿意放弃windows 9.X系统的话，这个文章可能对你没有什么用处。 NTFS分区方式的优点。自从Windows2000开始，微软开始推荐大家使用NTFS的磁盘格式，其后推出的XP更是要配合这种磁盘格式才能发挥其最大的性能优势。不仅仅是微软推广的缘故，NTFS的磁盘格式由于其自身的技术优势，配合目前硬件、网络发展的趋势的作用，正逐渐被广大用户接受。 1、大硬盘带来的影响。现在的硬盘容量正以倍数在增长，每半年就增加一倍甚至更多，价格却在降低。这样基于传统的FAT文件系统的分区方式，就将逐步体现出其先天不足之处了——我们先来看看FAT32，FAT32是FAT文件系统的增强版本，可用在容量为512MB到2TB的驱动器上，虽然如此，以FAT32的格式，如果划分太大的分区空间，由于其磁盘的簇相对过大，在储存多个小文件的时候，将造成空间利用上的极大浪费。相对而言，NTFS的磁盘格式的簇相当地细，就能有效地利用磁盘空间，而且不容易产生碎片。另外，NTFS的磁盘格式在处理单个巨大的文件的时候如进行视频捕捉、编辑的时候，也比FAT系统有优势。随着海量硬盘的发展，使用NTFS的分区格式将越来越必要——你总不希望把分区数划分满24个字母的盘符来迁就分区容量吧？所以，微软推荐使用NTFS而不是FAT32文件系统格式化大于32GB的分区是有其道理的。 2、新一代Windows操作系统的影响随着时间的推移，新一代Windows的过渡，微软很可能会采取放弃兼容DOS的安装和维护操作系统的方式，即光盘启动后直接采用全新的直接图形化界面进行下几代Windows的安装，这样可以避开DOS模式的内存配置环境对安装Windows造成的负面影响，也可让很多破解其激活设置的程序失效（DOS环境下内存配置对新手来说比较复杂，很多人安装XP失败除了硬件兼容问题外，是由于这个原因）；同时对最终用户来说，新的安装模式可在安装的时候更好地分析用户的硬件系统，提供更多的友好提示和更强的故障解决功能。使用图形界面直接管理安装任务的话，基于第一点叙述的原因，Windows很可能会要求用户用NTFS先格式化新一代海量硬盘超过32G的分区，才能继续进行安装。也可能通过在新的操作系统里去掉对FAT系统的支持，来强行推广NTFS磁盘格式。 3、联网和多PC连接导致的用户安全和管理问题以后的电脑进行在线工作和娱乐是不可逆转的趋势，随着互联网在世界各地进一步普及，在线的电脑的安全和管理问题日益突出，而且很多人家里由于升级，已经有超过了一台的电脑。只有使用NTFS，Windows系统的安全性能和可管理性才能真正得到保障。无论是接入INTERNET还是用户自己在家里组建局域网，NTFS都将使用户更灵活地配置和管理计算机资源。NTFS的磁盘配额、用户权限和个人文件加密等等功能、和网络应用方面的优势，已经有很多资料介绍了，此处不再重复。另外，NTFS支持基于UNIX服务的POSIX标准，可移植性也很强。这保证了它和其他网络平台的兼容性。当然，这一切的前提是Windows还是占垄断地位的操作系统。从目前情况看，微软保持其软件业龙头的地位还是不成问题的。超过500G的海量硬盘在明年年底或是后年初就可能会出现了，这是推动NTFS磁盘格式成为主流分区格式的最强大动力之一。由以上的几点可看出，针对家用PC而言，使用NTFS的最大的好处是第一点，也就是NTFS对大硬盘有着更好的支持与利用，第三点主要是针对商业型用户，这里我也想对那些入门级用户说一声，如果你使用了NTFS且对NTFS的磁盘配额、用户权限和个人文件加密等等功能不是很了解，最好不要随意设置目录的权限，不然可能会有着意想不到的后果。细数NTFS的四大优点 1.具备错误预警的文件系统在NTFS分区中，最开始的16个扇区是分区引导扇区，其中保存着分区引导代码，接着就是主文件表（Master File Table，以下简称MFT），但如果它所在的磁盘扇区恰好出现损坏，NTFS文件系统会比较智能地将MFT换到硬盘的其他扇区，保证了文件系统的正常使用，也就是保证了Windows的正常运行。而以前的FAT16和FAT32的FAT（文件分配表）则只能固定在分区引导扇区的后面，一旦遇到扇区损坏，那么整个文件系统就要瘫痪。但这种智能移动MFT的做法当然并非十全十美，如果分区引导代码中指向MFT的部分出现错误，那么NTFS文件系统便会不知道到哪里寻找MFT ，从而会报告“磁盘没有格式化”这样的错误信息。为了避免这样的问题发生，分区引导代码中会包含一段校验程序，专门负责侦错。 2.文件读取速度更高效！恐怕很多人都听说NTFS文件系统在安全性方面有很多新功能，但你可否知道：NTFS在文件处理速度上也比FAT32大有提升呢？对DOS略知一二的读者一定熟悉文件的各种属性：只读、隐藏、系统等。在NTFS文件系统中，这些属性都还存在，但有了很大不同。在这里，一切东西都是一种属性，就连文件内容也是一种属性。这些属性的列表不是固定的，可以随时增加，这也就是为什么你会在NTFS分区上看到文件有更多的属性。 NTFS文件系统中的文件属性可以分成两种：常驻属性和非常驻属性，常驻属性直接保存在MFT中，像文件名和相关时间信息（例如创建时间、修改时间等）永远属于常驻属性，非常驻属性则保存在MFT之外，但会使用一种复杂的索引方式来进行指示。如果文件或文件夹小于1500字节（其实我们的电脑中有相当多这样大小的文件或文件夹），那么它们的所有属性，包括内容都会常驻在MFT中，而MFT是Windows一启动就会载入到内存中的，这样当你查看这些文件或文件夹时，其实它们的内容早已在缓存中了，自然大大提高了文件和文件夹的访问速度。小提示为什么FAT的效率不如NTFS高 FAT文件系统的文件分配表只能列出了每个文件的名称及起始簇，并没有说明这个文件是否存在，而需要通过其所在文件夹的记录来判断，而文件夹入口又包含在文件分配表的索引中。因此在访问文件时，首先要读取文件分配表来确定文件已经存在，然后再次读取文件分配表找到文件的首簇，接着通过链式的检索找到文件所有的存放簇，最终确定后才可以访问。 3.磁盘自我修复功能 NTFS利用一种“自我疗伤”的系统，可以对硬盘上的逻辑错误和物理错误进行自动侦测和修复。在FAT16和FAT32时代，我们需要借助 Scandisk这个程序来标记磁盘上的坏扇区，但当发现错误时，数据往往已经被写在了坏的扇区上了，损失已经造成。 NTFS文件系统则不然，每次读写时，它都会检查扇区正确与否。当读取时发现错误，NTFS会报告这个错误；当向磁盘写文件时发现错误， NTFS将会十分智能地换一个完好位置存储数据，操作不会受到任何影响。在这两种情况下，NTFS都会在坏扇区上作标记，以防今后被使用。这种工作模式可以使磁盘错误可以较早地被发现，避免灾难性的事故发生。有些人发现当把磁盘转换为NTFS文件系统后，用磁盘扫描程序就很难发现磁盘错误了。经过前面的介绍，你知道这是为什么了吗？ 4.“防灾赈灾”的事件日志功能在NTFS文件系统中，任何操作都可以被看成是一个“事件”。比如将一个文件从C盘复制到D盘，整个复制过程就是一个事件。事件日志一直监督着整个操作，当它在目标地——D盘发现了完整文件，就会记录下一个“已完成”的标记。假如复制中途断电，事件日志中就不会记录“已完成”，NTFS可以在来电后重新完成刚才的事件。事件日志的作用不在于它能挽回损失，而在于它监督所有事件，从而让系统永远知道完成了哪些任务，那些任务还没有完成，保证系统不会因为断电等突发事件发生紊乱，最大程度降低了破坏性。 5.我是否需要哪些附加的功能？其实，NTFS还提供了磁盘压缩、数据加密、磁盘配额（在“我的电脑”中右击分区并并行“属性”，进入“配额”选项卡即可设置）、动态磁盘管理等功能，这些功能在很多报刊杂志上介绍的比较多了，这里不再详细介绍。 NTFS提供了为不同用户设置不同访问控制、隐私和安全管理功能。如果你的系统处于一个单机环境，比如家用电脑，那么这些功能对你意义不是很大。小提示从FAT转换过来的NTFS，性能有折扣如果分区是从FAT32转换为NTFS文件系统的（使用命令为“CONVERT 驱动器盘符 /FS:NTFS”），不仅MFT会很容易出现磁盘碎片，更糟糕的是，磁盘碎片整理工具往往不能整理这各分区中的MFT，严重影响系统性能。因此，建议将分区直接格式化为NTFS文件系统。

㈦海量数据存储有哪些方式与方法

杉岩海量对象存储MOS，针对海量非结构化数据存储的最优化解决方案，采用去中心化、分布式技术架构，支持百亿级文件及EB级容量存储，

具备高效的数据检索、智能化标签和分析能力，轻松应对大数据和云时代的存储挑战，为企业发展提供智能决策。

1、容量可线性扩展，单名字空间达EB级

SandStone MOS可在单一名字空间下实现海量数据存储，支持业务无感知的存储服务器横向扩容，为爆炸式增长的视频、音频、图片、文档等不同类型的非结构化数据提供完美的存储方案，规避传统NAS存储的单一目录或文件系统存储空间无法弹性扩展难题

2、海量小文件存储，百亿级文件高效访问

SandStone MOS基于完全分布式的数据和元数据存储架构，为海量小文件存储而生，将企业级NAS存储的千万文件量级提升至互联网规模的百亿级别，帮助企业从容应对几何级增长的海量小文件挑战。

3、中心灵活部署，容灾汇聚分发更便捷

SandStone MOS支持多数据中心灵活部署，为企业数据容灾、容灾自动切换、多分支机构、数据就近访问等场景提供可自定义的灵活解决方案，帮助企业实现跨地域多活容灾、数据流转、就近读写等，助力业务高速发展。

4、支持大数据和AI，统一数据存储和分析

SandStone MOS内置文件智能化处理引擎，实现包括语音识别、图片OCR识别、文件格式转换等批量处理功能，结合标签检索能力还可实现语音、证件照片检索，从而帮助企业更好地管理非结构化数据。同时，SandStone MOS还支持与Hadoop、Spark等大数据分析平台对接，一套存储即可满足企业数据存储、管理和挖掘的需求。

㈧大数据的预测功能是增值服务的核心

大数据的预测功能是增值服务的核心
从走在大数据发展前沿的互联网新兴行业，到与人类生活息息相关的医疗保健、电力、通信等传统行业，大数据浪潮无时无刻不在改变着人们的生产和生活方式。大数据时代的到来，给国内外各行各业带来诸多的变革动力和巨大价值。
最新发布的报告称，全球大数据市场规模将在未来五年内迎来高达26%的年复合增长率——从今年的148.7亿美元增长到2018年的463.4亿美元。全球各大公司、企业和研究机构对大数据商业模式进行了广泛地探索和尝试，虽然仍旧有许多模式尚不明朗，但是也逐渐形成了一些成熟的商业模式。
两种存储模式为主
互联网上的每一个网页、每一张图片、每一封邮件，通信行业每一条短消息、每一通电话，电力行业每一户用电数据等等，这些足迹都以“数据”的形式被记录下来，并以几何量级的速度增长。这就是大数据时代带给我们最直观的冲击。
正因为数据量之大，数据多为非结构化，现有的诸多存储介质和系统极大地限制着大数据的挖掘和发展。为更好地解决大数据存储问题，国内外各大企业和研究机构做了许许多多的尝试和努力，并不断摸索其商业化前景，目前形成了如下两种比较成熟的商业模式：
可扩展的存储解决方案。该存储解决方案可帮助政府、企业对存储的内容进行分类和确定优先级，高效安全地存储到适当存储介质中。而以存储区域网络（SAN）、统一存储、文件整合/网络连接存储（NAS）的传统存储解决方案，无法提供和扩展处理大数据所需要的灵活性。而以Intel、Oracle、华为、中兴等为代表的新一代存储解决方案提供商提供的适用于大、中小企业级的全系存储解决方案，通过标准化IT基础架构、自动化流程和高扩展性，来满足大数据多种应用需求。
云存储。云存储是一个以数据存储和管理为核心的云计算系统，其结构模型一般由存储层、基础管理、应用接口和访问层四层组成。通过易于使用的API，方便用户将各种数据放到云存储里面，然后像使用水电一样按用量进行收费。用户不用关心数据的存储介质、网络状况以及安全性的管理，只需按需向提供方购买空间。
源数据价值水涨船高
在红红火火的大数据时代，随着数据的累积，数据本身的价值也在不断升值，这种情况很好地反应了事物由量变到质变的规律。例如有一种罕见的疾病，得病率为十万分之一，如果从小样本数据来看非常罕见，但是扩大到全世界70亿人，那么数量就非常庞大。以前技术落后，不能将该病情数字化集中研究，所以很难攻克。但是，我们现在把各种各样的数据案例搜集起来统一分析，我们很快就能攻克很多以前想象不到的科学难题。类似的例子，不胜枚举。
正是由于可以通过大数据挖掘到很多看不见的价值，源数据本身的价值也水涨船高。一些掌握海量有效数据的公司和企业找到了一条行之有效的商业路径：对源数据直接或者经过简单封装销售。在互联网领域，以Facebook、twitter、微博为代表的社交网站拥有大量的用户和用户关系数据，这些网站正尝试以各种方式对该源数据进行商业化销售，Google、Yahoo!、网络[微博]等搜索公司拥有大量的搜索轨迹数据以及网页数据，他们可以通过简单API提供给第三方并从中盈利；在传统行业中，中国联通[微博]（3.44, 0.03, 0.88%）、中国电信[微博]等运营商拥有大量的底层用户资料，可以通过简单地去隐私化，然后进行销售盈利。
各大公司或者企业通过提供海量数据服务来支撑公司发展，同时以免费的服务补偿用户，这种成熟的商业模式经受住了时间的考验。但是对于任何用户数据的买卖，还需处理好用户隐私信息，通过去隐私化方式，来保护好用户隐私。
预测是增值服务的核心
在大数据基础上进行深度挖掘，所衍生出来的增值服务，是大数据领域最具想象空间的商业模式。大数据增值服务的核心是什么？预测！大数据引发了商业分析模式转变，从过去的样本模式到现在的全数据模式，从过去的小概率到现在的大概率，从而能够得到比以前更准确的预测。目前形成了如下几种比较成熟的商业模式。
个性化的精准营销。一提起“垃圾短信”，大家都很厌烦，这是因为本来在营销方看来是有价值的、“对”的信息，发到了“错”的用户手里。通过对用户的大量的行为数据进行详细分析，深度挖掘之后，能够实现给“对”的用户发送“对”的信息。比如大型商场可以对会员的购买记录进行深度分析，发掘用户和品牌之间的关联。然后，当某个品牌的忠实用户收到该品牌打折促销的短信之后，一定不是厌烦，而是欣喜。如优捷信达、中科嘉速等拥有强大数据处理技术的公司在数据挖掘、精准广告分析等方面拥有丰富的经验。
企业经营的决策指导。针对大量的用户数据，运用成熟的数据挖掘技术，分析得到企业运营的各种趋势，从而给企业的决策提供强有力的指导。例如，汽车销售公司，可以通过对网络上用户的大量评论进行分析，得到用户最关心和最不满意的功能，然后对自己的下一代产品进行有针对性的改进，以提升消费者的满意度。
总体来说，从宏观层面来看，大数据是我们未来社会的新能源；从企业微观层面来看，大数据分析和运用能力正成为企业的核心竞争力。深入研究和积极探索大数据的商业模式，对企业的未来发展有至关重要的意义。

㈨ 80T的海量资料，如何永久保存，移动硬盘成本高，且超过10年后，基本上就有毛病了，有没其它办法

对于海量图片数据的存储问题，杉岩海量对象存储（SandStone MOS）解决方案采用去中心化分布式架构，同时利用软件定义的方式实现了单一名字空间条件下数百PB级规模的容量扩展，业务可以随时随地访问而不受数据存储位置的限制。

在提升海量小文件访问性能方面，SandStone MOS利用哈希计算实现了数亿级文件的高效访问。针对文件检索困难，SandStone MOS支持标签功能，文件存储时会自动设置标签，从而更好地与业务结合，满足高效检索。

此外，SandStone MOS在易用性与可维护性方面也超越了同级别产品，其采用“x86通用服务器+存储软件”的分布式解耦架构，将底层存储空间与上层业务逻辑空间进行分离，软硬件的升级不会影响到整个系统的正常运行。

即使系统有再多应用更新，也不会影响存储空间的使用。值得一提的是，SandStone MOS首创的分布式存储数据盘漫游功能，可以帮助企业用户渐进式的进行老旧硬件设备更换，不影响业务的正常运行。

㈩ Redis适合存储海量小文件吗

最近学习下redis，作为一个高性能的k/v数据库，如果数据不用swap的话，redis的性能是无以伦比的。最近在做一个系统附件的缓存，试着把附件放到redis试试，写了个保存文件的方法。public class TestRedis{ Jedis redis = new Jedis("localhost");...

海量小文件存储系统

与海量小文件存储系统相关的内容