⑴ 计算机技术的发展对企业信息化的影响
人类进入了“信息 时代 ”,我们的 社会 日益转型为一个“信息社会”。不过,虽然人们天天都在接触、利用信息,信息资源也变成了当今社会建设中最宝贵的资源,人们还是对何谓信息不甚了了,感到其难以捉摸。这说明我们还缺乏一个明确、恰切的信息概念的定义。本文试图结合分析信息概念的本质从哲学的层面上提出一个信息的定义,并在这个定义的范围内探讨一下在人类实践活动中信息的主要功能的历史演变。
我们拥有的最初的信息概念是由信息论的创立者申农提出的,他把信息定义为用来消除不确定性的东西,具体地说就是在信宿中用来消除对于在信源中发出的消息的不确定性的东西。这第一个信息概念的 内容 反映出它发生于通讯过程中的背景,运用这个概念来理解广泛存在于我们当今社会中的信息现象肯定是不够的。比如我们头脑中现有的知识这种约束性的信息与用来消除不确定性的消息显然是不同的,它是我们据以理解消息这种非约束性信息的基础。但是最初的信息概念包含的两个特质也揭示了成熟的信息概念的两个本质规定性:第一,信息发生于不确定性的背景上亦即具有多种可能性或偶然性的环境中,因此在严格决定论的世界上它的存在是没有意义的。第二,通讯活动往往与控制活动紧密相关并构成后者的组成部分(控制论中所说的“控制”行为广义地说包含了能动主体适应世界和改造世界的活动),因此信息的存在与能动主体的目的性行为是不可分的。
在探讨信息概念时,我们需要对人们在生活和 科学 研究 中使用“信息”一词所指称的广泛的现象进行概括,这样最终我们会发现有两个基本对象,其中一个属于客观世界本身所具有的性质,另一个则产生于生活主体和客观世界相互作用的关系之中。控制论的创始人维纳就从这两个意义上阐述过信息。一方面他说:“信息就是组织程度的度量”,是“负熵”⑴,另一方面又说:“信息是我们适应外部世界,并且使这种适应为外部世界所感到的过程中,同外部世界进行交换的内容的名称。”⑵后一种信息是不能脱离接受者的解释结构而存在的,维纳举例讲道: 音乐 对于懂音乐的人来说会产生这种“在语义学上有意义的信息”,对于不懂音乐的人来说则不会。苏联《哲学词典》俄文1980年第4版在“信息”这个词条下也写道:“在信息概念中应该区别出两个方面。在第一个方面,信息乃是系统的组织性的程度。信息的数学表达式和熵的数学表达式,除符号相反外是一样的。正如系统的熵表示系统的紊乱性程度,而信息表示系统的组织性程度。这样理解的信息构成系统、过程本身的内部所有物,可以叫作结构信息。在第二个方面,应该把密切地与反映相联系的信息和结构信息区别开。如果一个事物中发生反映另一事物作用的变化,那末可以说这一事物就成为关于另一事物的信息的负荷者。对于控制论系统来说,B由A的作用所引起的变化,不只是B对A的某些鉴别,而是控制论系统B的功能活动的因素。”在这里我们看出苏联学者继承和阐发了维纳的思想,他们明确区分出表示事物本身的规定性的结构信息(又称绝对信息)和产生于控制系统对周围事物的反映之中的功能信息(又称相对信息)。用信息论的术语来说,就是前一种信息的存在只要考虑到信源就可以了,而后一种信息的存在还必须考虑到信宿。上述思想可供我们在对信息进行哲学的全面概括时加以借鉴,使信息概念不必具有单一层次的内涵。
我认为信息可作如下定义:信息是客观世界中物质和能量存在和变动的有序形式,和自组织系统对这个形式的能动的反映及改组。其中前一个表语表述了信息概念的第一层次内涵,或者说广义内涵,后一个表语表述了信息概念的第二层次内涵,或者说狭义内涵。
先说信息概念的第一层次内涵。维纳曾经说:“信息就是信息,不是物质也不是能量”⑷。那末信息究竟是什么呢?我认为它是物质和能量运动的有序形式。
古希腊哲学家亚里士多德最早与“质料”范畴相对提出“形式”范畴。质料是事物的物质基质,形式则是物质基质存在的样式。形式必须附着在质料上而存在,但是它又具有相对的独立性,这表现在比如大理石这块质料,既可以把它雕刻成人像而具有“人”的形式,又可以把它雕刻成马像而具有“马”的形式。仅限于这个范围内来说,这对范畴与“实体”和“属性”这对范畴是相通的。在上述定义中,我正是把物质和能量看作为实体性的东西,而把信息看作为它们表现出来的属性。我们可以把一定的物质和能量与它们表现出的属性作这种相对区分。我们知道,客观世界中的物质和能量是保持着一定的数量、既不能创造也不能消灭的,但是物质和能量具体存在的形式可以变化。物质和能量存在的各种具体形式是由它们特殊的组合和运动的方式所决定的,并且在不同的层次上展开。信息概念的第一层次内涵就是物质和能量存在和运动所表现出的这些具体形式。在这里我们要对“形式”的含义作广泛的理解,它是实体的一切可分辨的属性的总称,包括事物的结构形式、运动状态以及相互作用的方式等一切确定性。
对信息所作的这个本质规定是和科学家们提出的下述定义相通的——信息是物质和能量在时间和空间中的不均匀分布,是负熵,是事物系统的组织性程度。因为物质和能量存在和运动的各种可以把捉的特定形式,只能由物质和能量在时间和空间中的各种不均匀分布造成。热力学第二定律指出的一个孤立系统内部趋向达到的熵最大状态,是一个物质和能量在时空中均匀分布的状态,这是一种混沌的单调的状态,其中没有任何可分辨的形式,也就没有信息。我们由此看到信息是有序性的形式。与此相联系产生了信息的度量的 问题 ,一个系统内的物质、能量在时空中分布的不均匀程度愈是大,其所含信息量愈是多,亦即其组织性、有序性愈是高,这说明它的物质、能量运动的形式愈是复杂、有机。一个系统所包含的信息量,相当于使该系统从某种初始的无序状态过渡到有组织的状态而应当输入系统中的信息量。人体从单个分子构成其有机整体所需要的信息量为3 x 1026比特这样一个巨大的数字。一块无机的矿石所包含的信息量是与此不能相比的。从这里我们可以看出,信息是以一种新的统一的观点来看待物质世界。过去我们曾经用“质量”对不同的物质进行统一的度量,又用“能量”对不同的运动进行统一的度量,现在我们可以用“信息量”来对不同事物具有的规定性、性质进行统一的度量,信息量表示出事物组织性、有序性程度高低的不同。
因为信息不是事物的物质和能量本身,而是它们运动的形式,所以它可以通过同构关系被传递。所谓同构,简单地说,就是一个系统的物质、能量过程与另一个系统的物质、能量过程在组织结构和运动秩序上的一定对应。比如气温表上水银柱的不同高度对应着不同的气温,水银柱高度的一定变化对应着气温的一定变化,因此我们说气温表传达了气温的信息。我们人在生活中摄取关于外界环境的信息,也并不是把环境中事物的物质基质和能量本身吸收到我们脑子中来,而是以脑内神经脉冲的次序和强度的不同组合形式来对应于环境中事物的不同状态特征。这样我们就可以解释为什么信息表示作为信源的事物的性质,却又可以脱离信源而相对独立地存在,而且我们还可以了解信息的量值为何不象物质和能量那样是守恒的而可以增加(通过在不同信宿中复制同一信息)。
再说信息概念的第二层次内涵:信息是自组织系统对客观世界中物质和能量运动的有序形式所作的能动的反映及改组。对信息的这个规定是和科学家们对信息所作的下述定义相通的——信息是生活主体和客观环境相互交换的内容,是控制系统用来控制受控对象的东西。我们在日常生活中所说的信息,总是指某种被我们所收到、理解,对我们有意义、用处的消息,此外还有被人们产生的操纵控制对象的指令信息,它们都属于信息概念的这个内涵。
这里需要说明一下什么是“自组织系统”。简单地说, 自然 界中的无机物质一般遵循热力学第二定律从有序走向无序,自组织系统是能够抵抗环境中的熵增趋势,自动地从无序向有序发展的系统。自组织系统是高度有组织性的物质,它在自然界中的代表就是生命。人类模仿生命的机制创造出自动控制系统,这是人工的自组织系统。自组织系统在自然界中不象无机物质那样,听凭环境因素的作用、自发地发生变化,而是按照内在机制规定的方向进行物质和能量运动的,这就是保存和发展自身。自组织系统既然具有保存和发展自身的趋向,而又生活在一个变动不居的既有有利因素、又有不利因素的环境里,因此它在生存、发展中需要关于环境的信息,借以调整自己的行动而适应环境的变化。自组织系统就是借助于信息的指导作用,使自身在和环境的相互作用中从无序走向有序、从低序走向高序的。
实际上只有在自组织系统对周围环境的反映中,才能真正使客观事物存在的形式和客观事物本身分离开,具有独立的意义和价值。这样,才实现了第一层次内涵的信息向第二层次内涵的信息的转化。因为第二层次内涵的信息不是产生于照镜子似的机械的反映,而是产生于能动的反映。这表现在维纳所说的“不是简单地取得外界的消息,而是要经过装置内部的改造加工才能获得。在那里将信息转化成适用于以后活动的新形式。无论是动物还是机器,这种操作都要对外界发生效用”⑸。对此,以下集中说明两点。
第一,这种信息只是在作为信宿的反映主体(人是最高级的自组织系统,也是最高级的主体,我们可以把其他的自组织系统看作以不同等级形式存在的主体)中实现的,它是依赖于主体的解释结构的,而这又与主体对于信息的整理加工分不开。同一个事件作为信号被传递到不同的主体中,它是否具有信息和信息量有多少,是依主体的解释结构的不同而不同的。那末,主体的解释结构是怎样形成的呢?这要归功于主体对过去生活中接受的大量信息进行储存、整理和加工的结果。动物能够简单地整理、加工信息,这就是在无条件反射的基础上依靠条件反射的能力,根据反复发生的生活经验在不同的外来信息间建立一定的联系。人类则不仅感性地归总经验现象以得出表面的联系,而且运用理性思维的能力来发现各类事实之间的深藏的稳定的本质联系。因此,人脑内部构成知识的信息采取对现实事物做不同程度的抽象概括的概念和判断的形式存在,理性主体可运用逻辑推理的规则对既有信息进行变换处理以产生更深层次的新信息。每个个人还吸取社会集体实践的成果来帮助完成自身整理信息的工作。这样,本来零散获得的信息在每个主体的内部形成一个有机的知识之网,这就是他的解释结构。新经验到的个别事件由于和这个知识之网的各个要素发生一定的关系而具有意义,而被理解。从此我们可以看出为什么第二层次内涵的信息离不开接受主体。同时我们也看到,那些过去获得的、经过加工整理、为主体掌握了其间联系的信息,成为认识新的信息的手段。这种信息叫做约束性信息。那种在新的生活遭遇中个别得到的、反映具体客观环境的情况的、作为认识对象的信息,叫作非约束性信息。从信息学的角度来看,认识能力的发展也是非约束性信息不断转化为约束性信息的过程。当然约束性信息建立的关于客观世界的 规律 性的认识是否正确,还须反馈到实践活动(合目的性的质能活动)中去加以验证。
第二,这个层次内涵的信息的最重要的内容,还在于把关于客观环境的信息和主体的目的(既有在种族发生中形成的长远目的,又有在具体生活情景中产生的短期目的)结合起来加工,得出规范主体本身在一定客观环境中所进行的物质和能量活动的形式的东西,亦即关于主体行为方式的信息。自组织系统在一个个具体的控制活动中是这样处理信息的:它首先获取一定的信号即得到语法信息,其次联系过去生活经验解释语法信息的含义而得到语义信息,然后根据本身正在进行的活动的目的评估语义信息的效用而得出语用信息,最后结合积淀于自身的约束性信息中的关于客观环境的规律性的认识得出关于自身当前行为方式的信息。这种关于主体行为方式的信息就是我们在自动控制机器中称为“指令信息”的东西,它由控制中枢付诸执行机构(或称效应器)加以执行。这样我们看到作为对现实世界的有序性的反映的信息,在独立存在于主体世界中时可被结合实现主体的目的的需要加以改组(将信息片段根据它们在现实世界中存在的多种可能方式重新加以联接)。总之,自组织系统因此以有利于自己的方式和环境发生相互作用。在这里我们发现一个有意思的对照,对于客体来讲,它的物质、能量运动的形式是完全依附在它的物质、能量运动上的,而对于主体来讲,却可以先设计好这个物质、能量运动的形式,再据以进行物质、能量的运动。这表现出无机自然界在进行着盲目的物质、能量运动,而自组织系统在进行着自觉的物质、能量运动。用信息来驾驭物质和能量的运动,其结果是使一定的物质和能量在实现主体目的的方向上得到尽可能 经济 、有效的利用。所以我们说,在信息时代,从某种意义上说,信息是比物质和能量更为重要的资源和财富
⑵ 集中式存储和分布式存储的区别在哪里如何选择
如今全球数据存储量呈现爆炸式增长,企业及互联网数据以每年50%的速率在增长,据Gartner预测,到2020年,全球数据量将达到35ZB,等于80亿块4TB硬盘。数据结构变化给存储系统带来新的挑战。非结构化数据在存储系统中所占据比例已接近80%。
互联网的发展使得数据创造的主体由企业逐渐转向个人用户,而个人所产生的绝大部分数据均为图片、文档、视频等非结构化数据;企业办公流程更多通过网络实现,表单、票据等都实现了以非结构化为主的数字化存档;同时,基于数据库应用的结构化数据仍然在企业中占据重要地位,存储大量的核心信息。
数据业务的急剧增加,传统单一的SAN存储或NAS存储方式已经不适应业务发展需要。SAN存储:成本高,不适合PB级大规模存储系统。数据共享性不好,无法支持多用户文件共享。NAS存储:共享网络带宽,并发性能差。随系统扩展,性能会进一步下降。因此,集中式存储再次活跃。
那么集中式存储和分布式存储的有缺点分别有哪些呢?在面对二者时我们该如何选择呢?下面我将为大家介绍和分析集中式存储和分布式存储的不同之处以及在应用中我们应做的选择。
分布式和集中式存储的选择
集中存储的优缺点是,物理介质集中布放;视频流上传到中心对机房环境要求高,要求机房空间大,承重、空调等都是需要考虑的问题。
分布存储,集中管理的优缺点是,物理介质分布到不同的地理位置;视频流就近上传,对骨干网带宽没有什么要求;可采用多套低端的小容量的存储设备分布部署,设备价格和维护成本较低;小容量设备分布部署,对机房环境要求低。
⑶ 30岁未婚遭领导劝退,过来人说说大龄未婚在职场是罪吗
这个事情不光是大龄未婚这么简单,当然这也是一个方面,另一个方面就算公司确实不景气,要裁员时综合考虑,觉得题主的情况未知的不确定性很大,所以为了避免日后的麻烦优先考虑裁掉题主。
大龄未婚在职场不能说是罪,但是确实有很多不方便的地方。
我们公司前两天来了一个三十二岁的应聘者,各方面条件都挺优秀的,但是最后却没有获得这份工作。她被领导pass的原因就是因为这个年纪还未婚,公司领导虽然很看好她的能力,但是为了避免之后可能出现的麻烦,还是忍痛放弃了。
⑷ 什么是P2P是下载器
P2P普及系列之一
拓扑结构是指分布式系统中各个计算单元之间的物理或逻辑的互联关系,结点之间的拓扑结构一直是确定系统类型的重要依据。目前互联网络中广泛使用集中式、层次式等拓扑结构,Interne本身是世界上最大的非集中式的互联网络,但是九十年代所建立的一些网络应用系统却是完全的集中式的系统、很多Web应用都是运行在集中式的服务器系统上。集中式拓扑结构系统目前面临着过量存储负载、Dos攻击等一些难以解决的问题。
P2P系统一般要构造一个非集中式的拓扑结构,在构造过程中需要解决系统中所包含的大量结点如何命名、组织以及确定结点的加入/离开方式、出错恢复等问题。
根据拓扑结构的关系可以将P2P研究分为4种形式:中心化拓扑(Centralized Topology);全分布式非结构化拓扑(Decentralized Unstructured Topology);全分布式结构化拓扑(Decentralized Structured Topology,也称作DHT网络)和半分布式拓扑(Partially Decentralized Topology)。
其中,中心化拓扑最大的优点是维护简单发现效率高。由于资源的发现依赖中心化的目录系统,发现算法灵活高效并能够实现复杂查询。最大的问题与传统客户机/服务器结构类似,容易造成单点故障,访问的“热点”现象和法律等相关问题,这是第一代P2P网络采用的结构模式,经典案例就是着名的MP3共享软件Napster。
Napster是最早出现的P2P系统之一,并在短期内迅速成长起来。Napster实质上并非是纯粹的P2P系统,它通过一个中央服务器保存所有Napster用户上传的音乐文件索引和存放位置的信息。当某个用户需要某个音乐文件时,首先连接到Napster服务器,在服务器进行检索,并由服务器返回存有该文件的用户信息;再由请求者直接连到文件的所有者传输文件。
Napster首先实现了文件查询与文件传输的分离,有效地节省了中央服务器的带宽消耗,减少了系统的文件传输延时。这种方式最大的隐患在中央服务器上,如果该服务器失效,整个系统都会瘫痪。当用户数量增加到105或者更高时,Napster的系统性能会大大下降。另一个问题在于安全性上,Napster并没有提供有效的安全机制。
在Napster模型中,一群高性能的中央服务器保存着网络中所有活动对等计算机共享资源的目录信息。当需要查询某个文件时,对等机会向一台中央服务器发出文件查询请求。中央服务器进行相应的检索和查询后,会返回符合查询要求的对等机地址信息列表。查询发起对等机接收到应答后,会根据网络流量和延迟等信息进行选择,和合适的对等机建立连接,并开始文件传输。
这种对等网络模型存在很多问题,主要表现为:
(1)中央服务器的瘫痪容易导致整个网络的崩馈,可靠性和安全性较低。
(2)随着网络规模的扩大,对中央索引服务器进行维护和更新的费用将急剧增加,所需成本过高。
(3)中央服务器的存在引起共享资源在版权问题上的纠纷,并因此被攻击为非纯粹意义上的P2P网络模型。对小型网络而言,集中目录式模型在管理和控制方面占一定优势。但鉴于其存在的种种缺陷,该模型并不适合大型网络应用。
P2P普及系列之二
Pastry是微软研究院提出的可扩展的分布式对象定位和路由协议,可用于构建大规模的P2P系统。在Pastry中,每个结点分配一个128位的结点标识符号(nodeID) ,所有的结点标识符形成了一个环形的nodeID空间,范围从0到2128 - 1 ,结点加入系统时通过散列结点IP地址在128位nodeID空间中随机分配。
在MIT,开展了多个与P2P相关的研究项目:Chord,GRID和RON。Chord项目的目标是提供一个适合于P2P环境的分布式资源发现服务,它通过使用DHT技术使得发现指定对象只需要维护O(logN)长度的路由表。
在DHT技术中,网络结点按照一定的方式分配一个唯一结点标识符(Node ID) ,资源对象通过散列运算产生一个唯一的资源标识符(Object ID) ,且该资源将存储在结点ID与之相等或者相近的结点上。需要查找该资源时,采用同样的方法可定位到存储该资源的结点。因此,Chord的主要贡献是提出了一个分布式查找协议,该协议可将指定的关键字(Key) 映射到对应的结点(Node) 。从算法来看,Chord是相容散列算法的变体。MIT GRID和RON项目则提出了在分布式广域网中实施查找资源的系统框架。
T&T ACIRI中心的CAN(Content Addressable Networks) 项目独特之处在于采用多维的标识符空间来实现分布式散列算法。CAN将所有结点映射到一个n维的笛卡尔空间中,并为每个结点尽可能均匀的分配一块区域。CAN采用的散列函数通过对(key, value) 对中的key进行散列运算,得到笛卡尔空间中的一个点,并将(key, value) 对存储在拥有该点所在区域的结点内。CAN采用的路由算法相当直接和简单,知道目标点的坐标后,就将请求传给当前结点四邻中坐标最接近目标点的结点。CAN是一个具有良好可扩展性的系统,给定N个结点,系统维数为d,则路由路径长度为O(n1/d) ,每结点维护的路由表信息和网络规模无关为O(d) 。
DHT类结构最大的问题是DHT的维护机制较为复杂,尤其是结点频繁加入退出造成的网络波动(Churn)会极大增加DHT的维护代价。DHT所面临的另外一个问题是DHT仅支持精确关键词匹配查询,无法支持内容/语义等复杂查询。
半分布式结构(有的文献称作 Hybrid Structure)吸取了中心化结构和全分布式非结构化拓扑的优点,选择性能较高(处理、存储、带宽等方面性能)的结点作为超级点(英文文献中多称作:SuperNodes, Hubs),在各个超级点上存储了系统中其他部分结点的信息,发现算法仅在超级点之间转发,超级点再将查询请求转发给适当的叶子结点。半分布式结构也是一个层次式结构,超级点之间构成一个高速转发层,超级点和所负责的普通结点构成若干层次。最典型的案例就是KaZaa。
KaZaa是现在全世界流行的几款p2p软件之一。根据CA公司统计,全球KaZaa的下载量超过2.5亿次。使用KaZaa软件进行文件传输消耗了互联网40%的带宽。之所以它如此的成功,是因为它结合了Napster和Gnutella共同的优点。从结构 上来说,它使用了Gnutella的全分布式的结构,这样可以是系统更好的扩展,因为它无需中央索引服务器存储文件名,它是自动的把性能好的机器成为SuperNode,它存储着离它最近的叶子节点的文件信息,这些SuperNode,再连通起来形成一个Overlay Network. 由于SuperNode的索引功能,使搜索效率大大提高。
P2P普及系列之三
全分布非结构化网络在重叠网络(overlay)采用了随机图的组织方式,结点度数服从"Power-law"[a][b]规律,从而能够较快发现目的结点,面对网络的动态变化体现了较好的容错能力,因此具有较好的可用性。同时可以支持复杂查询,如带有规则表达式的多关键词查询,模糊查询等,最典型的案例是Gnutella。
Gnutella是一个P2P文件共享系统,它和Napster最大的区别在于Gnutella是纯粹的P2P系统,没有索引服务器,它采用了基于完全随机图的洪泛(Flooding)发现和随机转发(Random Walker)机制。为了控制搜索消息的传输,通过TTL (Time To Live)的减值来实现。具体协议参照〔Gnutella协议中文版〕
在Gnutella分布式对等网络模型N中,每一个联网计算机在功能上都是对等的,既是客户机同时又是服务器,所以被称为对等机(Servent,Server+Client的组合)。
随着联网节点的不断增多,网络规模不断扩大,通过这种洪泛方式定位对等点的方法将造成网络流量急剧增加,从而导致网络中部分低带宽节点因网络资源过载而失效。所以在初期的Gnutella网络中,存在比较严重的分区,断链现象。也就是说,一个查询访问只能在网络的很小一部分进行,因此网络的可扩展性不好。所以,解决Gnutella网络的可扩展性对该网络的进一步发展至关重要。
由于没有确定拓扑结构的支持,非结构化网络无法保证资源发现的效率。即使需要查找的目的结点存在发现也有可能失败。由于采用TTL(Time-to-Live)、洪泛(Flooding)、随机漫步或有选择转发算法,因此直径不可控,可扩展性较差。
因此发现的准确性和可扩展性是非结构化网络面临的两个重要问题。目前对此类结构的研究主要集中于改进发现算法和复制策略以提高发现的准确率和性能。
全分布非结构化网络在重叠网络(overlay)采用了随机图的组织方式,结点度数服从"Power-law"[a][b]规律,从而能够较快发现目的结点,面对网络的动态变化体现了较好的容错能力,因此具有较好的可用性。同时可以支持复杂查询,如带有规则表达式的多关键词查询,模糊查询等,最典型的案例是Gnutella。
Gnutella是一个P2P文件共享系统,它和Napster最大的区别在于Gnutella是纯粹的P2P系统,没有索引服务器,它采用了基于完全随机图的洪泛(Flooding)发现和随机转发(Random Walker)机制。为了控制搜索消息的传输,通过TTL (Time To Live)的减值来实现。具体协议参照〔Gnutella协议中文版〕
在Gnutella分布式对等网络模型N中,每一个联网计算机在功能上都是对等的,既是客户机同时又是服务器,所以被称为对等机(Servent,Server+Client的组合)。
随着联网节点的不断增多,网络规模不断扩大,通过这种洪泛方式定位对等点的方法将造成网络流量急剧增加,从而导致网络中部分低带宽节点因网络资源过载而失效。所以在初期的Gnutella网络中,存在比较严重的分区,断链现象。也就是说,一个查询访问只能在网络的很小一部分进行,因此网络的可扩展性不好。所以,解决Gnutella网络的可扩展性对该网络的进一步发展至关重要。
由于没有确定拓扑结构的支持,非结构化网络无法保证资源发现的效率。即使需要查找的目的结点存在发现也有可能失败。由于采用TTL(Time-to-Live)、洪泛(Flooding)、随机漫步或有选择转发算法,因此直径不可控,可扩展性较差。
因此发现的准确性和可扩展性是非结构化网络面临的两个重要问题。目前对此类结构的研究主要集中于改进发现算法和复制策略以提高发现的准确率和性能。
P2P普及系列之四
半分布式结构的优点是性能、可扩展性较好,较容易管理,但对超级点依赖性大,易于受到攻击,容错性也受到影响。下表比较了4种结构的综合性能,比较结果如表1-1所示。
比较标准/拓扑结构 中心化拓扑 全分布式非结构化拓扑 全分布式结构化拓扑 半分布式拓扑
可扩展性 差 差 好 中
可靠性 差 好 好 中
可维护性 最好 最好 好 中
发现算法效率 最高 中 高 中
复杂查询 支持 支持 不支持 支持
表1:4种结构的性能比较
P2P普及系列之五
国外开展P2P研究的学术团体主要包括P2P工作组(P2PWG) 、全球网格论坛(Global Grid Forum ,GGF) 。P2P工作组成立的主要目的是希望加速P2P计算基础设施的建立和相应的标准化工作。P2PWG成立之后,对P2P计算中的术语进行了统一,也形成相关的草案,但是在标准化工作方面工作进展缓慢。目前P2PWG已经和GGF合并,由该论坛管理P2P计算相关的工作。GGF负责网格计算和P2P计算等相关的标准化工作。
从国外公司对P2P计算的支持力度来看,Microsoft公司、Sun公司和Intel公司投入较大。Microsoft公司成立了Pastry项目组,主要负责P2P计算技术的研究和开发工作。目前Microsoft公司已经发布了基于Pastry的软件包SimPastry/ VisPastry。Rice大学也在Pastry的基础之上发布了FreePastry软件包。
在2000年8月,Intel公司宣布成立P2P工作组,正式开展P2P的研究。工作组成立以后,积极与应用开发商合作,开发P2P应用平台。2002年Intel发布了. Net基础架构之上的Accelerator Kit (P2P加速工具包) 和P2P安全API软件包,从而使得微软. NET开发人员能够迅速地建立P2P安全Web应用程序。
Sun公司以Java技术为背景,开展了JXTA项目。JXTA是基于Java的开源P2P平台,任何个人和组织均可以加入该项目。因此,该项目不仅吸引了大批P2P研究人员和开发人员,而且已经发布了基于JXTA的即时聊天软件包。JXTA定义了一组核心业务:认证、资源发现和管理。在安全方面,JXTA加入了加密软件包,允许使用该加密包进行数据加密,从而保证消息的隐私、可认证性和完整性。在JXTA核心之上,还定义了包括内容管理、信息搜索以及服务管理在内的各种其它可选JXTA服务。在核心服务和可选服务基础上,用户可以开发各种JXTA平台上的P2P应用。
P2P实际的应用主要体现在以下几个方面:
P2P分布式存储
P2P分布式存储系统是一个用于对等网络的数据存储系统,它可以提供高效率的、鲁棒的和负载平衡的文件存取功能。这些研究包括:OceanStore,Farsite等。其中,基于超级点结构的半分布式P2P应用如Kazza、Edonkey、Morpheus、Bittorrent等也是属于分布式存储的范畴,并且用户数量急剧增加。
计算能力的共享
加入对等网络的结点除了可以共享存储能力之外,还可以共享CPU处理能力。目前已经有了一些基于对等网络的计算能力共享系统。比如SETI@home。目前SETI@home采用的仍然是类似于Napster的集中式目录策略。Xenoservers向真正的对等应用又迈进了一步。这种计算能力共享系统可以用于进行基因数据库检索和密码破解等需要大规模计算能力的应用。
P2P应用层组播
应用层组播,就是在应用层实现组播功能而不需要网络层的支持。这样就可以避免出现由于网络层迟迟不能部署对组播的支持而使组播应用难以进行的情况。应用层组播需要在参加的应用结点之间实现一个可扩展的,支持容错能力的重叠网络,而基于DHT的发现机制正好为应用层组播的实现提供了良好的基础平台。
Internet间接访问基础结构(Internet Indirection Infrastructure)。
为了使Internet更好地支持组播、单播和移动等特性,Internet间接访问基础结构提出了基于汇聚点的通信抽象。在这一结构中,并不把分组直接发向目的结点,而是给每个分组分配一个标识符,而目的结点则根据标识符接收相应的分组。标识符实际上表示的是信息的汇聚点。目的结点把自己想接收的分组的标识符预先通过一个触发器告诉汇聚点,当汇聚点收到分组时,将会根据触发器把分组转发该相应的目的结点。Internet间接访问基础结构实际上在Internet上构成了一个重叠网络,它需要对等网络的路由系统对它提供相应的支持。
P2P技术从出现到各个领域的应用展开,仅用了几年的时间。从而证明了P2P技术具有非常广阔的应用前景。
P2P普及系列之六
随着P2P应用的蓬勃发展,作为P2P应用中核心问题的发现技术除了遵循技术本身的逻辑以外,也受到某些技术的发展趋势、需求趋势的深刻影响。
如上所述,DHT发现技术完全建立在确定性拓扑结构的基础上,从而表现出对网络中路由的指导性和网络中结点与数据管理的较强控制力。但是,对确定性结构的认识又限制了发现算法效率的提升。研究分析了目前基于DHT的发现算法,发现衡量发现算法的两个重要参数度数(表示邻居关系数、路由表的容量)和链路长度(发现算法的平均路径长度)之间存在渐进曲线的关系。
研究者采用图论中度数(Degree)和直径(Diameter)两个参数研究DHT发现算法,发现这些DHT发现算法在度数和直径之间存在渐进曲线关系,如下图所示。在N个结点网络中,图中直观显示出当度数为N时,发现算法的直径为O(1);当每个结点仅维护一个邻居时,发现算法的直径为O(N)。这是度数和直径关系的2种极端情况。同时,研究以图论的理论分析了O(d)的度和O(d)的直径的算法是不可能的。
从渐进曲线关系可以看出,如果想获得更短的路径长度,必然导致度数的增加;而网络实际连接状态的变化造成大度数邻居关系的维护复杂程度增加。另外,研究者证明O(logN)甚至O(logN/loglogN)的平均路径长度也不能满足状态变化剧烈的网络应用的需求。新的发现算法受到这种折衷关系制约的根本原因在于DHT对网络拓扑结构的确定性认识。
非结构化P2P系统中发现技术一直采用洪泛转发的方式,与DHT的启发式发现算法相比,可靠性差,对网络资源的消耗较大。最新的研究从提高发现算法的可靠性和寻找随机图中的最短路径两个方面展开。也就是对重叠网络的重新认识。其中,small world特征和幂规律证明实际网络的拓扑结构既不是非结构化系统所认识的一个完全随机图,也不是DHT发现算法采用的确定性拓扑结构。
实际网络体现的幂规律分布的含义可以简单解释为在网络中有少数结点有较高的“度”,多数结点的“度”较低。度较高的结点同其他结点的联系比较多,通过它找到待查信息的概率较高。
Small-world[a][b]模型的特性:网络拓扑具有高聚集度和短链的特性。在符合small world特性的网络模型中,可以根据结点的聚集度将结点划分为若干簇(Cluster),在每个簇中至少存在一个度最高的结点为中心结点。大量研究证明了以Gnutella为代表的P2P网络符合small world特征,也就是网络中存在大量高连通结点,部分结点之间存在“短链”现象。
因此,P2P发现算法中如何缩短路径长度的问题变成了如何找到这些“短链”的问题。尤其是在DHT发现算法中,如何产生和找到“短链”是发现算法设计的一个新的思路。small world特征的引入会对P2P发现算法产生重大影响。
P2P普及系列之七
有DHT算法由于采用分布式散列函数,所以只适合于准确的查找,如果要支持目前Web上搜索引擎具有的多关键字查找的功能,还要引入新的方法。主要的原因在于DHT的工作方式。
基于DHT的P2P系统采用相容散列函数根据精确关键词进行对象的定位与发现。散列函数总是试图保证生成的散列值均匀随机分布,结果两个内容相似度很高但不完全相同的对象被生成了完全不同的散列值,存放到了完全随机的两个结点上。因此,DHT可以提供精确匹配查询,但是支持语义是非常困难的。
目前在DHT基础上开展带有语义的资源管理技术的研究还非常少。由于DHT的精确关键词映射的特性决定了无法和信息检索等领域的研究成果结合,阻碍了基于DHT的P2P系统的大规模应用。
P2P发现技术中最重要的研究成果应该是基于small world理论的非结构化发现算法和基于DHT的结构化发现算法。尤其是DHT及其发现技术为资源的组织与查找提供了一种新的方法。
随着P2P系统实际应用的发展,物理网络中影响路由的一些因素开始影响P2P发现算法的效率。一方面,实际网络中结点之间体现出较大的差异,即异质性。由于客户机/服务器模式在Internet和分布式领域十几年的应用和大量种类的电子设备的普及,如手提电脑、移动电话或PDA。这些设备在计算能力、存储空间和电池容量上差别很大。另外,实际网络被路由器和交换机分割成不同的自治区域,体现出严密的层次性。
另一方面,网络波动的程度严重影响发现算法的效率。网络波动(Churn、fluctuation of network)包括结点的加入、退出、失败、迁移、并发加入过程、网络分割等。DHT的发现算法如Chord、CAN、Koorde等都是考虑网络波动的最差情况下的设计与实现。由于每个结点的度数尽量保持最小,这样需要响应的成员关系变化的维护可以比较小,从而可以快速恢复网络波动造成的影响。但是每个结点仅有少量路由状态的代价是发现算法的高延时,因为每一次查找需要联系多个结点,在稳定的网络中这种思路是不必要的。
同时,作为一种资源组织与发现技术必然要支持复杂的查询,如关键词、内容查询等。尽管信息检索和数据挖掘领域提供了大量成熟的语义查询技术,由于DHT精确关键词映射的特性阻碍了DHT在复杂查询方面的应用。
P2P普及系列之八
Internet作为当今人类社会信息化的标志,其规模正以指数速度高速增长.如今Internet的“面貌”已与其原型ARPANET大相径庭,依其高度的复杂性,可以将其看作一个由计算机构成的“生态系统”.虽然Internet是人类亲手建造的,但却没有人能说出这个庞然大物看上去到底是个什么样子,运作得如何.Internet拓扑建模研究就是探求在这个看似混乱的网络之中蕴含着哪些还不为我们所知的规律.发现Internet拓扑的内在机制是认识Internet的必然过程,是在更高层次上开发利用Internet的基础.然而,Internet与生俱来的异构性动态性发展的非集中性以及如今庞大的规模都给拓扑建模带来巨大挑战.Internet拓扑建模至今仍然是一个开放性问题,在计算机网络研究中占有重要地位.
Internet拓扑作为Internet这个自组织系统的“骨骼”,与流量协议共同构成模拟Internet的3个组成部分,即在拓扑网络中节点间执行协议,形成流量.Internet拓扑模型是建立Internet系统模型的基础,由此而体现的拓扑建模意义也可以说就是Internet建模的意义,即作为一种工具,人们用其来对Internet进行分析预报决策或控制.Internet模型中的拓扑部分刻画的是Internet在宏观上的特征,反映一种总体趋势,所以其应用也都是在大尺度上展开的.对Internet拓扑模型的需求主要来自以下几个方面1) 许多新应用或实验不适合直接应用于Internet,其中一些具有危害性,如蠕虫病毒在大规模网络上的传播模拟;(2) 对于一些依赖于网络拓扑的协议(如多播协议),在其研发阶段,当前Internet拓扑只能提供一份测试样本,无法对协议进行全面评估,需要提供多个模拟拓扑环境来进行实验;(3) 从国家安全角度考虑,需要在线控制网络行为,如美国国防高级研究计划局(DARPA)的NMS(network modeling and simulation)项目。
随机网络是由N个顶点构成的图中,可以存在条边,我们从中随机连接M条边所构成的网络。还有一种生成随机网络的方法是,给一个概率p,对于中任何一个可能连接,我们都尝试一遍以概率p的连接。如果我们选择M = p,这两种随机网络模型就可以联系起来。对于如此简单的随机网络模型,其几何性质的研究却不是同样的简单。随机网络几何性质的研究是由Paul,Alfréd Rényi和Béla Bollobás在五十年代到六十年代之间完成的。随机网络在Internet的拓扑中占有很重要的位置。
随机网络参数
描述随机网络有一些重要的参数。一个节点所拥有的度是该节点与其他节点相关联的边数,度是描述网络局部特性的基本参数。网络中并不是所有节点都具有相同的度,系统中节点度的分布情况,可以用分布函数描述,度分布函数反映了网络系统的宏观统计特征。理论上利用度分布可以计算出其他表征全局特性参数的量化数值。
聚集系数是描述与第三个节点连接的一对节点被连接的概率。从连接节点的边的意义上,若为第i个节点的度,在由k.个近邻节点构成的子网中,实际存在的边数E(i)与全部k.个节点完全连接时的总边数充的比值定义为节点i的聚集系数。
⑸ 分布存储和集中存储有什么本质区别
分布式 存储就是DAS ,就是服务器里面放着硬盘,多台服务器的话就是分布式存储,数据分散,不易于管理。
集中存储就是 NAS,SAN,将服务器和硬盘分开,数据都存放NAS设备中,NAS设备再级联磁盘阵列,然后多个服务器对这个NAS设备进行访问,操作,集中数据管理,提高利用率,解放服务器!
⑹ 集中式存储和分布式存储有什么区别
区别:
1、物理介质分布不同。
集中存储:物理介质集中布放。
分布存储:物理介质分布到不同的地理位置。
2、视频流上传不同:
集中存储:视频流上传到中心。
分布存储:视频流就近上传,对骨干网带宽没有什么要求;可采用多套低端的小容量的存储设备分布部署,设备价格和维护成本较低;小容量设备分布部署,对机房环境要求低。
3、对机房有要求不同:
集中存储:对机房环境要求高,要求机房空间大,承重、空调等都是需要考虑的问题。
分布存储:对骨干网带宽没有什么要求,可采用多套低端的小容量的存储设备分布部署,设备价格和维护成本较低;。小容量设备分布部署,对机房环境要求低。
(6)集中式存储分布图扩展阅读:
集中存储:
指建立一个庞大的数据库,把各种信息存入其中,各种功能模块围绕信息库的周围并对信息库进行录入、修改、查询、删除等操作的组织方式。
分布式存储系统:
是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。
分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
网络-集中存储
网络-分布式存储系统
⑺ 网络存储技术的工作原理是什么有图解释么
网络存储技术(Network Storage Technologies)是基于数据存储的一种通用网络术语。网络存储结构大致分为三种:直连式存储(DAS:Direct Attached Storage)、网络存储设备(NAS:Network Attached Storage)和存储网络(SAN:Storage Area Network)。
网络存储技术
直连式存储(DAS):这是一种直接与主机系统相连接的存储设备,如作为服务器的计算机内部硬件驱动。到目前为止,DAS 仍是计算机系统中最常用的数据存储方法。 DAS即直连方式存储,英文全称是Direct Attached Storage。中文翻译成“直接附加存储”。顾名思义,在这种方式中,存储设备是通过电缆(通常是SCSI接口电缆)直接到服务器的。I/O(输入/输入)请求直接发送到存储设备。DAS,也可称为SAS(Server-Attached Storage,服务器附加存储)。它依赖于服务器,其本身是硬件的堆叠,不带有任何存储操作系统。
DAS的适用环境为:
1) 服务器在地理分布上很分散,通过SAN(存储区域网络)或NAS(网络直接存储)在它们之间进行互连非常困难时(商店或银行的分支便是一个典型的例子); 2) 存储系统必须被直接连接到应用服务器(如Microsoft Cluster Server或某些数据库使用的“原始分区”)上时; 3) 包括许多数据库应用和应用服务器在内的应用,它们需要直接连接到存储器上,群件应用和一些邮件服务也包括在内。 典型DAS结构如图所示: 典型DAS结构如图所示
对于多个服务器或多台PC的环境,使用DAS方式设备的初始费用可能比较低,可是这种连接方式下,每台PC或服务器单独拥有自己的存储磁盘,容量的再分配困难;对于整个环境下的存储系统管理,工作烦琐而重复,没有集中管理解决方案。所以整体的拥有成本(TCO)较高。目前DAS基本被NAS所代替。下面是DAS与NAS的比较。 DAS与NAS的比较图
网络存储设备(NAS):NAS 是一种采用直接与网络介质相连的特殊设备实现数据存储的机制。由于这些设备都分配有 IP 地址,所以客户机通过充当数据网关的服务器可以对其进行存取访问,甚至在某些情况下,不需要任何中间介质客户机也可以直接访问这些设备。
NAS网络存储器
1. 最大存储容量
最存储大存储容量是指NAS存储设备所能存储数据容量的极限,通俗的讲,就是NAS设备能够支持的最大硬盘数量乘以单个硬盘容量就是最大存储容量。这个数值取决于NAS设备的硬件规格。不同的硬件级别,适用的范围不同,存储容量也就有所差别。通常,一般小型的NAS存储设备会支持几百GB的存储容量,适合中小型公司作为存储设备共享数据使用,而中高档的NAS设备应该支持T级别的容量(1T=1000G)。
2. 处理器
同普通电脑类似,NAS产品也都具有自己的处理器(CPU)系统,来协调控制整个系统的正常运行。其采用的处理器也常常与台式机或服务器的CPU大体相同。目前主要有以下几类。 (1)Intel系列处理器 (4)AMD系列处理器 (5)PA-RISC型处理器 (6)PowerPC处理器 (7)MIPS处理器 一般针对中小型公司使用NAS产品采用AMD的处理器或Intel PIII/PIV等处理器。而大规模应用的NAS产品则使用Intel Xeon处理器、或者RISC型处理器等。但是也不能一概而论,视具体应用和厂商规划而定。
3. 内存
NAS从结构上讲就是一台精简型的电脑,每台NAS设备都配备了一定数量的内存,而且大多用户以后可以扩充。在NAS设备中,常见的内存类型由SDRAM(同步内存)、FLASH(闪存)等。不同的NAS产品出厂时配备的内存容量不同,一般为几十兆到数GB(1GB=1000MB)容量不等,这取决于NAS产品的应用范围,一般来讲,应用在小规模的局域网当中的NAS,如果只是应付几台设备的访问,64M以下内存容量即可。如果是上百个节点以上的访问,就得需要上G容量的内存。当然,这不是绝对的因素,NAS产品的综合性能发挥还取决于它的处理器能力、硬盘速度及其网络实际环境等因素的制约。总之,选购NAS产品时,应该综合考虑各个方面的性能参数。
4. 接口
NAS产品的外部接口比较简单,由于只是通过内置网卡与外界通讯,所以一般只具有以太网络接口,通常是RJ45规格,而这种接口网卡一般都是100M网卡或1000M网卡。另外,也有部分NAS产品需要与SAN(存储区域网络)产品连接提供更为强大的功能,所以也可能会有FC(Fiber Channel光纤通道)接口。
5. 预置软件系统
预制操作系统是指NAS产品出厂时随机带的操作系统或者管理软件。目前NAS产品一般带有以下几种系统软件。 精简的WINDOWS2000系统 这类系统只是保留了WINDOWS2000 SERVER系统核心网络中最重要的部分,能够驱动NAS产品正常工作。我们可以把它理解为WINDOWS2000的“精简版”。 FreeBSD嵌入式系统 FreeBSD是类UNIX系统,在网络应用方面具备极其优异的性能。 Linux嵌入式系统 Linux系统类似于UNIX操组系统,但相比之下具有界面友好、内核升级迅速等特点。常常用来作为电器等产品的嵌入式控制系统。
6. 网络管理
网络管理,是指网络管理员通过网络管理程序对网络上的资源进行集中化管理的操作,包括配置管理、性能和记账管理、问题管理、操作管理和变化管理等。一台设备所支持的管理程度反映了该设备的可管理性及可操作性。 一般的网络满足SNMP MIB I / MIB II统计管理功能。常见的网络管理方式有以下几种: (1)SNMP管理技术 (2)RMON管理技术 (3)基于WEB的网络管理 SNMP是英文“Simple Network Management Protocol”的缩写,中文意思是“简单网络管理协议”。SNMP首先是由Internet工程任务组织(Internet Engineering Task Force)(IETF)的研究小组为了解决Internet上的路由器管理问题而提出的。 SNMP是目前最常用的环境管理协议。SNMP被设计成与协议无关,所以它可以在IP,IPX,AppleTalk,OSI以及其他用到的传输协议上被使用。SNMP是一系列协议组和规范(见下表),它们提供了一种从网络上的设备中收集网络管理信息的方法。SNMP也为设备向网络管理工作站报告问题和错误提供了一种方法。 目前,几乎所有的网络设备生产厂家都实现了对SNMP的支持。领导潮流的SNMP是一个从网络上的设备收集管理信息的公用通信协议。设备的管理者收集这些信息并记录在管理信息库(MIB)中。这些信息报告设备的特性、数据吞吐量、通信超载和错误等。MIB有公共的格式,所以来自多个厂商的SNMP管理工具可以收集MIB信息,在管理控制台上呈现给系统管理员。 通过将SNMP嵌入数据通信设备,如交换机或集线器中,就可以从一个中心站管理这些设备,并以图形方式查看信息。目前可获取的很多管理应用程序通常可在大多数当前使用的操作系统下运行,如Windows3.11、Windows95 、Windows NT和不同版本UNIX的等。 一个被管理的设备有一个管理代理,它负责向管理站请求信息和动作,代理还可以借助于陷阱为管理站提供站动提供的信息,因此,一些关键的网络设备(如集线器、路由器、交换机等)提供这一管理代理,又称SNMP代理,以便通过SNMP管理站进行管理。
7. 网络协议
网络协议即网络中(包括互联网)传递、管理信息的一些规范。如同人与人之间相互交流是需要遵循一定的规矩一样,计算机之间的相互通信需要共同遵守一定的规则,这些规则就称为网络协议。 一台计算机只有在遵守网络协议的前提下,才能在网络上与其他计算机进行正常的通信。网络协议通常被分为几个层次,每层完成自己单独的功能。通信双方只有在共同的层次间才能相互联系。常见的协议有:TCP/IP协议、IPX/SPX协议、NetBEUI协议等。在局域网中用得的比较多的是IPX/SPX.。用户如果访问Internet,则必须在网络协议中添加TCP/IP协议。 TCP/IP是“transmission Control Protocol/Internet Protocol”的简写,中文译名为传输控制协议/互联网络协议)协议, TCP/IP(传输控制协议/网间协议)是一种网络通信协议,它规范了网络上的所有通信设备,尤其是一个主机与另一个主机之间的数据往来格式以及传送方式。TCP/IP是INTERNET的基础协议,也是一种电脑数据打包和寻址的标准方法。在数据传送中,可以形象地理解为有两个信封,TCP和IP就像是信封,要传递的信息被划分成若干段,每一段塞入一个TCP信封,并在该信封面上记录有分段号的信息,再将TCP信封塞入IP大信封,发送上网。在接受端,一个TCP软件包收集信封,抽出数据,按发送前的顺序还原,并加以校验,若发现差错,TCP将会要求重发。因此,TCP/IP在INTERNET中几乎可以无差错地传送数据。 对普通用户来说,并不需要了解网络协议的整个结构,仅需了解IP的地址格式,即可与世界各地进行网络通信。 IPX/SPX是基于施乐的XEROX’S Network System(XNS)协议,而SPX是基于施乐的XEROX’S SPP(Sequenced Packet Protocol:顺序包协议)协议,它们都是由novell公司开发出来应用于局域网的一种高速协议。它和TCP/IP的一个显着不同就是它不使用ip地址,而是使用网卡的物理地址即(MAC)地址。在实际使用中,它基本不需要什么设置,装上就可以使用了。由于其在网络普及初期发挥了巨大的作用,所以得到了很多厂商的支持,包括microsoft等,到现在很多软件和硬件也均支持这种协议。 NetBEUI即NetBios Enhanced User Interface ,或NetBios增强用户接口。它是NetBIOS协议的增强版本,曾被许多操作系统采用,例如Windows for Workgroup、Win 9x系列、Windows NT等。NETBEUI协议在许多情形下很有用,是WINDOWS98之前的操作系统的缺省协议。总之NetBEUI协议是一种短小精悍、通信效率高的广播型协议,安装后不需要进行设置,特别适合于在“网络邻居”传送数据。所以建议除了TCP/IP协议之外,局域网的计算机最好也安上NetBEUI协议。另外还有一点要注意,如果一台只装了TCP/IP协议的WINDOWS98机器要想加入到WINNT域,也必须安装NetBEUI协议。
8. 网络文件协议
网络文件系统是基于网络的分布式文件系统,其文件系统树的各节点可以存在于不同的联网计算机甚至不同的系统平台上,可以用来提供跨平台的信息存储与共享。 当今最主要的两大网络文件系统是Sun提出的NFS(Network File System)以及由微软、EMC和NetApp提出的CIFS(Common Internet File System),前者主要用于各种Unix平台,后者则主要用于Windows平台,我们熟悉的“网上邻居”的文件共享方式就是基于CIFS系统的。其他着名的网络文件系统还有Novell公司的NCP(网络控制协议)、Apple公司的AFP以及卡内基-梅隆大学的Coda等,NAS的主要功能之一便是通过各种网络文件系统提供存储服务。
9. 网络备份软件
目前在数据存储领域可以完成网络数据备份管理的软件产品主要有Legato公司的NetWorker、IBM公司 的Tivoli、Veritas公司 的NetBackup等。另外有些操作系统,诸如Unix的tar/cpio、Windows2000/NT的Windows Backup、Netware的Sbackup也可以作为NAS的备份软件。
NetBackup
NetBackup是Veritas公司推出的适用于中型和大型的存储系统的备份软件,可以广泛的支持各种开放平台。另外该公司还推出了适合低端的备份软件Backup Exec。
NetWorker
NetWorker是Legato公司推出的备份软件,它适用于大型的复杂网络环境,具有各种先进的备份技术机制,广泛的支持各种开放系统平台。值得一提的是, NetWorker中的Cellestra技术第一个在产品上实现了Serverless Backup(无服务器备份)的思想。
IBM Tivoli
IBM Tivoli是IBM公司推出的备份软件,与Veritas的NetBackup和Legato的NetWorker相比,Tivoli Storage Manager更多的适用于IBM主机为主的系统平台,其强大的网络备份功能可以胜任大规模的海量存储系统的备份需要。 此外,CA公司原来的备份软件ARCServe,在低端市场具有相当广泛的影响力。其新一代备份产品--BrightStor,定位直指中高端市场,也具有不错的性能。 选购备份软件时,应该根据不同的用户需要选择合适的产品,理想的网络备份软件系统应该具备以下功能:
集中式管理
网络存储备份管理系统对整个网络的数据进行管理。利用集中式管理工具的帮助,系统管理员可对全网的备份策略进行统一管理,备份服务器可以监控所有机器的备份作业,也可以修改备份策略,并可即时浏览所有目录。所有数据可以备份到同备份服务器或应用服务器相连的任意一台磁带库内。
全自动的备份
备份软件系统应该能够根据用户的实际需求,定义需要备份的数据,然后以图形界面方式根据需要设置备份时间表,备份系统将自动启动备份作业,无需人工干预。这个自动备份作业是可自定的,包括一次备份作业、每周的某几日、每月的第几天等项目。设定好计划后,备份作业就会按计划自动进行。
数据库备份和恢复
在许多人的观念里,数据库和文件还是一个概念。当然,如果你的数据库系统是基于文件系统的,当然可以用备份文件的方法备份数据库。但发展至今,数据库系统已经相当复杂和庞大,再用文件的备份方式来备份数据库已不适用。是否能够将需要的数据从庞大的数据库文件中抽取出来进行备份,是网络备份系统是否先进的标志之一。
在线式的索引
备份系统应为每天的备份在服务器中建立在线式的索引,当用户需要恢复时,只需点取在线式索引中需要恢复的文件或数据,该系统就会自动进行文件的恢复。
归档管理
用户可以按项目、时间定期对所有数据进行有效的归档处理。提供统一的Open Tape Format 数据存储格式从而保证所有的应用数据由一个统一的数据格式作为永久的保存,保证数据的永久可利用性。
有效的媒体管理
备份系统对每一个用于作备份的磁带自动加入一个电子标签,同时在软件中提供了识别标签的功能,如果磁带外面的标签脱落,只需执行这一功能,就会迅速知道该磁带的内容。
满足系统不断增加的需求
备份软件必须能支持多平台系统,当网络上连接上其它的应用服务器时,对于网络存储管理系统来说,只需在其上安装支持这种服务器的客户端软件即可将数据备份到磁带库或光盘库中。
10. 网站浏览器支持
网站浏览器支持是指能否够通过WEB(就是WWW,俗称互联网)手段对NAS产品进行管理,以及管理时使用的浏览器类型。绝大部分的NAS产品都支持WEB管理,这样的好处是管理方便,用户在任何地方只要能够上网就可以轻松的管理NAS设备。 目前NAS产品支持的常用浏览器有微软的IE(Internet Explorer)浏览器以及网景公司的Netscape浏览器。
11. 网络服务
网络服务是指NAS产品在运行时系统能够提供何种服务。典型的网络服务有DHCP、DNS、FTP、Telnet、WINS、SMTP等。
DHCP
DHCP的全名是“Dynamic Host Configuration Protocol”,即动态主机配置协议。在使用DHCP的网络里,用户的计算机可以从DHCP服务器那里获得上网的参数,几乎不需要做任何手工的配置就可以上网。 一般情况下,DHCP服务器会尽量保持每台计算机使用同一个IP地址上网。如果计算机长时间没有上网或配置为使用静态地址上网,DHCP服务器就会把这个地址分配给其他计算机。
WINS
WINS是“Windows Internet Name Service”的简称,中文为Windows网际命名服务,WINS服务器主要用于NetBIOS名字(计算机名称)服务,它处理的是NetBIOS计算机名(Computer Name),所以也被称为NetBIOS名字服务器(NBNS,NetBIOS Name Server)。WINS服务器可以登记WINS-enabled工作站(下面简称为“WINS工作站”)的计算机名、IP地址、DNS域名等数据,当工作站查询名字时,它又可以将这些数据提供给工作站。
DNS
DNS,Domain Name System或者Domain Name Service(域名系统或者余名服务)。域名系统为Internet上的主机分配域名地址和IP地址。用户使用域名地址,该系统就会自动把域名地址转为IP地址。域名服务是运行域名系统的Internet工具。执行域名服务的服务器称之为DNS服务器,通过DNS服务器来应答域名服务的查询。
FTP
文件传输协议FTP(File Transfer Protocol)是Internet传统的服务之一。FTP使用户能在两个联网的计算机之间传输文件,它是Internet传递文件最主要的方法。使用匿名(Anonymous)FTP, 用户可以免费获取Internet丰富的资源。除此之外,FTP还提供登录、目录查询、文件操作及其他会话控制功能。
SMTP
SMTP(Simple Mail Transfer Protocol)即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的规则,由它来控制信件的中转方式。SMTP协议属于TCP/IP协议族,它帮助每台计算机在发送或中转信件时找到下一个目的地。通过SMTP协议所指定的服务器,我们就可以把E-mail寄到收信人的服务器上了,整个过程只要几分钟。SMTP服务器则是遵循SMTP协议的发送邮件服务器,用来发送或中转你发出的电子邮件。
Telnet
有的时候我们需要运行一些很大的程序,而自己的PC又达不到运行这个程序所必须的配置,在这种情况下,我们可以通过网络连接上一台功能强大的计算机,并且把自己的PC模拟成那台计算机的终端,进而达到在该计算机上运行程序的目的。这种利用网络远程登录到其他计算机上,并且以虚拟终端方式遥控程序运行的做法就是TELNET。随着计算机硬件的发展,目前TELNET在一般网络用户中已经不是很普遍了,但是对于网络管理员来说,它仍然是个得力助手。
12. 网络安全
网络安全是指网络系统的硬件、软件及其系统中的数据受到保护,不受偶然的或者恶意的原因而遭到破坏、更改、泄露,系统连续可靠正常地运行,网络服务不中断。 网络安全实际上包括两部分:网络的安全和主机系统的安全。网络安全主要通过设置防火墙来实现,也可以考虑在路由器上设置一些数据包过滤的方法防止来自Internet上的黑客的攻击。至于系统的安全则需根据不同的操作系统来修改相关的系统文件,合理设置用户权限和文件属性。 NAS产品的网络安全应具有以下四个方面的特征: 保密性:信息不泄露给非授权用户、实体或过程,或供其利用的特性。 完整性: 数据未经授权不能进行改变的特性。即信息在存储或传输过程中保持不被修 改、不被破坏和丢失的特性。 可用性:可被授权实体访问并按需求使用的特性。即当需要时能否存取所需的信息。例 如网络环境下拒绝服务、破坏网络和有关系统的正常运行等都属于对可用性的攻击; 可控性:对信息的传播及内容具有控制能力。
13. NAS
NAS是英文“Network Attached Storage”的缩写, 中文意思是“网络附加存储”。按字面简单说就是连接在网络上, 具备资料存储功能的装置,因此也称为“网络存储器”或者“网络磁盘阵列”。 从结构上讲,NAS是功能单一的精简型电脑,因此在架构上不像个人电脑那么复杂,在外观上就像家电产品,只需电源与简单的控制钮, 结构图如下: NAS是一种专业的网络文件存储及文件备份设备,它是基于LAN(局域网)的,按照TCP/IP协议进行通信,以文件的I/O(输入/输出)方式进行数据传输。在LAN环境下,NAS已经完全可以实现异构平台之间的数据级共享,比如NT、UNIX等平台的共享。 一个NAS系统包括处理器,文件服务管理模块和多个硬盘驱动器(用于数据的存储)。 NAS 可以应用在任何的网络环境当中。主服务器和客户端可以非常方便地在NAS上存取任意格式的文件,包括SMB格式(Windows)NFS格式(Unix, Linux)和CIFS(Common Internet File System)格式等等。典型的NAS的网络结构如下图所示: 存储网络(SAN):SAN 是指存储设备相互连接且与一台服务器或一个服务器群相连的网络。其中的服务器用作 SAN 的接入点。在有些配置中,SAN 也与网络相连。SAN 中将特殊交换机当作连接设备。它们看起来很像常规的以太网络交换机,是 SAN 中的连通点。SAN 使得在各自网络上实现相互通信成为可能,同时并带来了很多有利条件。 SAN英文全称:Storage Area Network,即存储区域网络。它是一种通过光纤集线器、光纤路由器、光纤交换机等连接设备将磁盘阵列、磁带等存储设备与相关服务器连接起来的高速专用子网。 SAN由三个基本的组件构成:接口(如SCSI、光纤通道、ESCON等)、连接设备(交换设备、网关、路由器、集线器等)和通信控制协议(如IP和SCSI等)。这三个组件再加上附加的存储设备和独立的SAN服务器,就构成一个SAN系统。SAN提供一个专用的、高可靠性的基于光通道的存储网络,SAN允许独立地增加它们的存储容量,也使得管理及集中控制(特别是对于全部存储设备都集群在一起的时候)更加简化。而且,光纤接口提供了10 km的连接长度,这使得物理上分离的远距离存储变得更容易.
⑻ 请教各位达人:数据挖掘教材的电子书下载地址
帮你找到以下材料,希望对你有用
数据库系统工程师级考试大纲
一、考试说明
1.考试要求
(1)掌握计算机体系结构以及各主要部件的性能和基本工作原理;
(2)掌握操作系统、程序设计语言的基础知识,了解编译程序的基本知识;
(3)熟练掌握常用数据结构和常用算法;
(4)熟悉软件工程和软件开发项目管理的基础知识;
(5)熟悉计算机网络的原理和技术;
(6)掌握数据库原理及基本理论;
(7)掌握常用的大型数据库管理系统的应用技术;
(8)掌握数据库应用系统的设计方法和开发过程;
(9)熟悉数据库系统的管理和维护方法,了解相关的安全技术;
(10)了解数据库发展趋势与新技术;
(11)掌握常用信息技术标准、安全性,以及有关法律、法规的基本知识;
(12)了解信息化、计算机应用的基础知识;
(13)正确阅读和理解计算机领域的英文资料。
2. 通过本考试的合格人员能参与应用信息系统的规划、设计、构建、运行和管理,能按照用户需求,设计、建立、运行、维护高质量的数据库和数据仓库;作为数据管理员管理信息系统中的数据资源,作为数据库管理员建立和维护核心数据库;担任数据库系统有关的技术支持,同时具备一定的网络结构设计及组网能力;具有工程师的实际工作能力和业务水平,能指导计算机技术与软件专业助理工程师(或技术员)工作。
3. 本考试设置的科目包括
(1)信息系统知识,考试时间为150分钟,笔试;
(2)数据库系统设计与管理,考试时间为150分钟,笔试。
二、考试范围
考试科目1:信息系统知识
1. 计算机系统知识
1.1 硬件知识
1.1.1 计算机体系结构和主要部件的基本工作原理
·CPU和存储器的组成、性能、基本工作原理
·常用I/O设备、通信设备的性能,以及基本工作原理
·I/O接口的功能、类型和特点
·CISC/RISC,流水线操作,多处理机,并行处理
1.1.2 存储系统
·虚拟存储器基本工作原理,多级存储体系
·RAID类型和特性
1.1.3 安全性、可靠性与系统性能评测基础知识
·诊断与容错
·系统可靠性分析评价
· 计算机系统性能评测方法
1.2 数据结构与算法
1.2.1 常用数据结构
·数组(静态数组、动态数组)
·线性表、链表(单向链表、双向链表、循环链表)
·栈和队列
·树(二叉树、查找树、平衡树、遍历树、堆)、图、集合的定义、存储和操作
·Hash(存储位置计算、碰撞处理)
1.2.2 常用算法
·排序算法、查找算法、数值计算、字符串处理、数据压缩算法、递归算法、图的相关算法
·算法与数据结构的关系,算法效率,算法设计,算法描述(流程图、伪代码、决策表),算法的复杂性
1.3 软件知识
1.3.1 操作系统知识
·操作系统的类型、特征、地位、内核(中断控制)、进程、线程概念
·处理机管理(状态转换、同步与互斥、信号灯、分时轮转、抢占、死锁)
·存储管理(主存保护、动态连接分配、分段、分页、虚存)
·设备管理(I/O控制、假脱机、磁盘调度)
·文件管理(文件目录、文件的结构和组织、存取方法、存取控制、恢复处理、共享和安全)
·作业管理(作业调度、作业控制语言(JCL)、多道程序设计)
·汉字处理,多媒体处理,人机界面
·网络操作系统和嵌入式操作系统基础知识
·操作系统的配置
1.3.2 程序设计语言和语言处理程序的知识
· 汇编、编译、解释系统的基础知识和基本工作原理
· 程序设计语言的基本成分:数据、运算、控制和传输,程序调用的实现机制
· 各类程序设计语言的主要特点和适用情况
1.4 计算机网络知识
·网络体系结构(网络拓扑、OSI/RM、基本的网络协议)
·传输介质,传输技术,传输方法,传输控制
·常用网络设备和各类通信设备
·Client/Server结构、Browser/Server结构、Browser/Web/Datebase结构
·LAN拓扑,存取控制,LAN的组网,LAN间连接,LAN-WAN连接
·因特网基础知识及应用
·网络软件
·网络管理
·网络性能分析
·网络有关的法律、法规
2. 数据库技术
2.1 数据库技术基础
2.1.1 数据库模型
·数据库系统的三级模式(概念模式、外模式、内模式),两级映像(概念模式/外模式、外模式/内模式)
·数据库模型:数据模型的组成要素,概念数据模型ER图(实体、属性、关系),逻辑数据模型(关系模型、层次模型、网络模型)
2.1.2 数据库管理系统的功能和特征
·主要功能(数据库定义、数据库操作、数据库控制、事务管理、用户视图)
·特征(确保数据独立性、数据库存取、同时执行过程、排它控制、故障恢复、安全性、完整性)
·RDB(关系数据库),OODB(面向对象数据库),ORDB(对象关系数据库),NDB(网状数据库)
·几种常用Web数据库的特点
2.1.3 数据库系统体系结构
· 集中式数据库系统
· Client/Server数据库系统
· 并行数据库系统
· 分布式数据库系统
· 对象关系数据库系统
2.2 数据操作
2.2.1 关系运算
·关系代数运算(并、交、差、笛卡儿积、选择、投影、连接、除)
·元组演算
·完整性约束
2.2.2 关系数据库标准语言(SQL)
·SQL的功能与特点
·用SQL进行数据定义(表、视图、索引、约束)
·用SQL进行数据操作(数据检索、数据插入/删除/更新、触发控制)
·安全性和授权
·程序中的API,嵌入SQL
2.3 数据库的控制功能
·数据库事务管理(ACID属性)
·数据库备份与恢复技术(UNDO、REDO)
·并发控制
2.4 数据库设计基础理论
2.4.1 关系数据库设计
·函数依赖
·规范化(第一范式、第二范式、第三范式、BC范式、第四范式、第五范式)
·模式分解及分解应遵循的原则
2.4.2 对象关系数据库设计
·嵌套关系、 复杂类型,继承与引用类型
·与复杂类型有关的查询
·SQL中的函数与过程
·对象关系
2.5 数据挖掘和数据仓库基础知识
·数据挖掘应用和分类
·关联规则、聚类
·数据仓库的成分
·数据仓库的模式
2.6 多媒体基本知识
2.6.1 多媒体技术基本概念
·多媒体系统基础知识
·常用多媒体文件格式
2.6.2 多媒体压缩编码技术
·多媒体压缩编码技术
·统计编码
·预测编码
·编码的国际标准
2.6.3多媒体技术应用
·简单图形的绘制,图像文件的处理方法
·音频和视频信息的应用
·多媒体应用开发过程
2.7 系统性能知识
·性能计算(响应时间、吞吐量、周转时间)
·性能指标和性能设计
·性能测试和性能评估
2.8 计算机应用基础知识
·信息管理、数据处理、辅助设计、科学计算,人工智能等基础知识
·远程通信服务及相关通信协议基础知识
3. 系统开发和运行维护知识
3.1 软件工程、软件过程改进和软件开发项目管理知识
·软件工程知识
·软件开发生命周期阶段目标和任务
·软件开发项目基础知识(时间管理、成本管理、质量管理、人力资源管理、风险管理等)及其常用管理工具
·主要的软件开发方法(生命周期法、原型法、面向对象法、CASE)
·软件开发工具与环境知识
·软件质量管理基础知识
·软件过程改进基础知识
·软件开发过程评估、软件能力成熟度评估的基础知识
3.2 系统分析基础知识
·系统分析的目的和任务
·结构化分析方法(数据流图(DFD)和数据字典(DD),实体关系图(ERD),描述加工处理的结构化语言)
·统一建模语言(UML)
·系统规格说明书
3.3 系统设计知识
·系统设计的目的和任务
·结构化设计方法和工具(系统流程图、HIPO图、控制流程图)
·系统总体结构设计(总体布局,设计原则,模块结构设计,数据存取设计,系统配置方案)
·系统详细设计(代码设计、数据库设计、用户界面设计、处理过程设计)
·系统设计说明书
3.4 系统实施知识
·系统实施的主要任务
·结构化程序设计、面向对象程序设计、可视化程序设计
·程序设计语言的选择、程序设计风格
·系统测试的目的、类型,系统测试方法(黑盒测试、白盒测试、灰盒测试)
·测试设计和管理(错误曲线、错误排除、收敛、注入故障、测试试用例设计、系统测试报告)
·系统转换基础知识
3.5 系统运行和维护知识
·系统运行管理知识
·系统维护知识
·系统评价知识
4. 安全性知识
·安全性基本概念(网络安全、操作系统安全、数据库安全)
·计算机病毒的防治,计算机犯罪的防范,容灾
·访问控制、防闯入、安全管理措施
·加密与解密机制
·风险分析、风险类型、抗风险措施和内部控制
5.标准化知识
·标准化意识,标准化的发展,标准出台过程
·国际标准、国家标准、行业标准、企业标准基本知识
·代码标准、文件格式标准、安全标准软件开发规范和文档标准
·标准化机构
6.信息化基础知识
·信息化意识
·全球信息化趋势、国家信息化战略、企业信息化战略和策略
·有关的法律、法规
·远程教育、电子商务、电子政务等基础知识
·企业信息资源管理基础知识
7.计算机专业英语
·掌握计算机技术的基本词汇
·能正确阅读和理解计算机领域的英文资料
考试科目2:数据库系统设计与管理
1.数据库设计
1.1理解系统需求说明
·了解用户需求、确定系统范围
·确定应用系统数据库的各种关系
·现有环境与新系统环境的关系
·新系统中的数据项、数据字典、数据流
1.2 系统开发的准备
·选择开发方法,准备开发环境,制订开发计划
1.3 设计系统功能
·选择系统机构,设计各子系统的功能和接口,设计安全性策略、需求和实现方法,制定详细的工作流和数据流
1.4 数据库设计
1.4.1 设计数据模型
·概念结构设计(设计ER模型)
·逻辑结构设计(转换成DBMS所能接收的数据模型)
·评审设计
1.4.2 物理结构设计
·设计方法与内容
·存取方法的选择
·评审设计与性能预测
1.4.3 数据库实施与维护
·数据加载与应用程序调试
·数据库试运行
·数据库运行与维护
1.4.4 数据库的保护
·数据库的备份与恢复
·数据库的安全性
·数据库的完整性
·数据库的并发控制
1.5 编写外部设计文档
·编写系统说明书(系统配置图、各子系统关系图、系统流程图,系统功能说明、输入输出规格说明、数据规格说明、用户手册框架)
·设计系统测试要求
1.6 设计评审
2. 数据库应用系统设计
2.1 设计数据库应用系统结构
·信息系统的架构(如Client/Server)与DBMS
·多用户数据库环境(文件服务器体系结构、Client/Server体系结构)
·大规模数据库和并行计算机体系结构(SMP、MPP)
·中间件角色和相关工具
·按构件分解,确定构件功能规格以及构件之间的接口
2.2 设计输入输出
·屏幕界面设计,设计输入输出检查方法和检查信息
·数据库交互与连接(掌握C程序设计语言,以及Java、Visual Basic、Visual C++、PowerBuilder、Delphi中任一种开发工具与数据库互连的方法(如何与数据库服务器沟通))
2.3 设计物理数据
·分析事务在数据库上运行的频率和性能要求,确定逻辑数据组织方式、存储介质,设计索引结构和处理方式
·将逻辑数据结构变换成物理数据结构,计算容量(空间代价),确定存取方法(时间效率)、系统配置(维护代价)并进行优化
2.4 设计安全体系
·明确安全等级
·数据库的登录方式
·数据库访问
·许可(对象许可、命令许可、授权许可的方法)
2.5 应用程序开发
2.5.1 应用程序开发
·选择应用程序开发平台
·系统实施顺序
·框架开发
·基础小组的程序开发
·源代码控制
·版本控制
2.5.2 模块划分(原则、方法、标准)
2.5.3 编写程序设计文档
·模块规格说明书(功能和接口说明、程序处理逻辑的描述、输入输出数据格式的描述)
·测试要求说明书(测试类型和目标,测试用例,测试方法)
2.5.4 程序设计评审
2.6 编写应用系统设计文档
·系统配置说明、构件划分图、构件间的接口、构件处理说明、屏幕设计文档、报表设计文档、程序设计文档、文件设计文档、数据库设计文档
2.7 设计评审
3. 数据库应用系统实施
3.1 整个系统的配置与管理
3.2 常用数据库管理系统的应用(SQL Server、Oracle、Sybase、DB2、Access或Visual Foxpro)
·创建数据库
·创建表、创建索引、创建视图、创建约束、创建UDDT(用户自定义类型)
·创建和管理触发器
·建立安全体系
3.3 数据库应用系统安装
·拟定系统安装计划(考虑费用、客户关系、雇员关系、后勤关系和风险等因素)
·拟定人力资源使用计划(组织机构安排的合理性)
·直接安装(安装新系统并使系统快速进入运行状态)
·并行安装(新旧系统并行运行一段时间)
·阶段安装(经过一系列的步骤和阶段使新系统各部分逐步投入运行)
3.4 数据库应用系统测试
·拟定测试目标、计划、方法与步骤
·数据加载,准备测试数据
·指导应用程序员进行模块测试进行验收
·准备系统集成测试环境测试工具
·写出数据库运行测试报告
3.5 培训与用户支持
4.数据库系统的运行和管理
4.1 数据库系统的运行计划
·运行策略的确定
·确定数据库系统报警对象和报警方式
·数据库系统的管理计划(执行,故障/恢复,安全性,完整性,用户培训和维护)
4.2 数据库系统的运行和维护
·新旧系统的转换
·收集和分析报警数据(执行报警、故障报警、安全报警)
·连续稳定的运行
·数据库维护(数据库重构、安全视图的评价和验证、文档维护)
·数据库系统的运行统计(收集、分析、提出改进措施)
·关于运行标准和标准改进一致性的建议
·数据库系统的审计
4.3 数据库管理
·数据字典和数据仓库的管理
·数据完整性维护和管理(实体完整性、参照完整性)
·数据库物理结构的管理(保证数据不推迟访问)
·数据库空间及碎片管理
·备份和恢复(顺序、日志(审计痕迹)、检查点)
·死锁管理(集中式、分布式)
·并发控制(可串行性、锁机制、时间戳、优化)
·数据安全性管理(加密、安全、访问控制、视图、有效性确认规则)
·数据库管理员(DBA)职责
4.4 性能调整
·SQL语句的编码检验
·表设计的评价
·索引的改进
·物理分配的改进
·设备增强
·数据库性能优化
4.5 用户支持
·用户培训
·售后服务
5. SQL
5.1 数据库语言
·数据库语言的要素
·数据库语言的使用方式(交互式和嵌入式)
5.2 SQL概述
·SQL语句的特征
·SQL语句的基本成分
5.3 数据库定义
·创建数据库(Create Datebase)、创建表(Create Table)
·定义数据完整性
·修改表(Alter Table)、删除表(Drop Table)
·定义索引(Create Index)、删除索引(Drop Index)
·定义视图(Create View)、删除视图(Drop View)、更新视图
5.4 数据操作
·Select语句的基本机构
·简单查询
·SQL中的选择、投影
·字符串比较,涉及空值的比较
·日期时间,布尔值,输出排序
·多表查询
·避免属性歧义
·SQL中的连接、并、交、差
·SQL中的元组变量
·子查询
5.5 完整性控制与安全机制
·主键(Primary Key)约束
·外键(Foreign Key)约束
·属性值上的约束(Null、Check、Create Domain)
·全局约束(Create Assertions)
·权限、授权(Grant)、销权(Revoke)
5.6 创建触发器(Create Trigger)
5.7 SQL使用方式
·交互式SQL
·嵌入式SQL
·SQL与宿主语言接口(Declare、共享变量、游标、卷游标)
·动态SQL
·API
5.8 SQL 标准化
6. 网络环境下的数据库
6.1 分布式数据库
6.1.1 分布式数据库的概念
·分布式数据库的特点与目标
6.1.2 分布式数据库的体系结构
·分布式数据库的模式结构
·数据分布的策略(数据分片、分布透明性)
·分布式数据库管理系统
6.1.3 分布式查询处理和优化
6.1.4 分布式事务管理
·分布式数据库的恢复(故障、恢复、2段提交、3段提交)
·分布式数据库的透明性(局部、分裂、复制、处理、并发、执行)
6.1.5 分布式数据库系统的应用
6.2 网络环境下数据库系统的设计与实施
·数据的分布设计
·负载均衡设计
·数据库互连技术
6.3 面向Web的DBMS技术
·三层体系结构
·动态Web网页
·ASP、JSP、XML的应用
7.数据库的安全性
7.1 安全性策略的理解
·数据库视图的安全性策略
·数据的安全级别(最重要的、重要的、注意、选择)
7.2 数据库安全测量
·用户访问控制(采用口令等)
·程序访问控制(包含在程序中的SQL命令限制)
·表的访问控制(视图机制)
·控制访问的函数和操作
·外部存储数据的加密与解密
8. 数据库发展趋势与新技术
8.1 面向对象数据库(OODBMS)
8.1.1 OODBMS的特征
8.1.2 面向对象数据模型
·对象结构、对象类、继承与多重继承、对象标识、对象包含、对象嵌套
8.1.3 面向对象数据库语言
8.1.4 对象关系数据库系统(ORDBMS)
·嵌套关系
·复杂类型
·继承、引用类型
·与复杂类型有关的查询
·函数与过程
·面向对象与对象关系
·ORDBMS应用领域
8.2 企业资源计划(ERP)和数据库
8.2.1 ERP概述
·基本MRP(制造资源计划)、闭环MRP、ERP
·基本原理、发展趋势
·ERP设计的总体思路(一个中心、两类业务、三条干线)
8.2.2 ERP与数据库
·运行数据库与ERP数据模型之间的关系
·运行数据库与ERP数据库之间的关系
8.2.3 案例分析
8.3 决策支持系统的建立
·决策支持系统的概念
·数据仓库设计
·数据转移技术
·联机分析处理(OLAP)技术
·企业决策支持解决方案
·联机事务处理(OLTP)
⑼ 数据处理是什么意思
数据处理是对数据(包括数值的和非数值的)进行分析和加工的技术过程。包括对各种原始数据的分析、整理、计算、编辑等的加工和处理。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。
数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响着人类社会发展的进程。
(9)集中式存储分布图扩展阅读:
计算机数据处理主要包括8个方面:
1、数据采集:采集所需的信息。
2、数据转换:把信息转换成机器能够接收的形式。
3、数据分组:指定编码,按有关信息进行有效的分组。
4、数据组织:整理数据或用某些方法安排数据,以便进行处理。
5、数据计算:进行各种算术和逻辑运算,以便得到进一步的信息。
6、数据存储:将原始数据或计算的结果保存起来,供以后使用。
7、数据检索:按用户的要求找出有用的信息。
8、数据排序:把数据按一定要求排成次序。
参考资料来源:网络-数据处理