⑴ 計算機技術的發展對企業信息化的影響
人類進入了「信息 時代 」,我們的 社會 日益轉型為一個「信息社會」。不過,雖然人們天天都在接觸、利用信息,信息資源也變成了當今社會建設中最寶貴的資源,人們還是對何謂信息不甚了了,感到其難以捉摸。這說明我們還缺乏一個明確、恰切的信息概念的定義。本文試圖結合分析信息概念的本質從哲學的層面上提出一個信息的定義,並在這個定義的范圍內探討一下在人類實踐活動中信息的主要功能的歷史演變。
我們擁有的最初的信息概念是由資訊理論的創立者申農提出的,他把信息定義為用來消除不確定性的東西,具體地說就是在信宿中用來消除對於在信源中發出的消息的不確定性的東西。這第一個信息概念的 內容 反映出它發生於通訊過程中的背景,運用這個概念來理解廣泛存在於我們當今社會中的信息現象肯定是不夠的。比如我們頭腦中現有的知識這種約束性的信息與用來消除不確定性的消息顯然是不同的,它是我們據以理解消息這種非約束性信息的基礎。但是最初的信息概念包含的兩個特質也揭示了成熟的信息概念的兩個本質規定性:第一,信息發生於不確定性的背景上亦即具有多種可能性或偶然性的環境中,因此在嚴格決定論的世界上它的存在是沒有意義的。第二,通訊活動往往與控制活動緊密相關並構成後者的組成部分(控制論中所說的「控制」行為廣義地說包含了能動主體適應世界和改造世界的活動),因此信息的存在與能動主體的目的性行為是不可分的。
在探討信息概念時,我們需要對人們在生活和 科學 研究 中使用「信息」一詞所指稱的廣泛的現象進行概括,這樣最終我們會發現有兩個基本對象,其中一個屬於客觀世界本身所具有的性質,另一個則產生於生活主體和客觀世界相互作用的關系之中。控制論的創始人維納就從這兩個意義上闡述過信息。一方面他說:「信息就是組織程度的度量」,是「負熵」⑴,另一方面又說:「信息是我們適應外部世界,並且使這種適應為外部世界所感到的過程中,同外部世界進行交換的內容的名稱。」⑵後一種信息是不能脫離接受者的解釋結構而存在的,維納舉例講道: 音樂 對於懂音樂的人來說會產生這種「在語義學上有意義的信息」,對於不懂音樂的人來說則不會。蘇聯《哲學詞典》俄文1980年第4版在「信息」這個詞條下也寫道:「在信息概念中應該區別出兩個方面。在第一個方面,信息乃是系統的組織性的程度。信息的數學表達式和熵的數學表達式,除符號相反外是一樣的。正如系統的熵表示系統的紊亂性程度,而信息表示系統的組織性程度。這樣理解的信息構成系統、過程本身的內部所有物,可以叫作結構信息。在第二個方面,應該把密切地與反映相聯系的信息和結構信息區別開。如果一個事物中發生反映另一事物作用的變化,那末可以說這一事物就成為關於另一事物的信息的負荷者。對於控制論系統來說,B由A的作用所引起的變化,不只是B對A的某些鑒別,而是控制論系統B的功能活動的因素。」在這里我們看出蘇聯學者繼承和闡發了維納的思想,他們明確區分出表示事物本身的規定性的結構信息(又稱絕對信息)和產生於控制系統對周圍事物的反映之中的功能信息(又稱相對信息)。用資訊理論的術語來說,就是前一種信息的存在只要考慮到信源就可以了,而後一種信息的存在還必須考慮到信宿。上述思想可供我們在對信息進行哲學的全面概括時加以借鑒,使信息概念不必具有單一層次的內涵。
我認為信息可作如下定義:信息是客觀世界中物質和能量存在和變動的有序形式,和自組織系統對這個形式的能動的反映及改組。其中前一個表語表述了信息概念的第一層次內涵,或者說廣義內涵,後一個表語表述了信息概念的第二層次內涵,或者說狹義內涵。
先說信息概念的第一層次內涵。維納曾經說:「信息就是信息,不是物質也不是能量」⑷。那末信息究竟是什麼呢?我認為它是物質和能量運動的有序形式。
古希臘哲學家亞里士多德最早與「質料」范疇相對提出「形式」范疇。質料是事物的物質基質,形式則是物質基質存在的樣式。形式必須附著在質料上而存在,但是它又具有相對的獨立性,這表現在比如大理石這塊質料,既可以把它雕刻成人像而具有「人」的形式,又可以把它雕刻成馬像而具有「馬」的形式。僅限於這個范圍內來說,這對范疇與「實體」和「屬性」這對范疇是相通的。在上述定義中,我正是把物質和能量看作為實體性的東西,而把信息看作為它們表現出來的屬性。我們可以把一定的物質和能量與它們表現出的屬性作這種相對區分。我們知道,客觀世界中的物質和能量是保持著一定的數量、既不能創造也不能消滅的,但是物質和能量具體存在的形式可以變化。物質和能量存在的各種具體形式是由它們特殊的組合和運動的方式所決定的,並且在不同的層次上展開。信息概念的第一層次內涵就是物質和能量存在和運動所表現出的這些具體形式。在這里我們要對「形式」的含義作廣泛的理解,它是實體的一切可分辨的屬性的總稱,包括事物的結構形式、運動狀態以及相互作用的方式等一切確定性。
對信息所作的這個本質規定是和科學家們提出的下述定義相通的——信息是物質和能量在時間和空間中的不均勻分布,是負熵,是事物系統的組織性程度。因為物質和能量存在和運動的各種可以把捉的特定形式,只能由物質和能量在時間和空間中的各種不均勻分布造成。熱力學第二定律指出的一個孤立系統內部趨向達到的熵最大狀態,是一個物質和能量在時空中均勻分布的狀態,這是一種混沌的單調的狀態,其中沒有任何可分辨的形式,也就沒有信息。我們由此看到信息是有序性的形式。與此相聯系產生了信息的度量的 問題 ,一個系統內的物質、能量在時空中分布的不均勻程度愈是大,其所含信息量愈是多,亦即其組織性、有序性愈是高,這說明它的物質、能量運動的形式愈是復雜、有機。一個系統所包含的信息量,相當於使該系統從某種初始的無序狀態過渡到有組織的狀態而應當輸入系統中的信息量。人體從單個分子構成其有機整體所需要的信息量為3 x 1026比特這樣一個巨大的數字。一塊無機的礦石所包含的信息量是與此不能相比的。從這里我們可以看出,信息是以一種新的統一的觀點來看待物質世界。過去我們曾經用「質量」對不同的物質進行統一的度量,又用「能量」對不同的運動進行統一的度量,現在我們可以用「信息量」來對不同事物具有的規定性、性質進行統一的度量,信息量表示出事物組織性、有序性程度高低的不同。
因為信息不是事物的物質和能量本身,而是它們運動的形式,所以它可以通過同構關系被傳遞。所謂同構,簡單地說,就是一個系統的物質、能量過程與另一個系統的物質、能量過程在組織結構和運動秩序上的一定對應。比如氣溫表上水銀柱的不同高度對應著不同的氣溫,水銀柱高度的一定變化對應著氣溫的一定變化,因此我們說氣溫表傳達了氣溫的信息。我們人在生活中攝取關於外界環境的信息,也並不是把環境中事物的物質基質和能量本身吸收到我們腦子中來,而是以腦內神經脈沖的次序和強度的不同組合形式來對應於環境中事物的不同狀態特徵。這樣我們就可以解釋為什麼信息表示作為信源的事物的性質,卻又可以脫離信源而相對獨立地存在,而且我們還可以了解信息的量值為何不象物質和能量那樣是守恆的而可以增加(通過在不同信宿中復制同一信息)。
再說信息概念的第二層次內涵:信息是自組織系統對客觀世界中物質和能量運動的有序形式所作的能動的反映及改組。對信息的這個規定是和科學家們對信息所作的下述定義相通的——信息是生活主體和客觀環境相互交換的內容,是控制系統用來控制受控對象的東西。我們在日常生活中所說的信息,總是指某種被我們所收到、理解,對我們有意義、用處的消息,此外還有被人們產生的操縱控制對象的指令信息,它們都屬於信息概念的這個內涵。
這里需要說明一下什麼是「自組織系統」。簡單地說, 自然 界中的無機物質一般遵循熱力學第二定律從有序走向無序,自組織系統是能夠抵抗環境中的熵增趨勢,自動地從無序向有序發展的系統。自組織系統是高度有組織性的物質,它在自然界中的代表就是生命。人類模仿生命的機制創造出自動控制系統,這是人工的自組織系統。自組織系統在自然界中不象無機物質那樣,聽憑環境因素的作用、自發地發生變化,而是按照內在機制規定的方向進行物質和能量運動的,這就是保存和發展自身。自組織系統既然具有保存和發展自身的趨向,而又生活在一個變動不居的既有有利因素、又有不利因素的環境里,因此它在生存、發展中需要關於環境的信息,藉以調整自己的行動而適應環境的變化。自組織系統就是藉助於信息的指導作用,使自身在和環境的相互作用中從無序走向有序、從低序走向高序的。
實際上只有在自組織系統對周圍環境的反映中,才能真正使客觀事物存在的形式和客觀事物本身分離開,具有獨立的意義和價值。這樣,才實現了第一層次內涵的信息向第二層次內涵的信息的轉化。因為第二層次內涵的信息不是產生於照鏡子似的機械的反映,而是產生於能動的反映。這表現在維納所說的「不是簡單地取得外界的消息,而是要經過裝置內部的改造加工才能獲得。在那裡將信息轉化成適用於以後活動的新形式。無論是動物還是機器,這種操作都要對外界發生效用」⑸。對此,以下集中說明兩點。
第一,這種信息只是在作為信宿的反映主體(人是最高級的自組織系統,也是最高級的主體,我們可以把其他的自組織系統看作以不同等級形式存在的主體)中實現的,它是依賴於主體的解釋結構的,而這又與主體對於信息的整理加工分不開。同一個事件作為信號被傳遞到不同的主體中,它是否具有信息和信息量有多少,是依主體的解釋結構的不同而不同的。那末,主體的解釋結構是怎樣形成的呢?這要歸功於主體對過去生活中接受的大量信息進行儲存、整理和加工的結果。動物能夠簡單地整理、加工信息,這就是在無條件反射的基礎上依靠條件反射的能力,根據反復發生的生活經驗在不同的外來信息間建立一定的聯系。人類則不僅感性地歸總經驗現象以得出表面的聯系,而且運用理性思維的能力來發現各類事實之間的深藏的穩定的本質聯系。因此,人腦內部構成知識的信息採取對現實事物做不同程度的抽象概括的概念和判斷的形式存在,理性主體可運用邏輯推理的規則對既有信息進行變換處理以產生更深層次的新信息。每個個人還吸取社會集體實踐的成果來幫助完成自身整理信息的工作。這樣,本來零散獲得的信息在每個主體的內部形成一個有機的知識之網,這就是他的解釋結構。新經驗到的個別事件由於和這個知識之網的各個要素發生一定的關系而具有意義,而被理解。從此我們可以看出為什麼第二層次內涵的信息離不開接受主體。同時我們也看到,那些過去獲得的、經過加工整理、為主體掌握了其間聯系的信息,成為認識新的信息的手段。這種信息叫做約束性信息。那種在新的生活遭遇中個別得到的、反映具體客觀環境的情況的、作為認識對象的信息,叫作非約束性信息。從信息學的角度來看,認識能力的發展也是非約束性信息不斷轉化為約束性信息的過程。當然約束性信息建立的關於客觀世界的 規律 性的認識是否正確,還須反饋到實踐活動(合目的性的質能活動)中去加以驗證。
第二,這個層次內涵的信息的最重要的內容,還在於把關於客觀環境的信息和主體的目的(既有在種族發生中形成的長遠目的,又有在具體生活情景中產生的短期目的)結合起來加工,得出規范主體本身在一定客觀環境中所進行的物質和能量活動的形式的東西,亦即關於主體行為方式的信息。自組織系統在一個個具體的控制活動中是這樣處理信息的:它首先獲取一定的信號即得到語法信息,其次聯系過去生活經驗解釋語法信息的含義而得到語義信息,然後根據本身正在進行的活動的目的評估語義信息的效用而得出語用信息,最後結合積淀於自身的約束性信息中的關於客觀環境的規律性的認識得出關於自身當前行為方式的信息。這種關於主體行為方式的信息就是我們在自動控制機器中稱為「指令信息」的東西,它由控制中樞付諸執行機構(或稱效應器)加以執行。這樣我們看到作為對現實世界的有序性的反映的信息,在獨立存在於主體世界中時可被結合實現主體的目的的需要加以改組(將信息片段根據它們在現實世界中存在的多種可能方式重新加以聯接)。總之,自組織系統因此以有利於自己的方式和環境發生相互作用。在這里我們發現一個有意思的對照,對於客體來講,它的物質、能量運動的形式是完全依附在它的物質、能量運動上的,而對於主體來講,卻可以先設計好這個物質、能量運動的形式,再據以進行物質、能量的運動。這表現出無機自然界在進行著盲目的物質、能量運動,而自組織系統在進行著自覺的物質、能量運動。用信息來駕馭物質和能量的運動,其結果是使一定的物質和能量在實現主體目的的方向上得到盡可能 經濟 、有效的利用。所以我們說,在信息時代,從某種意義上說,信息是比物質和能量更為重要的資源和財富
⑵ 集中式存儲和分布式存儲的區別在哪裡如何選擇
如今全球數據存儲量呈現爆炸式增長,企業及互聯網數據以每年50%的速率在增長,據Gartner預測,到2020年,全球數據量將達到35ZB,等於80億塊4TB硬碟。數據結構變化給存儲系統帶來新的挑戰。非結構化數據在存儲系統中所佔據比例已接近80%。
互聯網的發展使得數據創造的主體由企業逐漸轉向個人用戶,而個人所產生的絕大部分數據均為圖片、文檔、視頻等非結構化數據;企業辦公流程更多通過網路實現,表單、票據等都實現了以非結構化為主的數字化存檔;同時,基於資料庫應用的結構化數據仍然在企業中占據重要地位,存儲大量的核心信息。
數據業務的急劇增加,傳統單一的SAN存儲或NAS存儲方式已經不適應業務發展需要。SAN存儲:成本高,不適合PB級大規模存儲系統。數據共享性不好,無法支持多用戶文件共享。NAS存儲:共享網路帶寬,並發性能差。隨系統擴展,性能會進一步下降。因此,集中式存儲再次活躍。
那麼集中式存儲和分布式存儲的有缺點分別有哪些呢?在面對二者時我們該如何選擇呢?下面我將為大家介紹和分析集中式存儲和分布式存儲的不同之處以及在應用中我們應做的選擇。
分布式和集中式存儲的選擇
集中存儲的優缺點是,物理介質集中布放;視頻流上傳到中心對機房環境要求高,要求機房空間大,承重、空調等都是需要考慮的問題。
分布存儲,集中管理的優缺點是,物理介質分布到不同的地理位置;視頻流就近上傳,對骨幹網帶寬沒有什麼要求;可採用多套低端的小容量的存儲設備分布部署,設備價格和維護成本較低;小容量設備分布部署,對機房環境要求低。
⑶ 30歲未婚遭領導勸退,過來人說說大齡未婚在職場是罪嗎
這個事情不光是大齡未婚這么簡單,當然這也是一個方面,另一個方面就算公司確實不景氣,要裁員時綜合考慮,覺得題主的情況未知的不確定性很大,所以為了避免日後的麻煩優先考慮裁掉題主。
大齡未婚在職場不能說是罪,但是確實有很多不方便的地方。
我們公司前兩天來了一個三十二歲的應聘者,各方面條件都挺優秀的,但是最後卻沒有獲得這份工作。她被領導pass的原因就是因為這個年紀還未婚,公司領導雖然很看好她的能力,但是為了避免之後可能出現的麻煩,還是忍痛放棄了。
⑷ 什麼是P2P是下載器
P2P普及系列之一
拓撲結構是指分布式系統中各個計算單元之間的物理或邏輯的互聯關系,結點之間的拓撲結構一直是確定系統類型的重要依據。目前互聯網路中廣泛使用集中式、層次式等拓撲結構,Interne本身是世界上最大的非集中式的互聯網路,但是九十年代所建立的一些網路應用系統卻是完全的集中式的系統、很多Web應用都是運行在集中式的伺服器系統上。集中式拓撲結構系統目前面臨著過量存儲負載、Dos攻擊等一些難以解決的問題。
P2P系統一般要構造一個非集中式的拓撲結構,在構造過程中需要解決系統中所包含的大量結點如何命名、組織以及確定結點的加入/離開方式、出錯恢復等問題。
根據拓撲結構的關系可以將P2P研究分為4種形式:中心化拓撲(Centralized Topology);全分布式非結構化拓撲(Decentralized Unstructured Topology);全分布式結構化拓撲(Decentralized Structured Topology,也稱作DHT網路)和半分布式拓撲(Partially Decentralized Topology)。
其中,中心化拓撲最大的優點是維護簡單發現效率高。由於資源的發現依賴中心化的目錄系統,發現演算法靈活高效並能夠實現復雜查詢。最大的問題與傳統客戶機/伺服器結構類似,容易造成單點故障,訪問的「熱點」現象和法律等相關問題,這是第一代P2P網路採用的結構模式,經典案例就是著名的MP3共享軟體Napster。
Napster是最早出現的P2P系統之一,並在短期內迅速成長起來。Napster實質上並非是純粹的P2P系統,它通過一個中央伺服器保存所有Napster用戶上傳的音樂文件索引和存放位置的信息。當某個用戶需要某個音樂文件時,首先連接到Napster伺服器,在伺服器進行檢索,並由伺服器返回存有該文件的用戶信息;再由請求者直接連到文件的所有者傳輸文件。
Napster首先實現了文件查詢與文件傳輸的分離,有效地節省了中央伺服器的帶寬消耗,減少了系統的文件傳輸延時。這種方式最大的隱患在中央伺服器上,如果該伺服器失效,整個系統都會癱瘓。當用戶數量增加到105或者更高時,Napster的系統性能會大大下降。另一個問題在於安全性上,Napster並沒有提供有效的安全機制。
在Napster模型中,一群高性能的中央伺服器保存著網路中所有活動對等計算機共享資源的目錄信息。當需要查詢某個文件時,對等機會向一台中央伺服器發出文件查詢請求。中央伺服器進行相應的檢索和查詢後,會返回符合查詢要求的對等機地址信息列表。查詢發起對等機接收到應答後,會根據網路流量和延遲等信息進行選擇,和合適的對等機建立連接,並開始文件傳輸。
這種對等網路模型存在很多問題,主要表現為:
(1)中央伺服器的癱瘓容易導致整個網路的崩饋,可靠性和安全性較低。
(2)隨著網路規模的擴大,對中央索引伺服器進行維護和更新的費用將急劇增加,所需成本過高。
(3)中央伺服器的存在引起共享資源在版權問題上的糾紛,並因此被攻擊為非純粹意義上的P2P網路模型。對小型網路而言,集中目錄式模型在管理和控制方面佔一定優勢。但鑒於其存在的種種缺陷,該模型並不適合大型網路應用。
P2P普及系列之二
Pastry是微軟研究院提出的可擴展的分布式對象定位和路由協議,可用於構建大規模的P2P系統。在Pastry中,每個結點分配一個128位的結點標識符號(nodeID) ,所有的結點標識符形成了一個環形的nodeID空間,范圍從0到2128 - 1 ,結點加入系統時通過散列結點IP地址在128位nodeID空間中隨機分配。
在MIT,開展了多個與P2P相關的研究項目:Chord,GRID和RON。Chord項目的目標是提供一個適合於P2P環境的分布式資源發現服務,它通過使用DHT技術使得發現指定對象只需要維護O(logN)長度的路由表。
在DHT技術中,網路結點按照一定的方式分配一個唯一結點標識符(Node ID) ,資源對象通過散列運算產生一個唯一的資源標識符(Object ID) ,且該資源將存儲在結點ID與之相等或者相近的結點上。需要查找該資源時,採用同樣的方法可定位到存儲該資源的結點。因此,Chord的主要貢獻是提出了一個分布式查找協議,該協議可將指定的關鍵字(Key) 映射到對應的結點(Node) 。從演算法來看,Chord是相容散列演算法的變體。MIT GRID和RON項目則提出了在分布式廣域網中實施查找資源的系統框架。
T&T ACIRI中心的CAN(Content Addressable Networks) 項目獨特之處在於採用多維的標識符空間來實現分布式散列演算法。CAN將所有結點映射到一個n維的笛卡爾空間中,並為每個結點盡可能均勻的分配一塊區域。CAN採用的散列函數通過對(key, value) 對中的key進行散列運算,得到笛卡爾空間中的一個點,並將(key, value) 對存儲在擁有該點所在區域的結點內。CAN採用的路由演算法相當直接和簡單,知道目標點的坐標後,就將請求傳給當前結點四鄰中坐標最接近目標點的結點。CAN是一個具有良好可擴展性的系統,給定N個結點,系統維數為d,則路由路徑長度為O(n1/d) ,每結點維護的路由表信息和網路規模無關為O(d) 。
DHT類結構最大的問題是DHT的維護機制較為復雜,尤其是結點頻繁加入退出造成的網路波動(Churn)會極大增加DHT的維護代價。DHT所面臨的另外一個問題是DHT僅支持精確關鍵詞匹配查詢,無法支持內容/語義等復雜查詢。
半分布式結構(有的文獻稱作 Hybrid Structure)吸取了中心化結構和全分布式非結構化拓撲的優點,選擇性能較高(處理、存儲、帶寬等方面性能)的結點作為超級點(英文文獻中多稱作:SuperNodes, Hubs),在各個超級點上存儲了系統中其他部分結點的信息,發現演算法僅在超級點之間轉發,超級點再將查詢請求轉發給適當的葉子結點。半分布式結構也是一個層次式結構,超級點之間構成一個高速轉發層,超級點和所負責的普通結點構成若干層次。最典型的案例就是KaZaa。
KaZaa是現在全世界流行的幾款p2p軟體之一。根據CA公司統計,全球KaZaa的下載量超過2.5億次。使用KaZaa軟體進行文件傳輸消耗了互聯網40%的帶寬。之所以它如此的成功,是因為它結合了Napster和Gnutella共同的優點。從結構 上來說,它使用了Gnutella的全分布式的結構,這樣可以是系統更好的擴展,因為它無需中央索引伺服器存儲文件名,它是自動的把性能好的機器成為SuperNode,它存儲著離它最近的葉子節點的文件信息,這些SuperNode,再連通起來形成一個Overlay Network. 由於SuperNode的索引功能,使搜索效率大大提高。
P2P普及系列之三
全分布非結構化網路在重疊網路(overlay)採用了隨機圖的組織方式,結點度數服從"Power-law"[a][b]規律,從而能夠較快發現目的結點,面對網路的動態變化體現了較好的容錯能力,因此具有較好的可用性。同時可以支持復雜查詢,如帶有規則表達式的多關鍵詞查詢,模糊查詢等,最典型的案例是Gnutella。
Gnutella是一個P2P文件共享系統,它和Napster最大的區別在於Gnutella是純粹的P2P系統,沒有索引伺服器,它採用了基於完全隨機圖的洪泛(Flooding)發現和隨機轉發(Random Walker)機制。為了控制搜索消息的傳輸,通過TTL (Time To Live)的減值來實現。具體協議參照〔Gnutella協議中文版〕
在Gnutella分布式對等網路模型N中,每一個聯網計算機在功能上都是對等的,既是客戶機同時又是伺服器,所以被稱為對等機(Servent,Server+Client的組合)。
隨著聯網節點的不斷增多,網路規模不斷擴大,通過這種洪泛方式定位對等點的方法將造成網路流量急劇增加,從而導致網路中部分低帶寬節點因網路資源過載而失效。所以在初期的Gnutella網路中,存在比較嚴重的分區,斷鏈現象。也就是說,一個查詢訪問只能在網路的很小一部分進行,因此網路的可擴展性不好。所以,解決Gnutella網路的可擴展性對該網路的進一步發展至關重要。
由於沒有確定拓撲結構的支持,非結構化網路無法保證資源發現的效率。即使需要查找的目的結點存在發現也有可能失敗。由於採用TTL(Time-to-Live)、洪泛(Flooding)、隨機漫步或有選擇轉發演算法,因此直徑不可控,可擴展性較差。
因此發現的准確性和可擴展性是非結構化網路面臨的兩個重要問題。目前對此類結構的研究主要集中於改進發現演算法和復制策略以提高發現的准確率和性能。
全分布非結構化網路在重疊網路(overlay)採用了隨機圖的組織方式,結點度數服從"Power-law"[a][b]規律,從而能夠較快發現目的結點,面對網路的動態變化體現了較好的容錯能力,因此具有較好的可用性。同時可以支持復雜查詢,如帶有規則表達式的多關鍵詞查詢,模糊查詢等,最典型的案例是Gnutella。
Gnutella是一個P2P文件共享系統,它和Napster最大的區別在於Gnutella是純粹的P2P系統,沒有索引伺服器,它採用了基於完全隨機圖的洪泛(Flooding)發現和隨機轉發(Random Walker)機制。為了控制搜索消息的傳輸,通過TTL (Time To Live)的減值來實現。具體協議參照〔Gnutella協議中文版〕
在Gnutella分布式對等網路模型N中,每一個聯網計算機在功能上都是對等的,既是客戶機同時又是伺服器,所以被稱為對等機(Servent,Server+Client的組合)。
隨著聯網節點的不斷增多,網路規模不斷擴大,通過這種洪泛方式定位對等點的方法將造成網路流量急劇增加,從而導致網路中部分低帶寬節點因網路資源過載而失效。所以在初期的Gnutella網路中,存在比較嚴重的分區,斷鏈現象。也就是說,一個查詢訪問只能在網路的很小一部分進行,因此網路的可擴展性不好。所以,解決Gnutella網路的可擴展性對該網路的進一步發展至關重要。
由於沒有確定拓撲結構的支持,非結構化網路無法保證資源發現的效率。即使需要查找的目的結點存在發現也有可能失敗。由於採用TTL(Time-to-Live)、洪泛(Flooding)、隨機漫步或有選擇轉發演算法,因此直徑不可控,可擴展性較差。
因此發現的准確性和可擴展性是非結構化網路面臨的兩個重要問題。目前對此類結構的研究主要集中於改進發現演算法和復制策略以提高發現的准確率和性能。
P2P普及系列之四
半分布式結構的優點是性能、可擴展性較好,較容易管理,但對超級點依賴性大,易於受到攻擊,容錯性也受到影響。下表比較了4種結構的綜合性能,比較結果如表1-1所示。
比較標准/拓撲結構 中心化拓撲 全分布式非結構化拓撲 全分布式結構化拓撲 半分布式拓撲
可擴展性 差 差 好 中
可靠性 差 好 好 中
可維護性 最好 最好 好 中
發現演算法效率 最高 中 高 中
復雜查詢 支持 支持 不支持 支持
表1:4種結構的性能比較
P2P普及系列之五
國外開展P2P研究的學術團體主要包括P2P工作組(P2PWG) 、全球網格論壇(Global Grid Forum ,GGF) 。P2P工作組成立的主要目的是希望加速P2P計算基礎設施的建立和相應的標准化工作。P2PWG成立之後,對P2P計算中的術語進行了統一,也形成相關的草案,但是在標准化工作方面工作進展緩慢。目前P2PWG已經和GGF合並,由該論壇管理P2P計算相關的工作。GGF負責網格計算和P2P計算等相關的標准化工作。
從國外公司對P2P計算的支持力度來看,Microsoft公司、Sun公司和Intel公司投入較大。Microsoft公司成立了Pastry項目組,主要負責P2P計算技術的研究和開發工作。目前Microsoft公司已經發布了基於Pastry的軟體包SimPastry/ VisPastry。Rice大學也在Pastry的基礎之上發布了FreePastry軟體包。
在2000年8月,Intel公司宣布成立P2P工作組,正式開展P2P的研究。工作組成立以後,積極與應用開發商合作,開發P2P應用平台。2002年Intel發布了. Net基礎架構之上的Accelerator Kit (P2P加速工具包) 和P2P安全API軟體包,從而使得微軟. NET開發人員能夠迅速地建立P2P安全Web應用程序。
Sun公司以Java技術為背景,開展了JXTA項目。JXTA是基於Java的開源P2P平台,任何個人和組織均可以加入該項目。因此,該項目不僅吸引了大批P2P研究人員和開發人員,而且已經發布了基於JXTA的即時聊天軟體包。JXTA定義了一組核心業務:認證、資源發現和管理。在安全方面,JXTA加入了加密軟體包,允許使用該加密包進行數據加密,從而保證消息的隱私、可認證性和完整性。在JXTA核心之上,還定義了包括內容管理、信息搜索以及服務管理在內的各種其它可選JXTA服務。在核心服務和可選服務基礎上,用戶可以開發各種JXTA平台上的P2P應用。
P2P實際的應用主要體現在以下幾個方面:
P2P分布式存儲
P2P分布式存儲系統是一個用於對等網路的數據存儲系統,它可以提供高效率的、魯棒的和負載平衡的文件存取功能。這些研究包括:OceanStore,Farsite等。其中,基於超級點結構的半分布式P2P應用如Kazza、Edonkey、Morpheus、Bittorrent等也是屬於分布式存儲的范疇,並且用戶數量急劇增加。
計算能力的共享
加入對等網路的結點除了可以共享存儲能力之外,還可以共享CPU處理能力。目前已經有了一些基於對等網路的計算能力共享系統。比如SETI@home。目前SETI@home採用的仍然是類似於Napster的集中式目錄策略。Xenoservers向真正的對等應用又邁進了一步。這種計算能力共享系統可以用於進行基因資料庫檢索和密碼破解等需要大規模計算能力的應用。
P2P應用層組播
應用層組播,就是在應用層實現組播功能而不需要網路層的支持。這樣就可以避免出現由於網路層遲遲不能部署對組播的支持而使組播應用難以進行的情況。應用層組播需要在參加的應用結點之間實現一個可擴展的,支持容錯能力的重疊網路,而基於DHT的發現機制正好為應用層組播的實現提供了良好的基礎平台。
Internet間接訪問基礎結構(Internet Indirection Infrastructure)。
為了使Internet更好地支持組播、單播和移動等特性,Internet間接訪問基礎結構提出了基於匯聚點的通信抽象。在這一結構中,並不把分組直接發向目的結點,而是給每個分組分配一個標識符,而目的結點則根據標識符接收相應的分組。標識符實際上表示的是信息的匯聚點。目的結點把自己想接收的分組的標識符預先通過一個觸發器告訴匯聚點,當匯聚點收到分組時,將會根據觸發器把分組轉發該相應的目的結點。Internet間接訪問基礎結構實際上在Internet上構成了一個重疊網路,它需要對等網路的路由系統對它提供相應的支持。
P2P技術從出現到各個領域的應用展開,僅用了幾年的時間。從而證明了P2P技術具有非常廣闊的應用前景。
P2P普及系列之六
隨著P2P應用的蓬勃發展,作為P2P應用中核心問題的發現技術除了遵循技術本身的邏輯以外,也受到某些技術的發展趨勢、需求趨勢的深刻影響。
如上所述,DHT發現技術完全建立在確定性拓撲結構的基礎上,從而表現出對網路中路由的指導性和網路中結點與數據管理的較強控制力。但是,對確定性結構的認識又限制了發現演算法效率的提升。研究分析了目前基於DHT的發現演算法,發現衡量發現演算法的兩個重要參數度數(表示鄰居關系數、路由表的容量)和鏈路長度(發現演算法的平均路徑長度)之間存在漸進曲線的關系。
研究者採用圖論中度數(Degree)和直徑(Diameter)兩個參數研究DHT發現演算法,發現這些DHT發現演算法在度數和直徑之間存在漸進曲線關系,如下圖所示。在N個結點網路中,圖中直觀顯示出當度數為N時,發現演算法的直徑為O(1);當每個結點僅維護一個鄰居時,發現演算法的直徑為O(N)。這是度數和直徑關系的2種極端情況。同時,研究以圖論的理論分析了O(d)的度和O(d)的直徑的演算法是不可能的。
從漸進曲線關系可以看出,如果想獲得更短的路徑長度,必然導致度數的增加;而網路實際連接狀態的變化造成大度數鄰居關系的維護復雜程度增加。另外,研究者證明O(logN)甚至O(logN/loglogN)的平均路徑長度也不能滿足狀態變化劇烈的網路應用的需求。新的發現演算法受到這種折衷關系制約的根本原因在於DHT對網路拓撲結構的確定性認識。
非結構化P2P系統中發現技術一直採用洪泛轉發的方式,與DHT的啟發式發現演算法相比,可靠性差,對網路資源的消耗較大。最新的研究從提高發現演算法的可靠性和尋找隨機圖中的最短路徑兩個方面展開。也就是對重疊網路的重新認識。其中,small world特徵和冪規律證明實際網路的拓撲結構既不是非結構化系統所認識的一個完全隨機圖,也不是DHT發現演算法採用的確定性拓撲結構。
實際網路體現的冪規律分布的含義可以簡單解釋為在網路中有少數結點有較高的「度」,多數結點的「度」較低。度較高的結點同其他結點的聯系比較多,通過它找到待查信息的概率較高。
Small-world[a][b]模型的特性:網路拓撲具有高聚集度和短鏈的特性。在符合small world特性的網路模型中,可以根據結點的聚集度將結點劃分為若干簇(Cluster),在每個簇中至少存在一個度最高的結點為中心結點。大量研究證明了以Gnutella為代表的P2P網路符合small world特徵,也就是網路中存在大量高連通結點,部分結點之間存在「短鏈」現象。
因此,P2P發現演算法中如何縮短路徑長度的問題變成了如何找到這些「短鏈」的問題。尤其是在DHT發現演算法中,如何產生和找到「短鏈」是發現演算法設計的一個新的思路。small world特徵的引入會對P2P發現演算法產生重大影響。
P2P普及系列之七
有DHT演算法由於採用分布式散列函數,所以只適合於准確的查找,如果要支持目前Web上搜索引擎具有的多關鍵字查找的功能,還要引入新的方法。主要的原因在於DHT的工作方式。
基於DHT的P2P系統採用相容散列函數根據精確關鍵詞進行對象的定位與發現。散列函數總是試圖保證生成的散列值均勻隨機分布,結果兩個內容相似度很高但不完全相同的對象被生成了完全不同的散列值,存放到了完全隨機的兩個結點上。因此,DHT可以提供精確匹配查詢,但是支持語義是非常困難的。
目前在DHT基礎上開展帶有語義的資源管理技術的研究還非常少。由於DHT的精確關鍵詞映射的特性決定了無法和信息檢索等領域的研究成果結合,阻礙了基於DHT的P2P系統的大規模應用。
P2P發現技術中最重要的研究成果應該是基於small world理論的非結構化發現演算法和基於DHT的結構化發現演算法。尤其是DHT及其發現技術為資源的組織與查找提供了一種新的方法。
隨著P2P系統實際應用的發展,物理網路中影響路由的一些因素開始影響P2P發現演算法的效率。一方面,實際網路中結點之間體現出較大的差異,即異質性。由於客戶機/伺服器模式在Internet和分布式領域十幾年的應用和大量種類的電子設備的普及,如手提電腦、行動電話或PDA。這些設備在計算能力、存儲空間和電池容量上差別很大。另外,實際網路被路由器和交換機分割成不同的自治區域,體現出嚴密的層次性。
另一方面,網路波動的程度嚴重影響發現演算法的效率。網路波動(Churn、fluctuation of network)包括結點的加入、退出、失敗、遷移、並發加入過程、網路分割等。DHT的發現演算法如Chord、CAN、Koorde等都是考慮網路波動的最差情況下的設計與實現。由於每個結點的度數盡量保持最小,這樣需要響應的成員關系變化的維護可以比較小,從而可以快速恢復網路波動造成的影響。但是每個結點僅有少量路由狀態的代價是發現演算法的高延時,因為每一次查找需要聯系多個結點,在穩定的網路中這種思路是不必要的。
同時,作為一種資源組織與發現技術必然要支持復雜的查詢,如關鍵詞、內容查詢等。盡管信息檢索和數據挖掘領域提供了大量成熟的語義查詢技術,由於DHT精確關鍵詞映射的特性阻礙了DHT在復雜查詢方面的應用。
P2P普及系列之八
Internet作為當今人類社會信息化的標志,其規模正以指數速度高速增長.如今Internet的「面貌」已與其原型ARPANET大相徑庭,依其高度的復雜性,可以將其看作一個由計算機構成的「生態系統」.雖然Internet是人類親手建造的,但卻沒有人能說出這個龐然大物看上去到底是個什麼樣子,運作得如何.Internet拓撲建模研究就是探求在這個看似混亂的網路之中蘊含著哪些還不為我們所知的規律.發現Internet拓撲的內在機制是認識Internet的必然過程,是在更高層次上開發利用Internet的基礎.然而,Internet與生俱來的異構性動態性發展的非集中性以及如今龐大的規模都給拓撲建模帶來巨大挑戰.Internet拓撲建模至今仍然是一個開放性問題,在計算機網路研究中佔有重要地位.
Internet拓撲作為Internet這個自組織系統的「骨骼」,與流量協議共同構成模擬Internet的3個組成部分,即在拓撲網路中節點間執行協議,形成流量.Internet拓撲模型是建立Internet系統模型的基礎,由此而體現的拓撲建模意義也可以說就是Internet建模的意義,即作為一種工具,人們用其來對Internet進行分析預報決策或控制.Internet模型中的拓撲部分刻畫的是Internet在宏觀上的特徵,反映一種總體趨勢,所以其應用也都是在大尺度上展開的.對Internet拓撲模型的需求主要來自以下幾個方面1) 許多新應用或實驗不適合直接應用於Internet,其中一些具有危害性,如蠕蟲病毒在大規模網路上的傳播模擬;(2) 對於一些依賴於網路拓撲的協議(如多播協議),在其研發階段,當前Internet拓撲只能提供一份測試樣本,無法對協議進行全面評估,需要提供多個模擬拓撲環境來進行實驗;(3) 從國家安全形度考慮,需要在線控制網路行為,如美國國防高級研究計劃局(DARPA)的NMS(network modeling and simulation)項目。
隨機網路是由N個頂點構成的圖中,可以存在條邊,我們從中隨機連接M條邊所構成的網路。還有一種生成隨機網路的方法是,給一個概率p,對於中任何一個可能連接,我們都嘗試一遍以概率p的連接。如果我們選擇M = p,這兩種隨機網路模型就可以聯系起來。對於如此簡單的隨機網路模型,其幾何性質的研究卻不是同樣的簡單。隨機網路幾何性質的研究是由Paul,Alfréd Rényi和Béla Bollobás在五十年代到六十年代之間完成的。隨機網路在Internet的拓撲中佔有很重要的位置。
隨機網路參數
描述隨機網路有一些重要的參數。一個節點所擁有的度是該節點與其他節點相關聯的邊數,度是描述網路局部特性的基本參數。網路中並不是所有節點都具有相同的度,系統中節點度的分布情況,可以用分布函數描述,度分布函數反映了網路系統的宏觀統計特徵。理論上利用度分布可以計算出其他表徵全局特性參數的量化數值。
聚集系數是描述與第三個節點連接的一對節點被連接的概率。從連接節點的邊的意義上,若為第i個節點的度,在由k.個近鄰節點構成的子網中,實際存在的邊數E(i)與全部k.個節點完全連接時的總邊數充的比值定義為節點i的聚集系數。
⑸ 分布存儲和集中存儲有什麼本質區別
分布式 存儲就是DAS ,就是伺服器裡面放著硬碟,多台伺服器的話就是分布式存儲,數據分散,不易於管理。
集中存儲就是 NAS,SAN,將伺服器和硬碟分開,數據都存放NAS設備中,NAS設備再級聯磁碟陣列,然後多個伺服器對這個NAS設備進行訪問,操作,集中數據管理,提高利用率,解放伺服器!
⑹ 集中式存儲和分布式存儲有什麼區別
區別:
1、物理介質分布不同。
集中存儲:物理介質集中布放。
分布存儲:物理介質分布到不同的地理位置。
2、視頻流上傳不同:
集中存儲:視頻流上傳到中心。
分布存儲:視頻流就近上傳,對骨幹網帶寬沒有什麼要求;可採用多套低端的小容量的存儲設備分布部署,設備價格和維護成本較低;小容量設備分布部署,對機房環境要求低。
3、對機房有要求不同:
集中存儲:對機房環境要求高,要求機房空間大,承重、空調等都是需要考慮的問題。
分布存儲:對骨幹網帶寬沒有什麼要求,可採用多套低端的小容量的存儲設備分布部署,設備價格和維護成本較低;。小容量設備分布部署,對機房環境要求低。
(6)集中式存儲分布圖擴展閱讀:
集中存儲:
指建立一個龐大的資料庫,把各種信息存入其中,各種功能模塊圍繞信息庫的周圍並對信息庫進行錄入、修改、查詢、刪除等操作的組織方式。
分布式存儲系統:
是將數據分散存儲在多台獨立的設備上。傳統的網路存儲系統採用集中的存儲伺服器存放所有數據,存儲伺服器成為系統性能的瓶頸,也是可靠性和安全性的焦點,不能滿足大規模存儲應用的需要。
分布式網路存儲系統採用可擴展的系統結構,利用多台存儲伺服器分擔存儲負荷,利用位置伺服器定位存儲信息,它不但提高了系統的可靠性、可用性和存取效率,還易於擴展。
網路-集中存儲
網路-分布式存儲系統
⑺ 網路存儲技術的工作原理是什麼有圖解釋么
網路存儲技術(Network Storage Technologies)是基於數據存儲的一種通用網路術語。網路存儲結構大致分為三種:直連式存儲(DAS:Direct Attached Storage)、網路存儲設備(NAS:Network Attached Storage)和存儲網路(SAN:Storage Area Network)。
網路存儲技術
直連式存儲(DAS):這是一種直接與主機系統相連接的存儲設備,如作為伺服器的計算機內部硬體驅動。到目前為止,DAS 仍是計算機系統中最常用的數據存儲方法。 DAS即直連方式存儲,英文全稱是Direct Attached Storage。中文翻譯成「直接附加存儲」。顧名思義,在這種方式中,存儲設備是通過電纜(通常是SCSI介面電纜)直接到伺服器的。I/O(輸入/輸入)請求直接發送到存儲設備。DAS,也可稱為SAS(Server-Attached Storage,伺服器附加存儲)。它依賴於伺服器,其本身是硬體的堆疊,不帶有任何存儲操作系統。
DAS的適用環境為:
1) 伺服器在地理分布上很分散,通過SAN(存儲區域網路)或NAS(網路直接存儲)在它們之間進行互連非常困難時(商店或銀行的分支便是一個典型的例子); 2) 存儲系統必須被直接連接到應用伺服器(如Microsoft Cluster Server或某些資料庫使用的「原始分區」)上時; 3) 包括許多資料庫應用和應用伺服器在內的應用,它們需要直接連接到存儲器上,群件應用和一些郵件服務也包括在內。 典型DAS結構如圖所示: 典型DAS結構如圖所示
對於多個伺服器或多台PC的環境,使用DAS方式設備的初始費用可能比較低,可是這種連接方式下,每台PC或伺服器單獨擁有自己的存儲磁碟,容量的再分配困難;對於整個環境下的存儲系統管理,工作煩瑣而重復,沒有集中管理解決方案。所以整體的擁有成本(TCO)較高。目前DAS基本被NAS所代替。下面是DAS與NAS的比較。 DAS與NAS的比較圖
網路存儲設備(NAS):NAS 是一種採用直接與網路介質相連的特殊設備實現數據存儲的機制。由於這些設備都分配有 IP 地址,所以客戶機通過充當數據網關的伺服器可以對其進行存取訪問,甚至在某些情況下,不需要任何中間介質客戶機也可以直接訪問這些設備。
NAS網路存儲器
1. 最大存儲容量
最存儲大存儲容量是指NAS存儲設備所能存儲數據容量的極限,通俗的講,就是NAS設備能夠支持的最大硬碟數量乘以單個硬碟容量就是最大存儲容量。這個數值取決於NAS設備的硬體規格。不同的硬體級別,適用的范圍不同,存儲容量也就有所差別。通常,一般小型的NAS存儲設備會支持幾百GB的存儲容量,適合中小型公司作為存儲設備共享數據使用,而中高檔的NAS設備應該支持T級別的容量(1T=1000G)。
2. 處理器
同普通電腦類似,NAS產品也都具有自己的處理器(CPU)系統,來協調控制整個系統的正常運行。其採用的處理器也常常與台式機或伺服器的CPU大體相同。目前主要有以下幾類。 (1)Intel系列處理器 (4)AMD系列處理器 (5)PA-RISC型處理器 (6)PowerPC處理器 (7)MIPS處理器 一般針對中小型公司使用NAS產品採用AMD的處理器或Intel PIII/PIV等處理器。而大規模應用的NAS產品則使用Intel Xeon處理器、或者RISC型處理器等。但是也不能一概而論,視具體應用和廠商規劃而定。
3. 內存
NAS從結構上講就是一台精簡型的電腦,每台NAS設備都配備了一定數量的內存,而且大多用戶以後可以擴充。在NAS設備中,常見的內存類型由SDRAM(同步內存)、FLASH(快閃記憶體)等。不同的NAS產品出廠時配備的內存容量不同,一般為幾十兆到數GB(1GB=1000MB)容量不等,這取決於NAS產品的應用范圍,一般來講,應用在小規模的區域網當中的NAS,如果只是應付幾台設備的訪問,64M以下內存容量即可。如果是上百個節點以上的訪問,就得需要上G容量的內存。當然,這不是絕對的因素,NAS產品的綜合性能發揮還取決於它的處理器能力、硬碟速度及其網路實際環境等因素的制約。總之,選購NAS產品時,應該綜合考慮各個方面的性能參數。
4. 介面
NAS產品的外部介面比較簡單,由於只是通過內置網卡與外界通訊,所以一般只具有乙太網絡介面,通常是RJ45規格,而這種介面網卡一般都是100M網卡或1000M網卡。另外,也有部分NAS產品需要與SAN(存儲區域網路)產品連接提供更為強大的功能,所以也可能會有FC(Fiber Channel光纖通道)介面。
5. 預置軟體系統
預制操作系統是指NAS產品出廠時隨機帶的操作系統或者管理軟體。目前NAS產品一般帶有以下幾種系統軟體。 精簡的WINDOWS2000系統 這類系統只是保留了WINDOWS2000 SERVER系統核心網路中最重要的部分,能夠驅動NAS產品正常工作。我們可以把它理解為WINDOWS2000的「精簡版」。 FreeBSD嵌入式系統 FreeBSD是類UNIX系統,在網路應用方面具備極其優異的性能。 Linux嵌入式系統 Linux系統類似於UNIX操組系統,但相比之下具有界面友好、內核升級迅速等特點。常常用來作為電器等產品的嵌入式控制系統。
6. 網路管理
網路管理,是指網路管理員通過網路管理程序對網路上的資源進行集中化管理的操作,包括配置管理、性能和記賬管理、問題管理、操作管理和變化管理等。一台設備所支持的管理程度反映了該設備的可管理性及可操作性。 一般的網路滿足SNMP MIB I / MIB II統計管理功能。常見的網路管理方式有以下幾種: (1)SNMP管理技術 (2)RMON管理技術 (3)基於WEB的網路管理 SNMP是英文「Simple Network Management Protocol」的縮寫,中文意思是「簡單網路管理協議」。SNMP首先是由Internet工程任務組織(Internet Engineering Task Force)(IETF)的研究小組為了解決Internet上的路由器管理問題而提出的。 SNMP是目前最常用的環境管理協議。SNMP被設計成與協議無關,所以它可以在IP,IPX,AppleTalk,OSI以及其他用到的傳輸協議上被使用。SNMP是一系列協議組和規范(見下表),它們提供了一種從網路上的設備中收集網路管理信息的方法。SNMP也為設備向網路管理工作站報告問題和錯誤提供了一種方法。 目前,幾乎所有的網路設備生產廠家都實現了對SNMP的支持。領導潮流的SNMP是一個從網路上的設備收集管理信息的公用通信協議。設備的管理者收集這些信息並記錄在管理信息庫(MIB)中。這些信息報告設備的特性、數據吞吐量、通信超載和錯誤等。MIB有公共的格式,所以來自多個廠商的SNMP管理工具可以收集MIB信息,在管理控制台上呈現給系統管理員。 通過將SNMP嵌入數據通信設備,如交換機或集線器中,就可以從一個中心站管理這些設備,並以圖形方式查看信息。目前可獲取的很多管理應用程序通常可在大多數當前使用的操作系統下運行,如Windows3.11、Windows95 、Windows NT和不同版本UNIX的等。 一個被管理的設備有一個管理代理,它負責向管理站請求信息和動作,代理還可以藉助於陷阱為管理站提供站動提供的信息,因此,一些關鍵的網路設備(如集線器、路由器、交換機等)提供這一管理代理,又稱SNMP代理,以便通過SNMP管理站進行管理。
7. 網路協議
網路協議即網路中(包括互聯網)傳遞、管理信息的一些規范。如同人與人之間相互交流是需要遵循一定的規矩一樣,計算機之間的相互通信需要共同遵守一定的規則,這些規則就稱為網路協議。 一台計算機只有在遵守網路協議的前提下,才能在網路上與其他計算機進行正常的通信。網路協議通常被分為幾個層次,每層完成自己單獨的功能。通信雙方只有在共同的層次間才能相互聯系。常見的協議有:TCP/IP協議、IPX/SPX協議、NetBEUI協議等。在區域網中用得的比較多的是IPX/SPX.。用戶如果訪問Internet,則必須在網路協議中添加TCP/IP協議。 TCP/IP是「transmission Control Protocol/Internet Protocol」的簡寫,中文譯名為傳輸控制協議/互聯網路協議)協議, TCP/IP(傳輸控制協議/網間協議)是一種網路通信協議,它規范了網路上的所有通信設備,尤其是一個主機與另一個主機之間的數據往來格式以及傳送方式。TCP/IP是INTERNET的基礎協議,也是一種電腦數據打包和定址的標准方法。在數據傳送中,可以形象地理解為有兩個信封,TCP和IP就像是信封,要傳遞的信息被劃分成若干段,每一段塞入一個TCP信封,並在該信封面上記錄有分段號的信息,再將TCP信封塞入IP大信封,發送上網。在接受端,一個TCP軟體包收集信封,抽出數據,按發送前的順序還原,並加以校驗,若發現差錯,TCP將會要求重發。因此,TCP/IP在INTERNET中幾乎可以無差錯地傳送數據。 對普通用戶來說,並不需要了解網路協議的整個結構,僅需了解IP的地址格式,即可與世界各地進行網路通信。 IPX/SPX是基於施樂的XEROX』S Network System(XNS)協議,而SPX是基於施樂的XEROX』S SPP(Sequenced Packet Protocol:順序包協議)協議,它們都是由novell公司開發出來應用於區域網的一種高速協議。它和TCP/IP的一個顯著不同就是它不使用ip地址,而是使用網卡的物理地址即(MAC)地址。在實際使用中,它基本不需要什麼設置,裝上就可以使用了。由於其在網路普及初期發揮了巨大的作用,所以得到了很多廠商的支持,包括microsoft等,到現在很多軟體和硬體也均支持這種協議。 NetBEUI即NetBios Enhanced User Interface ,或NetBios增強用戶介面。它是NetBIOS協議的增強版本,曾被許多操作系統採用,例如Windows for Workgroup、Win 9x系列、Windows NT等。NETBEUI協議在許多情形下很有用,是WINDOWS98之前的操作系統的預設協議。總之NetBEUI協議是一種短小精悍、通信效率高的廣播型協議,安裝後不需要進行設置,特別適合於在「網路鄰居」傳送數據。所以建議除了TCP/IP協議之外,區域網的計算機最好也安上NetBEUI協議。另外還有一點要注意,如果一台只裝了TCP/IP協議的WINDOWS98機器要想加入到WINNT域,也必須安裝NetBEUI協議。
8. 網路文件協議
網路文件系統是基於網路的分布式文件系統,其文件系統樹的各節點可以存在於不同的聯網計算機甚至不同的系統平台上,可以用來提供跨平台的信息存儲與共享。 當今最主要的兩大網路文件系統是Sun提出的NFS(Network File System)以及由微軟、EMC和NetApp提出的CIFS(Common Internet File System),前者主要用於各種Unix平台,後者則主要用於Windows平台,我們熟悉的「網上鄰居」的文件共享方式就是基於CIFS系統的。其他著名的網路文件系統還有Novell公司的NCP(網路控制協議)、Apple公司的AFP以及卡內基-梅隆大學的Coda等,NAS的主要功能之一便是通過各種網路文件系統提供存儲服務。
9. 網路備份軟體
目前在數據存儲領域可以完成網路數據備份管理的軟體產品主要有Legato公司的NetWorker、IBM公司 的Tivoli、Veritas公司 的NetBackup等。另外有些操作系統,諸如Unix的tar/cpio、Windows2000/NT的Windows Backup、Netware的Sbackup也可以作為NAS的備份軟體。
NetBackup
NetBackup是Veritas公司推出的適用於中型和大型的存儲系統的備份軟體,可以廣泛的支持各種開放平台。另外該公司還推出了適合低端的備份軟體Backup Exec。
NetWorker
NetWorker是Legato公司推出的備份軟體,它適用於大型的復雜網路環境,具有各種先進的備份技術機制,廣泛的支持各種開放系統平台。值得一提的是, NetWorker中的Cellestra技術第一個在產品上實現了Serverless Backup(無伺服器備份)的思想。
IBM Tivoli
IBM Tivoli是IBM公司推出的備份軟體,與Veritas的NetBackup和Legato的NetWorker相比,Tivoli Storage Manager更多的適用於IBM主機為主的系統平台,其強大的網路備份功能可以勝任大規模的海量存儲系統的備份需要。 此外,CA公司原來的備份軟體ARCServe,在低端市場具有相當廣泛的影響力。其新一代備份產品--BrightStor,定位直指中高端市場,也具有不錯的性能。 選購備份軟體時,應該根據不同的用戶需要選擇合適的產品,理想的網路備份軟體系統應該具備以下功能:
集中式管理
網路存儲備份管理系統對整個網路的數據進行管理。利用集中式管理工具的幫助,系統管理員可對全網的備份策略進行統一管理,備份伺服器可以監控所有機器的備份作業,也可以修改備份策略,並可即時瀏覽所有目錄。所有數據可以備份到同備份伺服器或應用伺服器相連的任意一台磁帶庫內。
全自動的備份
備份軟體系統應該能夠根據用戶的實際需求,定義需要備份的數據,然後以圖形界面方式根據需要設置備份時間表,備份系統將自動啟動備份作業,無需人工干預。這個自動備份作業是可自定的,包括一次備份作業、每周的某幾日、每月的第幾天等項目。設定好計劃後,備份作業就會按計劃自動進行。
資料庫備份和恢復
在許多人的觀念里,資料庫和文件還是一個概念。當然,如果你的資料庫系統是基於文件系統的,當然可以用備份文件的方法備份資料庫。但發展至今,資料庫系統已經相當復雜和龐大,再用文件的備份方式來備份資料庫已不適用。是否能夠將需要的數據從龐大的資料庫文件中抽取出來進行備份,是網路備份系統是否先進的標志之一。
在線式的索引
備份系統應為每天的備份在伺服器中建立在線式的索引,當用戶需要恢復時,只需點取在線式索引中需要恢復的文件或數據,該系統就會自動進行文件的恢復。
歸檔管理
用戶可以按項目、時間定期對所有數據進行有效的歸檔處理。提供統一的Open Tape Format 數據存儲格式從而保證所有的應用數據由一個統一的數據格式作為永久的保存,保證數據的永久可利用性。
有效的媒體管理
備份系統對每一個用於作備份的磁帶自動加入一個電子標簽,同時在軟體中提供了識別標簽的功能,如果磁帶外面的標簽脫落,只需執行這一功能,就會迅速知道該磁帶的內容。
滿足系統不斷增加的需求
備份軟體必須能支持多平台系統,當網路上連接上其它的應用伺服器時,對於網路存儲管理系統來說,只需在其上安裝支持這種伺服器的客戶端軟體即可將數據備份到磁帶庫或光碟庫中。
10. 網站瀏覽器支持
網站瀏覽器支持是指能否夠通過WEB(就是WWW,俗稱互聯網)手段對NAS產品進行管理,以及管理時使用的瀏覽器類型。絕大部分的NAS產品都支持WEB管理,這樣的好處是管理方便,用戶在任何地方只要能夠上網就可以輕松的管理NAS設備。 目前NAS產品支持的常用瀏覽器有微軟的IE(Internet Explorer)瀏覽器以及網景公司的Netscape瀏覽器。
11. 網路服務
網路服務是指NAS產品在運行時系統能夠提供何種服務。典型的網路服務有DHCP、DNS、FTP、Telnet、WINS、SMTP等。
DHCP
DHCP的全名是「Dynamic Host Configuration Protocol」,即動態主機配置協議。在使用DHCP的網路里,用戶的計算機可以從DHCP伺服器那裡獲得上網的參數,幾乎不需要做任何手工的配置就可以上網。 一般情況下,DHCP伺服器會盡量保持每台計算機使用同一個IP地址上網。如果計算機長時間沒有上網或配置為使用靜態地址上網,DHCP伺服器就會把這個地址分配給其他計算機。
WINS
WINS是「Windows Internet Name Service」的簡稱,中文為Windows網際命名服務,WINS伺服器主要用於NetBIOS名字(計算機名稱)服務,它處理的是NetBIOS計算機名(Computer Name),所以也被稱為NetBIOS名字伺服器(NBNS,NetBIOS Name Server)。WINS伺服器可以登記WINS-enabled工作站(下面簡稱為「WINS工作站」)的計算機名、IP地址、DNS域名等數據,當工作站查詢名字時,它又可以將這些數據提供給工作站。
DNS
DNS,Domain Name System或者Domain Name Service(域名系統或者余名服務)。域名系統為Internet上的主機分配域名地址和IP地址。用戶使用域名地址,該系統就會自動把域名地址轉為IP地址。域名服務是運行域名系統的Internet工具。執行域名服務的伺服器稱之為DNS伺服器,通過DNS伺服器來應答域名服務的查詢。
FTP
文件傳輸協議FTP(File Transfer Protocol)是Internet傳統的服務之一。FTP使用戶能在兩個聯網的計算機之間傳輸文件,它是Internet傳遞文件最主要的方法。使用匿名(Anonymous)FTP, 用戶可以免費獲取Internet豐富的資源。除此之外,FTP還提供登錄、目錄查詢、文件操作及其他會話控制功能。
SMTP
SMTP(Simple Mail Transfer Protocol)即簡單郵件傳輸協議,它是一組用於由源地址到目的地址傳送郵件的規則,由它來控制信件的中轉方式。SMTP協議屬於TCP/IP協議族,它幫助每台計算機在發送或中轉信件時找到下一個目的地。通過SMTP協議所指定的伺服器,我們就可以把E-mail寄到收信人的伺服器上了,整個過程只要幾分鍾。SMTP伺服器則是遵循SMTP協議的發送郵件伺服器,用來發送或中轉你發出的電子郵件。
Telnet
有的時候我們需要運行一些很大的程序,而自己的PC又達不到運行這個程序所必須的配置,在這種情況下,我們可以通過網路連接上一台功能強大的計算機,並且把自己的PC模擬成那台計算機的終端,進而達到在該計算機上運行程序的目的。這種利用網路遠程登錄到其他計算機上,並且以虛擬終端方式遙控程序運行的做法就是TELNET。隨著計算機硬體的發展,目前TELNET在一般網路用戶中已經不是很普遍了,但是對於網路管理員來說,它仍然是個得力助手。
12. 網路安全
網路安全是指網路系統的硬體、軟體及其系統中的數據受到保護,不受偶然的或者惡意的原因而遭到破壞、更改、泄露,系統連續可靠正常地運行,網路服務不中斷。 網路安全實際上包括兩部分:網路的安全和主機系統的安全。網路安全主要通過設置防火牆來實現,也可以考慮在路由器上設置一些數據包過濾的方法防止來自Internet上的黑客的攻擊。至於系統的安全則需根據不同的操作系統來修改相關的系統文件,合理設置用戶許可權和文件屬性。 NAS產品的網路安全應具有以下四個方面的特徵: 保密性:信息不泄露給非授權用戶、實體或過程,或供其利用的特性。 完整性: 數據未經授權不能進行改變的特性。即信息在存儲或傳輸過程中保持不被修 改、不被破壞和丟失的特性。 可用性:可被授權實體訪問並按需求使用的特性。即當需要時能否存取所需的信息。例 如網路環境下拒絕服務、破壞網路和有關系統的正常運行等都屬於對可用性的攻擊; 可控性:對信息的傳播及內容具有控制能力。
13. NAS
NAS是英文「Network Attached Storage」的縮寫, 中文意思是「網路附加存儲」。按字面簡單說就是連接在網路上, 具備資料存儲功能的裝置,因此也稱為「網路存儲器」或者「網路磁碟陣列」。 從結構上講,NAS是功能單一的精簡型電腦,因此在架構上不像個人電腦那麼復雜,在外觀上就像家電產品,只需電源與簡單的控制鈕, 結構圖如下: NAS是一種專業的網路文件存儲及文件備份設備,它是基於LAN(區域網)的,按照TCP/IP協議進行通信,以文件的I/O(輸入/輸出)方式進行數據傳輸。在LAN環境下,NAS已經完全可以實現異構平台之間的數據級共享,比如NT、UNIX等平台的共享。 一個NAS系統包括處理器,文件服務管理模塊和多個硬碟驅動器(用於數據的存儲)。 NAS 可以應用在任何的網路環境當中。主伺服器和客戶端可以非常方便地在NAS上存取任意格式的文件,包括SMB格式(Windows)NFS格式(Unix, Linux)和CIFS(Common Internet File System)格式等等。典型的NAS的網路結構如下圖所示: 存儲網路(SAN):SAN 是指存儲設備相互連接且與一台伺服器或一個伺服器群相連的網路。其中的伺服器用作 SAN 的接入點。在有些配置中,SAN 也與網路相連。SAN 中將特殊交換機當作連接設備。它們看起來很像常規的乙太網絡交換機,是 SAN 中的連通點。SAN 使得在各自網路上實現相互通信成為可能,同時並帶來了很多有利條件。 SAN英文全稱:Storage Area Network,即存儲區域網路。它是一種通過光纖集線器、光纖路由器、光纖交換機等連接設備將磁碟陣列、磁帶等存儲設備與相關伺服器連接起來的高速專用子網。 SAN由三個基本的組件構成:介面(如SCSI、光纖通道、ESCON等)、連接設備(交換設備、網關、路由器、集線器等)和通信控制協議(如IP和SCSI等)。這三個組件再加上附加的存儲設備和獨立的SAN伺服器,就構成一個SAN系統。SAN提供一個專用的、高可靠性的基於光通道的存儲網路,SAN允許獨立地增加它們的存儲容量,也使得管理及集中控制(特別是對於全部存儲設備都集群在一起的時候)更加簡化。而且,光纖介面提供了10 km的連接長度,這使得物理上分離的遠距離存儲變得更容易.
⑻ 請教各位達人:數據挖掘教材的電子書下載地址
幫你找到以下材料,希望對你有用
資料庫系統工程師級考試大綱
一、考試說明
1.考試要求
(1)掌握計算機體系結構以及各主要部件的性能和基本工作原理;
(2)掌握操作系統、程序設計語言的基礎知識,了解編譯程序的基本知識;
(3)熟練掌握常用數據結構和常用演算法;
(4)熟悉軟體工程和軟體開發項目管理的基礎知識;
(5)熟悉計算機網路的原理和技術;
(6)掌握資料庫原理及基本理論;
(7)掌握常用的大型資料庫管理系統的應用技術;
(8)掌握資料庫應用系統的設計方法和開發過程;
(9)熟悉資料庫系統的管理和維護方法,了解相關的安全技術;
(10)了解資料庫發展趨勢與新技術;
(11)掌握常用信息技術標准、安全性,以及有關法律、法規的基本知識;
(12)了解信息化、計算機應用的基礎知識;
(13)正確閱讀和理解計算機領域的英文資料。
2. 通過本考試的合格人員能參與應用信息系統的規劃、設計、構建、運行和管理,能按照用戶需求,設計、建立、運行、維護高質量的資料庫和數據倉庫;作為數據管理員管理信息系統中的數據資源,作為資料庫管理員建立和維護核心資料庫;擔任資料庫系統有關的技術支持,同時具備一定的網路結構設計及組網能力;具有工程師的實際工作能力和業務水平,能指導計算機技術與軟體專業助理工程師(或技術員)工作。
3. 本考試設置的科目包括
(1)信息系統知識,考試時間為150分鍾,筆試;
(2)資料庫系統設計與管理,考試時間為150分鍾,筆試。
二、考試范圍
考試科目1:信息系統知識
1. 計算機系統知識
1.1 硬體知識
1.1.1 計算機體系結構和主要部件的基本工作原理
·CPU和存儲器的組成、性能、基本工作原理
·常用I/O設備、通信設備的性能,以及基本工作原理
·I/O介面的功能、類型和特點
·CISC/RISC,流水線操作,多處理機,並行處理
1.1.2 存儲系統
·虛擬存儲器基本工作原理,多級存儲體系
·RAID類型和特性
1.1.3 安全性、可靠性與系統性能評測基礎知識
·診斷與容錯
·系統可靠性分析評價
· 計算機系統性能評測方法
1.2 數據結構與演算法
1.2.1 常用數據結構
·數組(靜態數組、動態數組)
·線性表、鏈表(單向鏈表、雙向鏈表、循環鏈表)
·棧和隊列
·樹(二叉樹、查找樹、平衡樹、遍歷樹、堆)、圖、集合的定義、存儲和操作
·Hash(存儲位置計算、碰撞處理)
1.2.2 常用演算法
·排序演算法、查找演算法、數值計算、字元串處理、數據壓縮演算法、遞歸演算法、圖的相關演算法
·演算法與數據結構的關系,演算法效率,演算法設計,演算法描述(流程圖、偽代碼、決策表),演算法的復雜性
1.3 軟體知識
1.3.1 操作系統知識
·操作系統的類型、特徵、地位、內核(中斷控制)、進程、線程概念
·處理機管理(狀態轉換、同步與互斥、信號燈、分時輪轉、搶占、死鎖)
·存儲管理(主存保護、動態連接分配、分段、分頁、虛存)
·設備管理(I/O控制、假離線、磁碟調度)
·文件管理(文件目錄、文件的結構和組織、存取方法、存取控制、恢復處理、共享和安全)
·作業管理(作業調度、作業控制語言(JCL)、多道程序設計)
·漢字處理,多媒體處理,人機界面
·網路操作系統和嵌入式操作系統基礎知識
·操作系統的配置
1.3.2 程序設計語言和語言處理程序的知識
· 匯編、編譯、解釋系統的基礎知識和基本工作原理
· 程序設計語言的基本成分:數據、運算、控制和傳輸,程序調用的實現機制
· 各類程序設計語言的主要特點和適用情況
1.4 計算機網路知識
·網路體系結構(網路拓撲、OSI/RM、基本的網路協議)
·傳輸介質,傳輸技術,傳輸方法,傳輸控制
·常用網路設備和各類通信設備
·Client/Server結構、Browser/Server結構、Browser/Web/Datebase結構
·LAN拓撲,存取控制,LAN的組網,LAN間連接,LAN-WAN連接
·網際網路基礎知識及應用
·網路軟體
·網路管理
·網路性能分析
·網路有關的法律、法規
2. 資料庫技術
2.1 資料庫技術基礎
2.1.1 資料庫模型
·資料庫系統的三級模式(概念模式、外模式、內模式),兩級映像(概念模式/外模式、外模式/內模式)
·資料庫模型:數據模型的組成要素,概念數據模型ER圖(實體、屬性、關系),邏輯數據模型(關系模型、層次模型、網路模型)
2.1.2 資料庫管理系統的功能和特徵
·主要功能(資料庫定義、資料庫操作、資料庫控制、事務管理、用戶視圖)
·特徵(確保數據獨立性、資料庫存取、同時執行過程、排它控制、故障恢復、安全性、完整性)
·RDB(關系資料庫),OODB(面向對象資料庫),ORDB(對象關系資料庫),NDB(網狀資料庫)
·幾種常用Web資料庫的特點
2.1.3 資料庫系統體系結構
· 集中式資料庫系統
· Client/Server資料庫系統
· 並行資料庫系統
· 分布式資料庫系統
· 對象關系資料庫系統
2.2 數據操作
2.2.1 關系運算
·關系代數運算(並、交、差、笛卡兒積、選擇、投影、連接、除)
·元組演算
·完整性約束
2.2.2 關系資料庫標准語言(SQL)
·SQL的功能與特點
·用SQL進行數據定義(表、視圖、索引、約束)
·用SQL進行數據操作(數據檢索、數據插入/刪除/更新、觸發控制)
·安全性和授權
·程序中的API,嵌入SQL
2.3 資料庫的控制功能
·資料庫事務管理(ACID屬性)
·資料庫備份與恢復技術(UNDO、REDO)
·並發控制
2.4 資料庫設計基礎理論
2.4.1 關系資料庫設計
·函數依賴
·規范化(第一範式、第二範式、第三範式、BC範式、第四範式、第五範式)
·模式分解及分解應遵循的原則
2.4.2 對象關系資料庫設計
·嵌套關系、 復雜類型,繼承與引用類型
·與復雜類型有關的查詢
·SQL中的函數與過程
·對象關系
2.5 數據挖掘和數據倉庫基礎知識
·數據挖掘應用和分類
·關聯規則、聚類
·數據倉庫的成分
·數據倉庫的模式
2.6 多媒體基本知識
2.6.1 多媒體技術基本概念
·多媒體系統基礎知識
·常用多媒體文件格式
2.6.2 多媒體壓縮編碼技術
·多媒體壓縮編碼技術
·統計編碼
·預測編碼
·編碼的國際標准
2.6.3多媒體技術應用
·簡單圖形的繪制,圖像文件的處理方法
·音頻和視頻信息的應用
·多媒體應用開發過程
2.7 系統性能知識
·性能計算(響應時間、吞吐量、周轉時間)
·性能指標和性能設計
·性能測試和性能評估
2.8 計算機應用基礎知識
·信息管理、數據處理、輔助設計、科學計算,人工智慧等基礎知識
·遠程通信服務及相關通信協議基礎知識
3. 系統開發和運行維護知識
3.1 軟體工程、軟體過程改進和軟體開發項目管理知識
·軟體工程知識
·軟體開發生命周期階段目標和任務
·軟體開發項目基礎知識(時間管理、成本管理、質量管理、人力資源管理、風險管理等)及其常用管理工具
·主要的軟體開發方法(生命周期法、原型法、面向對象法、CASE)
·軟體開發工具與環境知識
·軟體質量管理基礎知識
·軟體過程改進基礎知識
·軟體開發過程評估、軟體能力成熟度評估的基礎知識
3.2 系統分析基礎知識
·系統分析的目的和任務
·結構化分析方法(數據流圖(DFD)和數據字典(DD),實體關系圖(ERD),描述加工處理的結構化語言)
·統一建模語言(UML)
·系統規格說明書
3.3 系統設計知識
·系統設計的目的和任務
·結構化設計方法和工具(系統流程圖、HIPO圖、控制流程圖)
·系統總體結構設計(總體布局,設計原則,模塊結構設計,數據存取設計,系統配置方案)
·系統詳細設計(代碼設計、資料庫設計、用戶界面設計、處理過程設計)
·系統設計說明書
3.4 系統實施知識
·系統實施的主要任務
·結構化程序設計、面向對象程序設計、可視化程序設計
·程序設計語言的選擇、程序設計風格
·系統測試的目的、類型,系統測試方法(黑盒測試、白盒測試、灰盒測試)
·測試設計和管理(錯誤曲線、錯誤排除、收斂、注入故障、測試試用例設計、系統測試報告)
·系統轉換基礎知識
3.5 系統運行和維護知識
·系統運行管理知識
·系統維護知識
·系統評價知識
4. 安全性知識
·安全性基本概念(網路安全、操作系統安全、資料庫安全)
·計算機病毒的防治,計算機犯罪的防範,容災
·訪問控制、防闖入、安全管理措施
·加密與解密機制
·風險分析、風險類型、抗風險措施和內部控制
5.標准化知識
·標准化意識,標准化的發展,標准出台過程
·國際標准、國家標准、行業標准、企業標准基本知識
·代碼標准、文件格式標准、安全標准軟體開發規范和文檔標准
·標准化機構
6.信息化基礎知識
·信息化意識
·全球信息化趨勢、國家信息化戰略、企業信息化戰略和策略
·有關的法律、法規
·遠程教育、電子商務、電子政務等基礎知識
·企業信息資源管理基礎知識
7.計算機專業英語
·掌握計算機技術的基本詞彙
·能正確閱讀和理解計算機領域的英文資料
考試科目2:資料庫系統設計與管理
1.資料庫設計
1.1理解系統需求說明
·了解用戶需求、確定系統范圍
·確定應用系統資料庫的各種關系
·現有環境與新系統環境的關系
·新系統中的數據項、數據字典、數據流
1.2 系統開發的准備
·選擇開發方法,准備開發環境,制訂開發計劃
1.3 設計系統功能
·選擇系統機構,設計各子系統的功能和介面,設計安全性策略、需求和實現方法,制定詳細的工作流和數據流
1.4 資料庫設計
1.4.1 設計數據模型
·概念結構設計(設計ER模型)
·邏輯結構設計(轉換成DBMS所能接收的數據模型)
·評審設計
1.4.2 物理結構設計
·設計方法與內容
·存取方法的選擇
·評審設計與性能預測
1.4.3 資料庫實施與維護
·數據載入與應用程序調試
·資料庫試運行
·資料庫運行與維護
1.4.4 資料庫的保護
·資料庫的備份與恢復
·資料庫的安全性
·資料庫的完整性
·資料庫的並發控制
1.5 編寫外部設計文檔
·編寫系統說明書(系統配置圖、各子系統關系圖、系統流程圖,系統功能說明、輸入輸出規格說明、數據規格說明、用戶手冊框架)
·設計系統測試要求
1.6 設計評審
2. 資料庫應用系統設計
2.1 設計資料庫應用系統結構
·信息系統的架構(如Client/Server)與DBMS
·多用戶資料庫環境(文件伺服器體系結構、Client/Server體系結構)
·大規模資料庫和並行計算機體系結構(SMP、MPP)
·中間件角色和相關工具
·按構件分解,確定構件功能規格以及構件之間的介面
2.2 設計輸入輸出
·屏幕界面設計,設計輸入輸出檢查方法和檢查信息
·資料庫交互與連接(掌握C程序設計語言,以及Java、Visual Basic、Visual C++、PowerBuilder、Delphi中任一種開發工具與資料庫互連的方法(如何與資料庫伺服器溝通))
2.3 設計物理數據
·分析事務在資料庫上運行的頻率和性能要求,確定邏輯數據組織方式、存儲介質,設計索引結構和處理方式
·將邏輯數據結構變換成物理數據結構,計算容量(空間代價),確定存取方法(時間效率)、系統配置(維護代價)並進行優化
2.4 設計安全體系
·明確安全等級
·資料庫的登錄方式
·資料庫訪問
·許可(對象許可、命令許可、授權許可的方法)
2.5 應用程序開發
2.5.1 應用程序開發
·選擇應用程序開發平台
·系統實施順序
·框架開發
·基礎小組的程序開發
·源代碼控制
·版本控制
2.5.2 模塊劃分(原則、方法、標准)
2.5.3 編寫程序設計文檔
·模塊規格說明書(功能和介面說明、程序處理邏輯的描述、輸入輸出數據格式的描述)
·測試要求說明書(測試類型和目標,測試用例,測試方法)
2.5.4 程序設計評審
2.6 編寫應用系統設計文檔
·系統配置說明、構件劃分圖、構件間的介面、構件處理說明、屏幕設計文檔、報表設計文檔、程序設計文檔、文件設計文檔、資料庫設計文檔
2.7 設計評審
3. 資料庫應用系統實施
3.1 整個系統的配置與管理
3.2 常用資料庫管理系統的應用(SQL Server、Oracle、Sybase、DB2、Access或Visual Foxpro)
·創建資料庫
·創建表、創建索引、創建視圖、創建約束、創建UDDT(用戶自定義類型)
·創建和管理觸發器
·建立安全體系
3.3 資料庫應用系統安裝
·擬定系統安裝計劃(考慮費用、客戶關系、雇員關系、後勤關系和風險等因素)
·擬定人力資源使用計劃(組織機構安排的合理性)
·直接安裝(安裝新系統並使系統快速進入運行狀態)
·並行安裝(新舊系統並行運行一段時間)
·階段安裝(經過一系列的步驟和階段使新系統各部分逐步投入運行)
3.4 資料庫應用系統測試
·擬定測試目標、計劃、方法與步驟
·數據載入,准備測試數據
·指導應用程序員進行模塊測試進行驗收
·准備系統集成測試環境測試工具
·寫出資料庫運行測試報告
3.5 培訓與用戶支持
4.資料庫系統的運行和管理
4.1 資料庫系統的運行計劃
·運行策略的確定
·確定資料庫系統報警對象和報警方式
·資料庫系統的管理計劃(執行,故障/恢復,安全性,完整性,用戶培訓和維護)
4.2 資料庫系統的運行和維護
·新舊系統的轉換
·收集和分析報警數據(執行報警、故障報警、安全報警)
·連續穩定的運行
·資料庫維護(資料庫重構、安全視圖的評價和驗證、文檔維護)
·資料庫系統的運行統計(收集、分析、提出改進措施)
·關於運行標准和標准改進一致性的建議
·資料庫系統的審計
4.3 資料庫管理
·數據字典和數據倉庫的管理
·數據完整性維護和管理(實體完整性、參照完整性)
·資料庫物理結構的管理(保證數據不推遲訪問)
·資料庫空間及碎片管理
·備份和恢復(順序、日誌(審計痕跡)、檢查點)
·死鎖管理(集中式、分布式)
·並發控制(可串列性、鎖機制、時間戳、優化)
·數據安全性管理(加密、安全、訪問控制、視圖、有效性確認規則)
·資料庫管理員(DBA)職責
4.4 性能調整
·SQL語句的編碼檢驗
·表設計的評價
·索引的改進
·物理分配的改進
·設備增強
·資料庫性能優化
4.5 用戶支持
·用戶培訓
·售後服務
5. SQL
5.1 資料庫語言
·資料庫語言的要素
·資料庫語言的使用方式(互動式和嵌入式)
5.2 SQL概述
·SQL語句的特徵
·SQL語句的基本成分
5.3 資料庫定義
·創建資料庫(Create Datebase)、創建表(Create Table)
·定義數據完整性
·修改表(Alter Table)、刪除表(Drop Table)
·定義索引(Create Index)、刪除索引(Drop Index)
·定義視圖(Create View)、刪除視圖(Drop View)、更新視圖
5.4 數據操作
·Select語句的基本機構
·簡單查詢
·SQL中的選擇、投影
·字元串比較,涉及空值的比較
·日期時間,布爾值,輸出排序
·多表查詢
·避免屬性歧義
·SQL中的連接、並、交、差
·SQL中的元組變數
·子查詢
5.5 完整性控制與安全機制
·主鍵(Primary Key)約束
·外鍵(Foreign Key)約束
·屬性值上的約束(Null、Check、Create Domain)
·全局約束(Create Assertions)
·許可權、授權(Grant)、銷權(Revoke)
5.6 創建觸發器(Create Trigger)
5.7 SQL使用方式
·互動式SQL
·嵌入式SQL
·SQL與宿主語言介面(Declare、共享變數、游標、卷游標)
·動態SQL
·API
5.8 SQL 標准化
6. 網路環境下的資料庫
6.1 分布式資料庫
6.1.1 分布式資料庫的概念
·分布式資料庫的特點與目標
6.1.2 分布式資料庫的體系結構
·分布式資料庫的模式結構
·數據分布的策略(數據分片、分布透明性)
·分布式資料庫管理系統
6.1.3 分布式查詢處理和優化
6.1.4 分布式事務管理
·分布式資料庫的恢復(故障、恢復、2段提交、3段提交)
·分布式資料庫的透明性(局部、分裂、復制、處理、並發、執行)
6.1.5 分布式資料庫系統的應用
6.2 網路環境下資料庫系統的設計與實施
·數據的分布設計
·負載均衡設計
·資料庫互連技術
6.3 面向Web的DBMS技術
·三層體系結構
·動態Web網頁
·ASP、JSP、XML的應用
7.資料庫的安全性
7.1 安全性策略的理解
·資料庫視圖的安全性策略
·數據的安全級別(最重要的、重要的、注意、選擇)
7.2 資料庫安全測量
·用戶訪問控制(採用口令等)
·程序訪問控制(包含在程序中的SQL命令限制)
·表的訪問控制(視圖機制)
·控制訪問的函數和操作
·外部存儲數據的加密與解密
8. 資料庫發展趨勢與新技術
8.1 面向對象資料庫(OODBMS)
8.1.1 OODBMS的特徵
8.1.2 面向對象數據模型
·對象結構、對象類、繼承與多重繼承、對象標識、對象包含、對象嵌套
8.1.3 面向對象資料庫語言
8.1.4 對象關系資料庫系統(ORDBMS)
·嵌套關系
·復雜類型
·繼承、引用類型
·與復雜類型有關的查詢
·函數與過程
·面向對象與對象關系
·ORDBMS應用領域
8.2 企業資源計劃(ERP)和資料庫
8.2.1 ERP概述
·基本MRP(製造資源計劃)、閉環MRP、ERP
·基本原理、發展趨勢
·ERP設計的總體思路(一個中心、兩類業務、三條干線)
8.2.2 ERP與資料庫
·運行資料庫與ERP數據模型之間的關系
·運行資料庫與ERP資料庫之間的關系
8.2.3 案例分析
8.3 決策支持系統的建立
·決策支持系統的概念
·數據倉庫設計
·數據轉移技術
·聯機分析處理(OLAP)技術
·企業決策支持解決方案
·聯機事務處理(OLTP)
⑼ 數據處理是什麼意思
數據處理是對數據(包括數值的和非數值的)進行分析和加工的技術過程。包括對各種原始數據的分析、整理、計算、編輯等的加工和處理。數據處理的基本目的是從大量的、可能是雜亂無章的、難以理解的數據中抽取並推導出對於某些特定的人們來說是有價值、有意義的數據。
數據處理是系統工程和自動控制的基本環節。數據處理貫穿於社會生產和社會生活的各個領域。數據處理技術的發展及其應用的廣度和深度,極大地影響著人類社會發展的進程。
(9)集中式存儲分布圖擴展閱讀:
計算機數據處理主要包括8個方面:
1、數據採集:採集所需的信息。
2、數據轉換:把信息轉換成機器能夠接收的形式。
3、數據分組:指定編碼,按有關信息進行有效的分組。
4、數據組織:整理數據或用某些方法安排數據,以便進行處理。
5、數據計算:進行各種算術和邏輯運算,以便得到進一步的信息。
6、數據存儲:將原始數據或計算的結果保存起來,供以後使用。
7、數據檢索:按用戶的要求找出有用的信息。
8、數據排序:把數據按一定要求排成次序。
參考資料來源:網路-數據處理