Ⅰ 信息系統開發中如何根據數據的固有屬性來確定主題資料庫的兩種方式存儲
信息系統高級項目管理工程師:信息系統基礎知識
信息系統的概念
一般泛指收集、存儲、處理和傳播各種信息的具有完整功能的集合體。當代的信息系統是指以計算機為信息處理工具,以網路為信息傳輸手段的信息系統。
信息系統4個發展階段
階段1:電子數據處理階段。該階段僅著眼於減輕人們在計算方面的勞動強度,是屬於電子數據處理(EDP)業務,只是對企業單項業務進行處理,較少涉及管理內容。
階段2:事務處理階段(TPS)。計算機應用開始對企業的局部事務的管理,形成了事務處理系統(TPS),但它並未形成對企業全局的、整體的管理。
階段3:管理信息系統階段(MIS)。用系統思想建立起來的,以計算機為基本信息處理手段,以現代通信設備為基本傳輸工具,且能為管理決策提供信息服務的人機系統。即管理信息系統是一個由人和計算機等組成的,能進行管理信息的收集、傳輸、存儲、加工、維護和使用的系統。在這一階段,信息系統形成了對企業全局性的、整體性的計算機應用。強調以企業管理系統為背景,以基層業務系統為基礎,強調企業各業務系統間的信息聯系,以完成企業總體任務為目標。
階段4:決策支持系統階段(DSS)。
這四個發展階段,他們之間的關系並不是取代關系,而是互相促進、共同發展的關系,在一個企業里,以上四個階段的信息系統,可能同時都存在,也可能只有其中一種,更高級的是幾種信息系統互相融合成一體,比如ERP、SRM等就是這種情況。
信息系統的類型
1.從計算機應用的角度可以分為,人工信息系統、基於計算機的信息系統
2.從獨立性的角度可以分為,獨立信息系統、綜合信息系統
3.從處理方式角度可以分為,批處理信息系統、聯機處理信息系統
4.從數據環境分類可以分為:數據文件、應用資料庫、主題資料庫、信息檢索系統
數據文件:簡單、容易實現;很高的維護費用。
應用資料庫:為分散的應用而設計。簡單事項、數據分散,缺少共享,且維護費用高
主體資料庫:經過嚴格的數據分析,建立應用模型,開發需要花費較長的時間。但是後期的維護費用很低。使用戶直接與這些資料庫交互使用數據。如果管理不善也會蛻變為第二類或者第一類數據環境。
信息檢索系統:比傳統的資料庫有更大的靈活性和動態可變性。一般應該與第三類數據環境共存,支持綜合信息服務和決策系統。
5.以應用層次分類。戰略級、戰術級、操作級、事務級。他是根據使用用戶層級的不同進行的劃分。
信息系統的生命周期
1.信息系統規劃階段,經過概念產生過程、需求分析過程最終形成需求分析報告。
2.信息系統的開發階段,總體規劃、系統分析、系統設計、系統實施和系統驗收。
總體規劃,必須服從和服務於企業的總體目標和企業的管理決策活動。一個比較完整的總體規劃應當包含開發目標、總體架構、組織結構、管理流程、實施計劃和技術規范等。
系統分析階段,主要目標是為系統設計階段提供邏輯模型,是企業管理流程和信息流程的交匯點。主要包括組織結構和功能分析、業務流程分析、數據和數據流程分析、系統初步方案等。
系統設計階段,根據系統分析,設計實施方案。架構設計、資料庫設計、處理流程設計、功能模塊設計、安全控制方案設計、系統組織和隊伍設計、管理流程設計
系統實施階段,將設計文本變成能在計算機上運行的軟體系統(開發),用戶在實施階段逐步變為系統的主導地位
系統驗收階段,試運行階段。
3.信息系統運行與維護階段,長時間的運行是檢驗系統質量的試金石。維護分為4種類型:排錯性維護、適應性維護、完善性維護和預防性維護。系統運行初期,排錯性維護和適應性維護比較多,而到後期完善性維護和預防性維護比較多。
4.信息系統更新階段,也稱信息系統消亡階段。
信息系統建設原則
1.高層管理人員介入原則,CIO介入
2.用戶參與開發原則,一是用戶有確定的范圍;二是用戶應當參與全過程的開發;三是用戶應當深度參與系統開發
3.自頂向下規劃原則
4.工程化原則
5.其他原則-(創新性原則、整體性原則、發展性原則、經濟性原則)
信息系統規劃方法
1.企業規劃方法(BSP).UC矩陣是BSP方法將過程和數據類兩者作為定義企業信息系統總體結構的基礎,具體做法是利用過程/數據矩陣,即UC矩陣,來表達兩者之間的關系。矩陣中行表示過程,列表示數據類,並以字母U(Use)和C(Create)來表示過程對數據類的使用和產生。
2.戰略數據規劃方法。數據環境對於信息系統至關重要,建設主題資料庫是信息系統開發的中心任務,圍繞主題資料庫搞好應用軟體開發。
3.信息工程方法。
4.關鍵成功因素法(CSF),在每個企業中都存在著對企業成功起關鍵作用的因素,稱為CSF。C通過企業的CSF,確定企業業務的關鍵信息需求,通過對CSF的識別,找出實現目標所需要的關鍵信息集合,從而確定系統開發的優先次序
5.戰略集合轉化法(SST),SST方法就是把企業的戰略集合轉化為信息系統的戰略集合,而後者由信息系統的目標、環境約束和戰略規劃組成。
6.CSF、SST、BSP之間的關系。在信息系統戰略規劃的實踐中,往往把這三種方法結合起來使用,統稱為CSB方法。CSB方法先用CSF方法確定企業目標,然後用SST方法補充完善企業目標,並將這些目標轉化為信息系統目標,用BSP方法校核兩個目標,並確定信息系統結構。
信息系統開發方法
1
Ⅱ 如何有效的進行數據治理和數據管控
從技術實施角度看,主要包含「理」「采」「存」「管」「用」這五個,即業務和數據資源梳理、數據採集清洗、資料庫設計和存儲、數據管理、數據使用。
數據資源梳理:數據治理的第一個步驟是從業務的視角釐清組織的數據資源環境和數據資源清單,包含組織機構、業務事項、信息系統,以及以資料庫、網頁、文件和 API 介面形式存在的數據項資源,本步驟的輸出物為分門別類的數據資源清單。
數據採集清洗:通過可視化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)將數據從來源端經過抽取 (extract)、轉換 (transform)、載入 (load) 至目的端的過程,目的是將散落和零亂的數據集中存儲起來。
基礎庫主題庫建設:一般情況下,可以將數據分為基礎數據、業務主題數據和分析數據。基礎數據一般指的是核心實體數據,或稱主數據,例如智慧城市中的人口、法人、地理信息、信用、電子證照等數據。主題數據一般指的是某個業務主題數據,例如市場監督管理局的食品監管、質量監督檢查、企業綜合監管等數據。而分析數據指的是基於業務主題數據綜合分析而得的分析結果數據,例如市場監督管理局的企業綜合評價、產業區域分布、高危企業分布等。那麼基礎庫和主題庫的建設就是在對業務理解的基礎上,基於易存儲、易管理、易使用的原則抽像數據存儲結構,說白了,就是基於一定的原則設計資料庫表結構,然後再根據數據資源清單設計數據採集清洗流程,將整潔干凈的數據存儲到資料庫或數據倉庫中。
元數據管理:元數據管理是對基礎庫和主題庫中的數據項屬性的管理,同時,將數據項的業務含義與數據項進行了關聯,便於業務人員也能夠理解資料庫中的數據欄位含義,並且,元數據是後面提到的自動化數據共享、數據交換和商業智能(BI)的基礎。需要注意的是,元數據管理一般是對基礎庫和主題庫中(即核心數據資產)的數據項屬性的管理,而數據資源清單是對各類數據來源的數據項的管理。
血緣追蹤:數據被業務場景使用時,發現數據錯誤,數據治理團隊需要快速定位數據來源,修復數據錯誤。那麼數據治理團隊需要知道業務團隊的數據來自於哪個核心庫,核心庫的數據又來自於哪個數據源頭。我們的實踐是在元數據和數據資源清單之間建立關聯關系,且業務團隊使用的數據項由元數據組合配置而來,這樣,就建立了數據使用場景與數據源頭之間的血緣關系。 數據資源目錄:數據資源目錄一般應用於數據共享的場景,例如政府部門之間的數據共享,數據資源目錄是基於業務場景和行業規范而創建,同時依託於元數據和基礎庫主題而實現自動化的數據申請和使用。
質量管理:數據價值的成功發掘必須依託於高質量的數據,唯有準確、完整、一致的數據才有使用價值。因此,需要從多維度來分析數據的質量,例如:偏移量、非空檢查、值域檢查、規范性檢查、重復性檢查、關聯關系檢查、離群值檢查、波動檢查等等。需要注意的是,優秀的數據質量模型的設計必須依賴於對業務的深刻理解,在技術上也推薦使用大數據相關技術來保障檢測性能和降低對業務系統的性能影響,例如 Hadoop,MapRece,HBase 等。
商業智能(BI):數據治理的目的是使用,對於一個大型的數據倉庫來說,數據使用的場景和需求是多變的,那麼可以使用 BI 類的產品快速獲取需要的數據,並分析形成報表,像派可數據就屬於專業的BI廠商。
數據共享交換:數據共享包括組織內部和組織之間的數據共享,共享方式也分為庫表、文件和 API 介面三種共享方式,庫表共享比較直接粗暴,文件共享方式通過 ETL 工具做一個反向的數據交換也就可以實現。我們比較推薦的是 API 介面共享方式,在這種方式下,能夠讓中心數據倉庫保留數據所有權,把數據使用權通過 API 介面的形式進行了轉移。API 介面共享可以使用 API 網關實現,常見的功能是自動化的介面生成、申請審核、限流、限並發、多用戶隔離、調用統計、調用審計、黑白名單、調用監控、質量監控等等。
Ⅲ 數據倉庫數據建模的幾種思路
數據倉庫數據建模的幾種思路主要分為一下幾種
1. 星型模式
星形模式(Star Schema)是最常用的維度建模方式。星型模式是以事實表為中心,所有的維度表直接連接在事實表上,像星星一樣。星形模式的維度建模由一個事實表和一組維表成,且具有以下特點:a. 維表只和事實表關聯,維表之間沒有關聯;b. 每個維表主鍵為單列,且該主鍵放置在事實表中,作為兩邊連接的外鍵;c. 以事實表為核心,維表圍繞核心呈星形分布;
星座模型
Ⅳ 教你輕松掌握數據倉庫的規劃和構建策略
教你輕松掌握數據倉庫的規劃和構建策略
數據倉庫作為決策支持系統(DSS)的基礎,具有面向主題的、集成的、不可更新的、隨時間不斷變化的特性。這些特點說明了數據倉庫從數據組織到數據處理,都與原來的資料庫有很大的區別,這也就需要在數據倉庫系統設計時尋求一個適合於數據倉庫設計的方法。在一般的系統開發規劃中,首先需要確定系統的功能,這些系統的功能一般是通過對用戶的需求分析得到的。從數據倉庫的應用角度來看,DSS分析員一般是企業中的中高層管理人員,他們對決策支持的需求不能預先做出規范的說明,只能給設計人員一個抽象地描述。
這就需要設計人員在與用戶不斷的交流溝通中,將系統的需求逐步明確,並加以完善。因此數據倉庫的開發規劃過程實際上是一個用戶和設計人員對其不斷了解、熟悉和完善的過程。 數據倉庫的開發應用規劃是開發數據倉庫的首要任務。只有制定了正確的數據倉庫規劃,才能使組織主要力量有序地實現數據倉庫的開發應用。在數據倉庫規劃中一般需要經歷這樣幾個過程:選擇實現策略、確定數據倉庫的開發目標和實現范圍、選擇數據倉庫體系結構、建立商業和項目規劃預算。 當數據倉庫規劃完成後,需要編制相應的數據倉庫規劃說明書,說明數據倉庫與企業戰略的關系,以及與企業急需處理的、范圍相對有限的開發機會,重點支持的職能部門和今後數據倉庫開發工作的建議,實際使用方案和開發預算,作為數據倉庫實際開發的依據。
1、選擇數據倉庫實現策略
數據倉庫的開發策略主要有自頂向下、自底向上和這兩種策略的聯合使用。自頂向下策略在實際應用中比較困難,因為數據倉庫的功能是一種決策支持功能。這種功能在企業戰略的應用范圍中常常是很難確定的,因為數據倉庫的應用機會往往超出企業當前的實際業務范圍,而且在開發前就確定目標,會在實現預定目標後就不再追求新的應用,是數據倉庫喪失更有戰略意義的應用。由於該策略在開發前就可以給出數據倉庫的實現范圍,能夠清楚地向決策者和企業描述系統的收益情況和實現目標,因此是一種有效的數據倉庫開發策略。該方法使用時需要開發人員具有豐富的自頂向下開發系統的經驗,企業決策層和管理人員完全知道數據倉庫的預定目標並且了解數據倉庫能夠在那些決策中發揮作用。
自底向上策略一般從某個數據倉庫原型開始,選擇一些特定的為企業管理人員所熟知的管理問題作為數據倉庫開發的對象,在此基礎上進行數據倉庫的開發。因此,該策略常常用於一個數據集市、一個經理系統或一個部門的數據倉庫開發。該策略的優點在於企業能夠以較小的投入,獲得較高的數據倉庫應用收益。在開發過程中,人員投入較少,也容易獲得成效。當然,如果某個項目的開發失敗可能造成企業整個數據倉庫系統開發的延遲。該策略一般用於企業洗碗對數據倉庫的技術進行評價,以確定該技術的應用方式、地點和時間,或希望了解實現和運行數據倉庫所需要的各種費用,或在數據倉庫的應用目標並不是很明確時,數據倉庫對決策過程影響不是很明確時使用。
在自頂向下的開發策略中可以採用結構化或面向對象的方法,按照數據倉庫的規劃、需求確定、系統分析、系統設計、系統集成、系統測試和系統試運行的階段完成數據倉庫的開發。而在自底向上的開發中,則可以採用螺旋式的原型開發方法,使用戶可以根據新的需求對試運行的系統進行修改。螺旋式的原型開發方法要求在較短的時間內快速的生成可以不斷增加功能的數據倉庫系統,這種開發方法主要適合於這樣一些場合:在企業的市場動向和需求無法預測,市場的時機是實現產品的重要組成部分,不斷地改進對與企業的市場調節是必需的;持久的競爭優勢來自連續不斷地改進,系統地改進是基於用戶在使用中的不斷發現。 自頂向下和自底向上策略的聯合使用具有兩種策略的優點,既能快速的完成數據倉庫的開發與應用,還可建立具有長遠價值的數據倉庫方案。但在實踐中往往難以操作,通常需要能夠建立、應用和維護企業模型、數據模型和技術結構的、具有豐富經驗的開發人員,能夠熟練的從具體(如業務系統中的元數據)轉移到抽象(只基於業務性質而不是基於實現系統技術的邏輯模型);企業需要擁有由最終用戶和信息系統人員組成的有經驗的開發小組,能夠清楚地指出數據倉庫在企業戰略決策支持中的應用。
2、確定數據倉庫的開發目標和實現范圍
為確定數據倉庫的開發目標和實現范圍,首先需要對企業管理者等數據倉庫用戶解釋數據倉庫在企業管理中的應用和發展趨勢,說明企業組織和使用數據來支持跨功能系統的重要性,對企業經營戰略的支持,以確定開發目標。在該階段確認與使用數據倉庫有關的業務要求,這些要求應該只支持最主要的業務職能部門,將使用精力集中在收益明顯的業務上,使數據倉庫的應用立即產生效果,不應該消耗太多的精力在各個業務上同時鋪開數據倉庫的應用。
在確定開發目標和范圍以後,應該編制需求文檔,作為今後開發數據倉庫的依據。 數據倉庫開發的首要目標是確定所需要信息的范圍,確定用戶提供決策幫助時,在主題和指標域需要哪些數據源。這就需要定義:用戶需要什麼數據?面向主題的數據倉庫需要什麼樣的支持數據?為成功地向用戶提交數據,開發人員需要哪些商業知識?哪些背景知識?這就需要定義整體需求,以文件的形式整理現存的記錄系統和系統環境,對使用數據倉庫中數據的候選應用系統進行標識、排序,構造一個傳遞模型,確定尺度、事實及時間標記演算法,以便從系統中抽取信息且將他們放入數據倉庫。通過信息范圍確定可為開發人員提供一個良好的分析平台,和用戶一起分析哪些信息是數據倉庫需要的,進行商業活動需要什麼數據。開發人員可以和用戶進一步定義需要,例如數據分級層次、聚合的層次、載入的頻率以及需要保持的時間表等。 數據倉庫開發的另一個重要目標是確定利用哪些方法和工具訪問和導航數據?雖然用戶都需要存取並且檢索數據倉庫的內容,但是所存取的粒度有所不同,有的可能是詳細的記錄,有的可能是比較概括的記錄或十分概括的記錄。用戶要求的數據概括程度不同,將導致數據倉庫的聚集和概括工具的需求不同。
數據倉庫還有具有一定功能來訪問和檢索圖表、預定義的報表、多維數據、概括性數據和詳細記錄。用戶從數據倉庫中獲得信息,應該有電子表格、統計分析器和支持多維分析的分析處理器等工具的支持,以解釋和分析數據倉庫中的內容,產生並且驗證不同的市場假設、建議和決策方案。為將決策建議和各種決策方案向用戶清楚地表達出來,需要利用報表、圖表和圖像等強有力的信息表達工具。 數據倉庫開發的其他目標,是確定數據倉庫內部數據的規模。在數據倉庫中不僅包含當前數據,而且包含多年的歷史數據。數據的概括程度決定了這些數據壓縮和概括的最大限度。如果要讓數據倉庫提供對歷史記錄進行決策查詢的功能,就必須支持對大量數據的管理。數據的規模不僅直接影響決策查詢的時間,而且還將直接影響企業決策的質量。
在數據倉庫的開發目標中,還有:根據用戶對數據倉庫的基本需求,確定數據倉庫中數據的含義;確定數據倉庫內容的質量,以確定使用、分析和建議的可信級別;哪種類型的數據倉庫可以滿足最終用戶的需求,這些數據倉庫應該具有怎樣的功能;需要哪些元數據,如何使用數據源中的數據等。 數據倉庫的開發目標多種多樣,十分復雜,需要開發人員和用戶在開發與使用的過程中不斷交互完善。因此,在規劃中需要確定數據倉庫的開發范圍。使開發人員能夠根據需求和目標的重要性逐步進行,並且在開發中吸取經驗教訓,為數據倉庫在企業中的全部實現提供技術准備。因此,在為數據倉庫確定總體開發方向和目標以後,就必須確定一個有限的能夠很快體現數據倉庫效益的使用范圍。在考慮數據倉庫苦的應用范圍時,主要從使用部門的數量和類型、數據源的數量、企業模型的子集、預算分配以及開發項目所需的時間等角度分析。
在分析這些因素時,可從用戶的角度和技術的角度兩方面進行。 從用戶的角度應該分析哪些部門最先使用數據倉庫?是哪些人員為了什麼目的使用數據倉庫?以及數據倉庫首先要滿足哪些決策查詢?因為這些決策查詢往往確定了關於數據維數、報表的種類,這些因素都將確定數據倉庫定義時所需要的數量關系。查詢的格式越具體,越容易提供數據倉庫的維數、聚集和概括的規劃說明。 從技術角度分析,應該確定數據倉庫中元資料庫的規模,數據倉庫的元資料庫是存儲數據倉庫中數據定義的模型。數據定義存儲在倉庫管理器的目錄中,可以作為所有查詢和報表工具構造和查詢數據倉庫的依據。元資料庫的規模直接表示了數據倉庫中必須管理的數據規模。通過對元資料庫規模的管理,實際上就確定了數據倉庫中所需要管理的數據規模。
3、數據倉庫的結構選擇
數據倉庫的結構可以進行靈活的選擇,可將組織所使用的各種平台進行恰當的分割,把數據源、數據倉庫和最終用戶使用的工作站分割開來進行恰當的設計。
(1)數據倉庫的應用結構
基於業務處理系統的數據倉庫 在這種結構中,將運作的數據用於無需修改數據的只讀應用程序中。具有這種結構的數據倉庫元資料庫是一種虛庫,而不是數據倉庫自身的元數據。在數據倉庫元資料庫的直接指導下,對數據倉庫的查詢就是簡單的從資料庫中抽取數據。
單純數據倉庫
利用在數據倉庫中的數據源凈化、集成、概括和集成等操作,將數據源從業務處理系統中傳輸進集中的數據倉庫,各部門的數據倉庫應用只在數據倉庫中進行。這種結構經常發生在多部門、少用戶使用數據倉庫的情況下。這里的集中僅僅是邏輯上的,物理上可能是分散的。
單純數據集市
數據集市是指在部門中使用的數據倉庫,因為企業中的各個職能部門都有自己的特殊需要,而統一的數據倉庫可能不能滿足這些部門的特殊要求。這種體系結構經常發生在個別部門對數據倉庫的應用感興趣,而組織中其他部門卻對數據倉庫的應用十分冷漠之時,由熱心的部門單獨開發式所採用。
數據倉庫和數據集市
企業各部門擁有滿足自己需要的數據集市,其數據從企業數據倉庫中獲取,而數據倉庫從企業各種數據源中收集和分配。這種體系結構是一種較為完善的數據倉庫體系結構,往往發生在組織整體對數據倉庫應用感興趣之時所採用的體系結構。
(2)數據倉庫的技術平台結構 單層結構
單層結構主要是在數據源和數據倉庫之間共享平台,或者讓數據源、數據倉庫、數據集市與最終用戶工作站使用同一個平台。共享一個平台可以降低數據抽取和數據轉換的復雜性,但是共享平台在應用中可能遇到性能和管理方面的問題,這種體系結構一般在數據倉庫規模較小,而組織的業務系統平台具有較大潛力之時所採用。
客戶/伺服器兩層結構
一層為客戶機,一層為伺服器,最終用戶訪問工具在客戶層上運行,而數據源、數據倉庫和數據集市位於伺服器上,該技術機構一般用於普通規模的數據倉庫。
三層客戶/伺服器結構
基於工作站的客戶層、基於伺服器的中間層和基於主機的第三層。主機層負責管理數據源和可選的源數據轉換;伺服器運行數據倉庫和數據集市軟體,並且存儲倉庫的數據;客戶工作站運行查詢和報表運用程序,且還可以存儲從數據集市或數據倉庫卸載的局部數據。在數據倉庫稍具規模,兩層數據倉庫結構已經不能滿足客戶的需求,要講數據倉庫的數據存儲管理、數據倉庫的應用處理和客戶端應用分開之時,可以採用這種結構。
多層式結構
這是在三層機構基礎上發展起來的數據倉庫結構,在該結構中從最內數據層到最外層的客戶層依次是:單獨的數據倉庫存儲層、對數據倉庫和數據集市進行管理的數據倉庫服務層、進行數據倉庫查詢處理的查詢服務層、完成數據倉庫應用處理的應用服務層和面向最終用戶的客戶層。體系層次可能多達五層,這種體系結構一般用於超規模數據倉庫系統。
4、數據倉庫使用方案和項目規劃預算
數據倉庫的實際使用方案與開發預算,是數據倉庫規劃中最後需要確定的問題。因為數據倉庫主要用於對企業管理人員的決策支持,確保其實用性是十分重要的,因此需要讓最終用戶參與數據倉庫的功能設計。這種參與是通過用戶的實際使用方案進行的,使用方案是一個非常重要的需求模型。實際使用方案必須有助於闡明最終用戶對數據倉庫的要求,這些要求有的只使用適當的數據源就可以得到基本滿足,而有的卻需要來自企業外部的數據源,這就需要通過使用方案將這些不同的要求聯系起來。 實際使用方案還可以將最終用戶的決策支持要求與數據倉庫的技術要求聯系起來。因為當用戶確定最終要求後,為元資料庫的范圍確定一個界限。還可以確定所需要的歷史信息的數量,當根據特定的用戶進行數據倉庫的規劃時,就可確定最終用戶所關心的維度(時間、方位、商業單位和生產企業),因為維度與所需要的概括操作有明顯的關系,必須選擇對最終用戶有實際意義的維度,如:「月」、「季度」、「年」等。最後,還可以確定數據集市/數據倉庫的結構需要,使設計人員確定採用單純數據倉庫結構,還是單純的數據集市結構或者是兩者相結合的結構。
在實際使用開發方案確定後,還需要對開發方案的預算進行估計,確定項目的投資數額。投資方案的確定可以依據以往的軟體開發成本,但是這種預算的評估比較粗糙。另一種方法是參照結構進行成本評估,也就是說,將數據倉庫實際使用方案所確定的構件進行分解,根據各個構件的成本進行預算估算。數據倉庫的構件包含在數據源、數據倉庫、數據集市、最終用戶存取、數據管理、元數據管理、傳輸基礎等部分中,這些構件有的在企業原有信息系統中已經具備,有的可以選擇商品化構件,有的則需要自我開發。根據這些構件的不同來源,可以確定比較准確的預算。 在完成數據倉庫規劃後,就需要編制數據倉庫開發說明書,說明系統與企業戰略目標的關系,以及系統與企業急需處理的范圍相對有限的開發機會,所設想的業務機會的說明以及目標任務概況說明、重點支持的職能部門和今後工作的建議。數據倉庫項目應有明確的業務價值計劃開始,在計劃中需要闡明期望取得的有形和無形的利益。無形利益包含利用數據倉庫使決策完成得更快更好等利益。
業務價值計劃最好由目標業務主管來完成,因為數據倉庫是用戶驅動的,應該讓用戶積極參與數據倉庫的建設,在規劃書中要確定數據倉庫開發目標的實現范圍、體系結構和使用方案及開發預算。
Ⅳ 中心資料庫設計
5.2.2.1 資料庫
根據該系統的開發需求,按照資料庫的功能和作用將其分為風險查詢類、風險評價類、系統管理類三大類(薩師煊等,2000)。主要數據見表5.5。
表5.5 海外油氣與金屬礦產資源開發風險管理系統的主要數據表
續表
5.2.2.2 數據倉庫
油價數據來源於美國能源部(DOE)下屬的能源信息署(EIA)網站、中石油(CNPC)網站和《華爾街日報》(WSJ)網站提供的油價數據,油價序列本身就是一個不規則的時間序列,油價數據具有以下幾個特點。
(1)數據的一致性差
油價數據格式多樣,存在數據冗餘,主要體現在:使用的數據格式均不相同,並且各個子系統相對獨立。在網站單獨作用的情況下,一般都沒有問題,但要將這些不同系統或不同時期的數據集中起來綜合利用,就可能出現數據不齊全、不一致或重復的現象。
(2)數據存放的分散
油價數據來源多,缺乏統一管理,沒有一種相應的網頁數據自動化抓取操作實現數據的本地化操作過程。
(3)數據資源開發不充分
大容量數據導致對數據資源的開發利用不充分,缺乏對獲取的數據如各分析機構制定的期貨合約元數據進行各種深層次分析、綜合、提煉、挖掘和展現的應用,因此很難對豐富的統計數據資源進行二次開發利用。
根據油價數據中所包含的油氣產品種類、油氣產品合約制定日期、油氣產品的價格類型、不同市場下油氣產品價格的差異等,能夠加深對油價走勢的了解。油價的這種與時間相關性、不可修改性,以及集成的性質,使得我們採用多種角度對原始數據進行理解,並真實反映其特性,也讓我們發現使用一種整合的技術對油價進行精確預測十分必要。
數據倉庫的構建流程如圖5.13所示由下至上逐步實現。
圖5.13 數據倉庫構建流程
1)數據源。
A.數據源的復雜性。數據分散在資料庫管理系統、電子表格、電子郵件系統、電子文檔甚至紙上。系統中要求採集的3個數據源中,EIA 網站存儲在網頁上的油價相關事件更新較慢,雖然提供了各市場日、周、月、年的油價數據下載,但是下載完成之後的表格欄位格式時常發生變化,這為實現自動獲取數據並下載到本地自動入庫的要求增加了難度;中石油網站數據除上述只顯示3條數據之外,網站上會將訪問流量過大的IP地址列入黑名單使其不能繼續下載到本地進行保存,為這些數據建立統一的模型將會耗費很大精力。
B.數據的有效性。由於存在經驗局限,如何處理數據的空值、不同時間間隔時間欄位格式,入庫時應注意的問題等,如果應用程序沒有檢驗數據的有效性,會對數據多維顯示產生極大影響,因此也歸結為數據源數據質量問題。
C.數據的完整性。數據源上的數據並不那麼明顯或者容易獲得。油價是高度敏感的數據,因此各個網站雖然提供了各個油品交易市場的日、月或年數據,但是完整性並不能充分保證,根據企業政策的不同,有時對要獲得的數據,需花費大量精力。為此,要對不同的數據源進行建庫,以保證所獲數據的完整性。
2)數據處理。
高效的多維數據集展示離不開底層數據源數據的精確獲取,或者叫做數據理解和數據清洗。於是系統在基於元數據獲取、加工、入庫和多維數據集展示上實現預期的要求。
A.ETL。該功能是整個油價數據倉庫的核心之一,主要功能是按照事先定義的數據表對應關系從相關系統表中抽取數據(Extraction),經過數據清洗和轉換(Transform),最終把正確的數據裝載到數據倉庫的源數據中(Load),作為以後應用的基礎。
B.數據轉換。該功能是在數據抽取過程中按照定義的規則轉換數據,避免了數據在分析時的多樣性,保證數據一致性。
C.數據集成。該功能主要是把油價信息數據倉庫系統的源數據,按照事先定義的計算邏輯以主題的方式重新整合數據,並以新的數據結構形式存儲。
3)數據存儲。
星型模型(星型架構)是數據倉庫開發中多維展現重要的邏輯結構,構成星型模型的幾個重要特徵是:維、度和屬性,在實際應用中表示為事實表和維度表。在油價數據中,各市場的期現貨價格表為數據倉庫的事實表,油品類型、合約規定日期等為維度表。
油價數據倉庫星型模型的設計方案如下:
A.事實表。資料庫表中EIA的期現貨價格表(包括日、周、月、年表)作為數據倉庫中的事實表,根據不同時間維度構成多個星型模型,即星座模型。這些價格表中以市場編號、油氣產品類型、期貨合約日期、價格單位度量衡編號作為主鍵和外鍵與其他維度表相連,形成多維展示聯動的基礎,以油價數據和其他事實數據為記錄數據,作為主要輸出結果。
B.維度表。根據市場、油品、價格數據、度量衡和事件類型作為油氣數據倉庫中多維分析的角度和目標。
圖5.14以EIA的日期貨數據表作事實表為例,構建星型模型,其他不同時間維度的模型結構圖與此圖基本相同。
圖5.14 以EIA數據為例的日期貨價格星型模型
以星型模型設計為基礎,完善數據存儲中操作型數據存儲(ODS)的原型設計,提供DB-DW之間中間層的數據環境,可實現操作型數據整合和各個系統之間的數據交換。
Ⅵ 如何設計、創建一個面向CRM的數據倉庫
1 CRM系統
1.1 CRM簡介
一個完整的CRM主要可分成3個部分:操作型CRM、協作型CRM和分析型CRM。操作型CRM是CRM中最基本的功能系統,它提供整個CRM的流程管理功能,主要是提供以客戶為中心的市場、銷售,服務與支持等業務流程的自動化。協作型CRM是以客戶服務中心為主要表現形式,以計算機電話集成技術為核心,使客戶可以通過電話、傳真、E-mail、Web站點等方式更快捷、更有效地與企業進行交互。
分析型CRM是通過對操作型CRM、協作型CRM、其它企業應用系統和外部數據源中保存的與客戶相關的數據的集成,建立以客戶為中心的數據倉庫,獲得企業范圍內客戶數據的一致視圖,並以集成後的客戶數據為基礎,通過查詢與報表分析、OLAP分析和數據挖掘等手段獲取關於客戶的知識,為客戶提供個性化的產品和服務,提高客戶的滿意度和忠誠度,實現客戶終身價值的最大化。本文主要針對的是分析型CRM。
1.2在CRM中應用數據倉庫的必然性
數據倉庫是CRM的中心環節甚至是CRM的靈魂所在,它存儲了企業內部和外部的各種數據,並將這些源數據整理成一致的、隨時間變化的以及最大限度優化分析的客戶信息庫,通過OLAF分析和數據挖掘來發現大量客戶信息中所隱藏的規律,為企業進行經營決策提供支持。另一方面,它將CRM的業務平台與分析平台進行了有效地分離,使得業務型資料庫可以專注於事務處理,既提高了事務處理的效率又優化了分析處理的能力。
傳統的企業事務處理系統部是各個部門根據自身事務處理的需要保留部分數據,而且各個模塊之間的聯系並不緊密,雖然客戶的部分信息也能從這些系統中獲取,但遠遠不能滿足需要。例如,對於一個典型的以客戶行為為目標的分析,通常需要更多的日常積累的、反映歷史變化的數據才有可能進行有效地分析,然而在這一點上傳統的教據庫系統是很難做到的(不論是從數據的存儲量還是從數據的整合來考慮)。因此,數據倉庫的引入是必然的。
1.3分析型CRM的體系結構
將數據倉庫技術引入到對客戶信息的管理與組織上來,即建立一個面向CRM應用系統的客戶信息數掘倉庫,它實現了來自企業內部及外部的多種分割應用的客戶信息的集成和統一,這正是分析型CRM的基本任務。如圖1所示為分析型CRM的體系結構。其中,客戶信息數據倉庫是分析型CRM的核心,它的任務主要是從OLTP系統中抽取數據、把抽取出的數據進行統一的格式轉換,將數據載入到數據倉庫環境中(以上3步稱為ETL,即extract,transform,load,抽取,轉換,裝載),管理和維護數據倉庫中的數據。最後,通過對這些數據的OLAP分析和數據挖掘,企業管理者可以得到許多有價值的信息,從而更好地為客戶服務。
建立數據倉庫時,這里採用的是一種可擴展的數據倉庫體系結構,即中間層包括兩種類型的資料庫:一種是基本的包含多個主題的數據倉庫;另一種足從屬的針對某一主題的數據集市。如圖1所示,這里根據數據倉庫中的4個主題分別設計了4千數據集市。採用可擴展的體系結構,可以縮短數據倉庫的建設周期,降低費用支出,並且避免了直接建立數據集市而不建立數據倉庫所存在的擴展性較差、多個教據集市間難以保持同步的鋏點。
2客戶信息數據倉庫的設計
設計客戶信息數據倉庫的第一步就是要確立主題。主題是一個抽象的概念,是在較高層次上將企業信息系統中的數據綜合、歸類並進行分析利用的對象。設計數據倉庫首先要從操作型環境中的數據入手,結合決策支持的實際需要,確定數據倉庫的主題。根據所涉及的分析型CRM的功能,該客戶信息數據倉庫包含了客戶發展、客戶購買、產品和市場營銷4個主題。其中,客戶購買主題主要是從不同的角度對客戶的購買行為進行分析,如客戶的購買行為同客戶的背景信息之間的關聯,其中背景信息主要包括客戶的教育程度、收入水平、年齡、性別、是否已婚等。在客戶信息數據倉庫模型中,分3步來進行設計,分劇是概念模型、邏輯模型和物理模型設計。本文針對某網上書店,以客戶購買主題為例,給出該客戶信息數據倉庫模型的完整的設計方案。
2.1概念模型設計
數據倉庫設計中概念模型設計的目的是確定面向主題的信息包圍。信息包圖作為一種公共的、一致的和緊湊的概念模型設計工具,能夠明確反映用戶的需求以及實現該需求所需的各種要素及其之間的關系。信息包圖由名稱、維度、類別和度量組成,其中類別表述的是維的層次性。
該網上書店的客戶信息數據倉庫中客戶購買主題信息包圖如圖2所示。其中,對於圖書有3種分類方法,前兩種較常見,還有一種是按圖書存在形式分類,可分為普通圖書、Vbook和Ebook。普通圖書即傳統紙制圖書,Ebook指以計算機和網路為載體的電子圖書,Vbook是一種新的多媒體演示、培訓、商業交流的載體,具備音頻和視頻的功能,如各領域專家的講座,教學考試類培訓課程等。隨著計算機的普及和網路的發展,Ebook和Vbook越來越受到讀者的青睞。
2.2邏輯模型設計
數據倉庫的邏輯模型一般有星型模型和雪花模型兩種。星型模型是基於關系型資料庫的、面向OLAP的一種多維數據模型的數據組織形式,它由事實表和多個維度表組成,通過使用一個包括主題的事實表和多個包含事實的非正規化描述的維度表來執行決策支持查詢,從而獲得比高度規范化設計結構更高的查詢性能。
雪花模型雖然較星型模型更符合規范化的設計結構,但它增加了查詢的復雜度,降低了查詢的性能,因此,這里採用星型模型。
星型模型的建立要以概念模型中的信息包圈為基礎,將信息包圖轉換為星型模型,具體方法為:將信息包圖中的度量實體放入星型模型的中心位置上,信息包圖中的維度實體放入度量實體的周邊。該客戶信息數據倉庫中客戶購買主題的邏輯模型。
2.3物理模型設計
物理模型是指教據在數據倉庫中的存放形式和組織形式。設計物理模型,要在星型模型或雪花模型的基礎上,確定事實表和維表的結構;明確二者的數據欄位、數據類型、關聯欄位、索引結構;確定數據倉庫中多維數據集的存儲結構,如物理存取方式、數據存儲結構、數據存放位置以廈存儲分配是否分區等。進行物理模型設計時,應重點考慮的因素有I/O存取時間、空間利用率和維護代價。
目前大多數數據倉庫都是建立在關系型資料庫的基礎上,基終數據的存儲是由資料庫系統進行管理的。在該數據倉庫的設計中,選用MSSQLServer2000及其組件分析伺服器來作為資料庫和數據倉庫的管理系統。數據倉庫在邏輯上是多維的,但在物理存儲上其多維數據集的存儲方式可以有關系型聯機分析處理(,ROLAP),多維聯機分析處理(,MOLAP)和混台聯機分析處理(,HOLAP)3種方式。
在該數據倉庫中,多維數據集的存儲選擇HOLAP方式,即基本數據保留在原有的關系資料庫中,而聚合體則存儲在分析伺服器上的多維結構中,這樣不僅可以避免數據重復,還能夠提高查詢性能(因為聚合體存儲在多維數據集中),僅在頻繁訪問詳細數據時對性能影響較大。
3 實 現
針對該網上書店,此數據倉庫的實施是以MSSQLServer2000平台為基礎。通過SQLServer中的DTS服務,並輔以VBScript來實現將源數據導入數據倉庫的ETL過程;通過AnalysisServices來建立多維數據集,實現OLAP操作,支持多維查詢袁達式(multidimensionalexpression,MDX)查詢,並通過自動構造MDX語句,實現上卷、下鑽、切片、切塊、旋轉等OLAP運算。
該客戶信息數據倉庫共包含了客戶發展、客戶購買、產品和市場營銷4個主題,對客戶購買主題的OLAP分析示例。其中,用戶可以從客戶所在地區、年齡層、性別、婚姻狀況,職業、年收入層、會員星級、圖書一按內容分類、圖書按出版社分類、圖書一按存在形式分類及時間共11個維度,來分析客戶購買數量、金額、成本、利潤及平均單價這5個度量。
此外,利用AnalysisServices所提供的數據透視表服務,用戶可以用VB或其它語言開發自己想要的前端數據展現程序,也可以直接利用現有工具,如MSOffice套件中的Excel、Access,來實現對多維數據集的數據展現功能,從而可以方便地得到各種統計報表和分析圖形。利用Excel展現了對2005年不同年齡層的客戶對不同種類圖書的購買情況的利潤分析。
Ⅶ 資料庫 數據
簡而言之,資料庫是面向事務的設計,數據倉庫是面向主題設計的。
資料庫一般存儲在線交易數據,數據倉庫存儲的一般是歷史數據。
資料庫設計是盡量避免冗餘,一般採用符合範式的規則來設計,數據倉庫在設計是有意引入冗餘,採用反範式的方式來設計。
資料庫是為捕獲數據而設計,數據倉庫是為分析數據而設計,它的兩個基本的元素是維表和事實表。維是看問題的角度,比如時間,部門,維表放的就是這些東西的定義,事實表裡放著要查詢的數據,同時有維的ID。
單從概念上講,有些晦澀。任何技術都是為應用服務的,結合應用可以很容易地理解。以銀行業務為例。資料庫是事務系統的數據平台,客戶在銀行做的每筆交易都會寫入資料庫,被記錄下來,這里,可以簡單地理解為用資料庫記帳。數據倉庫是分析系統的數據平台,它從事務系統獲取數據,並做匯總、加工,為決策者提供決策的依據。比如,某銀行某分行一個月發生多少交易,該分行當前存款余額是多少。如果存款又多,消費交易又多,那麼該地區就有必要設立ATM了。
顯然,銀行的交易量是巨大的,通常以百萬甚至千萬次來計算。事務系統是實時的,這就要求時效性,客戶存一筆錢需要幾十秒是無法忍受的,這就要求資料庫只能存儲很短一段時間的數據。而分析系統是事後的,它要提供關注時間段內所有的有效數據。這些數據是海量的,匯總計算起來也要慢一些,但是,只要能夠提供有效的分析數據就達到目的了。
數據倉庫,是在資料庫已經大量存在的情況下,為了進一步挖掘數據資源、為了決策需要而產生的,它決不是所謂的「大型資料庫」。那麼,數據倉庫與傳統資料庫比較,有哪些不同呢?讓我們先看看W.H.Inmon關於數據倉庫的定義:面向主題的、集成的、與時間相關且不可修改的數據集合。
「面向主題的」:傳統資料庫主要是為應用程序進行數據處理,未必按照同一主題存儲數據;數據倉庫側重於數據分析工作,是按照主題存儲的。這一點,類似於傳統農貿市場與超市的區別—市場裡面,白菜、蘿卜、香菜會在一個攤位上,如果它們是一個小販賣的;而超市裡,白菜、蘿卜、香菜則各自一塊。也就是說,市場里的菜(數據)是按照小販(應用程序)歸堆(存儲)的,超市裡面則是按照菜的類型(同主題)歸堆的。
「與時間相關」:資料庫保存信息的時候,並不強調一定有時間信息。數據倉庫則不同,出於決策的需要,數據倉庫中的數據都要標明時間屬性。決策中,時間屬性很重要。同樣都是累計購買過九車產品的顧客,一位是最近三個月購買九車,一位是最近一年從未買過,這對於決策者意義是不同的。
「不可修改」:數據倉庫中的數據並不是最新的,而是來源於其它數據源。數據倉庫反映的是歷史信息,並不是很多資料庫處理的那種日常事務數據(有的資料庫例如電信計費資料庫甚至處理實時信息)。因此,數據倉庫中的數據是極少或根本不修改的;當然,向數據倉庫添加數據是允許的。
數據倉庫的出現,並不是要取代資料庫。目前,大部分數據倉庫還是用關系資料庫管理系統來管理的。可以說,資料庫、數據倉庫相輔相成、各有千秋。
補充一下,數據倉庫的方案建設的目的,是為前端查詢和分析作為基礎,由於有較大的冗餘,所以需要的存儲也較大。為了更好地為前端應用服務,數據倉庫必須有如下幾點優點,否則是失敗的數據倉庫方案。
1.效率足夠高。客戶要求的分析數據一般分為日、周、月、季、年等,可以看出,日為周期的數據要求的效率最高,要求24小時甚至12小時內,客戶能看到昨天的數據分析。由於有的企業每日的數據量很大,設計不好的數據倉庫經常會出問題,延遲1-3日才能給出數據,顯然不行的。
2.數據質量。客戶要看各種信息,肯定要准確的數據,但由於數據倉庫流程至少分為3步,2次ETL,復雜的架構會更多層次,那麼由於數據源有臟數據或者代碼不嚴謹,都可以導致數據失真,客戶看到錯誤的信息就可能導致分析出錯誤的決策,造成損失,而不是效益。
3.擴展性。之所以有的大型數據倉庫系統架構設計復雜,是因為考慮到了未來3-5年的擴展性,這樣的話,客戶不用太快花錢去重建數據倉庫系統,就能很穩定運行。主要體現在數據建模的合理性,數據倉庫方案中多出一些中間層,使海量數據流有足夠的緩沖,不至於數據量大很多,就運行不起來了。
是否可以解決您的問題?
Ⅷ 建設內容
(一)科研建設
技術方法優勢明顯,研究方向明確,科研問題典型或普遍,技術示範性強,研究內容具體,且長期固定,具有符合基地發展的研究項目,能依託基地形成科研團隊並完成科研成果、如研究報告、獲獎項目、專利、主要文章、主要技術方法和產品等。具備進行現場觀察與研究、技術試驗的條件等基礎設施。
(二)場地建設
對於觀測類基地應有一個或多個支撐科學研究的觀測或數據採集點(站)。基地建設要緊密結合科學研究方向和任務,科研基地選區位於重要地質構造帶、成礦(藏)區帶以及能夠解決地學科學問題的區域,具有代表性和典型性,交通和自然條件相對較為便利。應該突出科研特色,因此總體規劃建設應本著全面規劃,分步實施,滾動發展,逐步完善的原則,使基地能持續、協調發展,即要突出重點,又要注重全局,整體推進。野外觀測與實驗研究基地的規模可根據學科發展方向和科研重點建設,不一定強調規模大小,根據需要有的可能就是一個觀測站,有的可以大到集觀測、實驗、開發、綜合研究於一體的實體。場所建設應根據基地的研究內容盡量多樣化,避免千篇一律的「四合院廂房」式風格。
基地應有固定的場所和展室,大型基地可建設展覽館。場地由科研用房、展示用房、輔助用房、觀測與實驗設備、標本與岩心庫、剖面與地質遺跡等組成。小型的觀測基地可根據其研究內容和任務具體確定。基地觀測點(站)應具備數據採集和處理的基本功能。基地展室是基地的主要組成部分,是利用圖片、文字、模型、實物、影視及信息系統等多媒體形式,集中展示基地內科研內容、研究成果、地質現象、地質遺跡、礦山史跡,普及科學文化知識,並可作為科研、科普互動的場所。
1.選址原則
特色性原則:基地選擇要突出科研特色,學科特色,區域特色,緊密結合科學研究方向和任務,應滿足本專業科技發展的需要,基地場所的條件要符合科研工作的研究方向,支撐學科發展,如選擇在典型地質結構和構造帶、典型地質剖面、典型礦山、能反映重大地質問題或容易得到觀測數據的地區。基地周圍應有一定的社會資源配套條件,應該充分挖掘基地資源的優勢和特色,將其所具備的科學、自然、歷史、文化等一系列的內容,有重點、有目標地發展成為一些科技活動的項目,實現基地科研性、創新性、服務性、觀摩性、教學性、知識性統一的特點。
可持續發展原則:基地建設應堅持長期性的原則,統一布局,分步實施,制定好近期和中長期建設規劃。基地要為科研提供穩定性的基礎數據,通過長期的觀測,為地質活動規律,災害防治等有關地學科學問題的解決提供科學依據,建設初期要充分考慮基地長期性、穩定性的特點,要以科學的發展觀為指導,以永續利用為前提,要保持可持續發展的能力。
保護性原則:對於礦山和有地質遺跡類的基地,保護原則更為重要,它們是科研和觀摩的重要資料,也是旅遊的重要資源。有些基地擁有珍貴的礦業資源、地質現象、地貌景觀、自然及人文資源,其中很多都是不可再生資源,在建設中要首先突出保護性原則,尤其是對礦業、地質遺跡要進行嚴格保護。基地兼顧文化傳承作用,科學普及和旅遊發展主要依託其珍貴的礦業遺跡和優越的自然環境,因而應堅持在保護基礎之上進行科學合理的開發利用。要根據礦業遺跡不同的級別和類型,嚴格劃定其保護范圍,制定相應的保護措施,並協調處理好遺跡保護、科學研究、開發利用之間的關系,加強引導性規劃措施,使這些礦業遺跡能夠完整、持久地展現在世人面前,實現資源保護、提高生態環境質量與社會發展相協調。
2.場地規劃
在確定場地位置、類型、范圍、規模的基礎上,綜合協調各方面的關系,要合理區劃基地的功能分區,統籌安排基礎設施、科研設施、服務設施、展示設施、保護設施等。根據基地綜合發展需要,結合地域特點來設置不同類型的功能分區,進行功能分區是為了調節控制功能特徵,以便針對基地的類型和特徵分區,進行合理的設計與建設,實施恰當的建設強度和管理制度,即有利於展現和突出基地的分區特點,也有利於加強基地的整體特徵。基地功能分區,應主體鮮明,特色顯著,應突出各個分區的特點,便於管理,控制各分區的規模,解決各個分區間的分隔、過渡與聯系關系,基地設計應盡量維護原有自然資源、人文資源、礦業、地質遺跡資源的相對完整性,
3.路線設計
要根據基地內的各類地層剖面、地質遺跡、礦業遺跡、主要數據觀測點、主要設備布置點、展室以及人文景觀和自然景觀等資源的分布形式的特點,對基地的各種資源按照一定的方式進行有機地組合設計,使整個基地形成完整的資源結構體系,並按科研工作流程設計觀摩路線。
基地的布局和建設要突出基地的主題,觀摩點必須以基地主題為主,突出基地主題的發展歷史,將科研與自然景觀、人文景觀融為一體。做好基地的靜態空間布局與動態空間布局的緊密結合,處理好動與靜之間的關系,使之協調成為有機的藝術整體。觀摩點的連續序列布局應按基地的內在規律進行安排,運用多種構景手法,形成即多樣統一、又特色鮮明的展示系列。
以基地總體規劃為基礎,按照基地地理位置和科學內容,按照展示內容最多、又不重復又不遺漏、不同路線各有側重、最大限度地展示基地的科研特徵和自然特徵的原則,設計觀摩路線,各條路線應該有主要的標示和內容的說明。
在合理布局,充分利用各種方式,提供豐富的觀摩內容的前提下,考慮到參觀過程的階段性和空間序列變化的節奏感,線路的安排要做到由「啟景—高潮—結景」,逐步引人入勝。線路的布置還要做到在保證安全、保護環境的基礎上盡量便捷,使參觀者在最短的時間內了解基地的主要科研內容和研究主體,並感受基地的精華所在和體會基地的多種效益功能。
(三)標牌標識
基地的標牌是基地的重要組成部分,是基地的形象工程。標志牌是一種通過文字、圖像、圖形表達傳遞信息功能的牌子,一般有標志碑(圖)、標識牌(圖)、電子屏、標志物,其功能有說明牌、引導牌、提醒標志、服務標志、管理標志。標牌製作應注意:標識牌製作要堅持標牌與基地主題相協調原,主題突出,特徵鮮明,形象完整,就地取材,厲行節約,標牌規模與樣式組合相協調,盡量採用國際通用形象標志,文字書寫採用中英兩種文字,且規范、美觀,表達准確,語言友善。
標識牌的設計:標識牌設計製作中要注意與基地特徵相符合,與基地環境相協調,突出基地特色,把握其引導性、知識性、宣傳性和裝飾性功效,要重視規范性和系統性。標識牌要反映特定科研環境的文化內涵和鮮明突出的形象特徵。設計要有系統的視覺面貌,重視設計對於造型、色彩、文字、圖案設計等標識設計,在設計過程中,參與設計的所有成員必須統一思路、統一宏觀與細節,除了在設計概念方面的一致性外,還需要製作標識手冊,其中包括:用色、字體、形式、尺寸、材料等製作方案,以確保施工過程的准確無誤和設計的完整性。
(四)文字展示材料
(1)基地的基本概況(名稱、地理位置、自然條件、區域地質與構造、成礦地質背景、經濟社會狀況)。
(2)基地的科研概況,基地建設的意義、主要科學任務和主要研究內容。(根據類型介紹,包括研究歷史、科研成果和科技貢獻概況,地質、找礦理論、模式、模型、理論創新、技術方法創新等主要研究成果介紹及出版物、獎、專利等情況,承擔國家、部門和地方的研究任務與經費、存在的重要科學問題、進一步開展的研究工作和研究方向等)。
(3)科研基地使用的主要技術方法,場地及基礎設施、主要儀器等(方法原理及特點、技術方法研發、優選和改進,技術方法適用范圍、適用條件等)。
(4)科研基地的主要地質現象概況(包括典型的野外現象現狀和保護措施)。
(5)支撐基地的科研隊伍和科技人員概況(科研基地負責人、研究團隊的概況,人才培養情況,基地合作交流情況,承擔項目情況等。
(6)科普知識。根據深入淺出、即通俗易懂又嚴謹科學的原則,介紹基地內的科研過程,研究工作的目的意義,研究成果的應用、地質現象、科研設備、地質遺跡和相關的地學知識。
(7)文字表述要內容翔實,圖文並茂,言簡意賅。
(五)實物標本
實物標本的內容比較多樣:可以是基地內遺跡的典型標本,可以是相關地質知識所涉及的實物標本,也可以是其他地質剖面提供的有典型意義的標本,還可以是與地質相關的使用工具、科研人員生活用具等人文資源實物標本等。
(六)圖件
原理圖:在基地中,原理圖主要表現為儀器設備的工作原理、科研工作流程,原理圖力爭簡單、明了、准確,有些工作流程在科研項目中也是十分重要的,甚至關系科研的整體質量。
模式圖:基地的模式圖包括地質構造演化模式、礦床成因模式、地下水循環模式、技術方法工作模式等,要求模式圖清晰,反映的問題符合邏輯,圖標、圖例標准規范。
地質圖:地質圖是將沉積岩層、火成岩體、地質構造等的形成時代和相關地質體、地質現象,用圖例表示在某種比例尺的地形圖上的一種圖件,是表示地殼表層岩相、岩性、地層年代、地質構造、岩漿活動、礦產分布等地圖的總稱。地質圖編制要按照相應的圖幅編圖規范編制,力求圖面輪廓清楚,內涵豐富,達到科學性、專業性、藝術性、實用性相結合。
剖面圖:剖面圖是用規定的符號、花紋和顏色按一定的比例,沿一定的方向,標示一定距離內、地下一定深度內地質現象的圖件。剖面圖要求圖名、圖例、比例尺、方位準確,各單元布置合理,地質、地層界線、顏色清晰。
平面圖:這里的平面圖是基地布局或規劃的平面圖,也可以是反映基地全貌的示意圖。包括工作區地理位置及交通條件、標高點、基地整體布局、地質現象、礦床等,在圖上應反映出地物大致的位置、相互間的距離。
(七)聲像資料
視頻材料是基地宣傳最直觀、最生動的方式,可以製作成光碟向觀眾發放。成功的光碟製作,應該以一個好的腳本為基礎,腳本要根據實際資料,突出基地特色,以科學性、通俗性的方式編寫,文字內容簡練、准確。光碟最好請專業人員,用較為專業的設備製作,對抽象性的科學問題盡量使用三維動畫的形式處理,整個製作過程應該有地質專家參與和指導。
(八)實驗設備建設
基地根據類型和承擔科技工作的需要,應有一定的科研設備與實驗儀器,設備與儀器建設一般分為:觀測系統、採集系統、傳輸系統、處理系統、顯示系統、實驗設備(固定設備、移動設備)等,基地根據不同類型,應配備相應的設備和數據應用研究系統,儀器設備應附有標牌和使用注意事項。對於技術方法類基地,至少能滿足一種或一套技術方示範的需求。
實驗設備是基地開展科研和獲取觀測和實驗數據的重要手段,可分為固定設備和移動設備。實驗設備安裝時都有詳細的說明書,說明書中給出的安裝環境和環境參數,在野外安裝時除按設備說明書的要求,還應注意防雨、防雷電,移動設備要有安全的存放處,各種設備應建立使用日誌,對於共享和開放設備應有專人登記保管。所有設備應置於安全處,並標有明顯的標志,如儀器設備功能作用、使用說明、安全注意事項等。
(九)數據建設
1.資料庫建設
對於科研數據,資料庫建設尤為重要,資料庫建設要選好建設平台,盡量選用通用成熟的軟體,建立統一管理平台,避免多源異構的現象,給用戶使用造成困難。盡可能實現野外觀測數據從採集、描述、建庫、處理、表達和服務的全過程數字化,要建立有效的資料庫更新與維護機制,保證數據資源的現勢性。應配備冗餘存儲介質和備份系統,有條件的可實現鏡像系統實時備份,對重要歷史數據實行雙備份。
2.數據共享與服務
數據共享是基地的主要開放內容之一,除正常開展學術交流,提供信息共享應是基地的責任,要提高信息共享與社會化服務意識,制定相關信息共享辦法,建立地質數據統一的信息共享與服務基礎平台,有條件的可建設數據共享與遠程調用系統,同時要注意保密和保護知識產權。
3.網站建設
基地應建立自己的網站,通過網站宣傳基地的研究內容、研究報告和研究成果,提高信息服務和成果共享的能力。網站製作總體上分為策劃、前台和後台3部分。一般都是由3種不同專業的人合作完成,網站設計一般由團隊完成。
(十)人才建設
基地應該至少有一個科研團隊,在此開展長期的科研工作。基地應有固定研究人員、客座研究人員和輔助科研人員,有條件的基地可採取開放課題的做法,吸引更多的科學家來基地從事科研工作。基地還應應配備專職管理人員和兼職工作人員,負責基地日常管理工作。基地應開展人員培訓工作,一般情況每年應不少於兩次。
(十一)運行與管理
基地的運行機制是「產、學、研結合,開放、競爭、協作」。應制定相應的基地管理辦法,包括基地管理辦法、項目管理辦法、合作研究管理辦法、數據共享管理辦法、安全保密管理辦法、主要儀器設備操作規程、參觀須知、應急預案、基地活動日誌等。
(十二)科學普及建設
1.科普材料
科普材料要以單行本的形式製作,要求簡單通俗,深入淺出,圖文並茂,即通俗易懂又嚴謹科學,內容包括:基地建設的主要內容和意義、對國家經濟發展和人們生活的影響,基地的科研概況、主要科學任務、科研成果,基地地理位置、交通條件、地質背景、地質遺跡、主要設備與技術方法等,如礦山類可介紹礦山歷史、礦床名稱、礦種、礦石組合、開采深度、儲量、品位、圍岩基岩、礦床類型、成礦時代、構造單元、找礦及開采歷史過程、本礦山主要產品的用途等相關的地學知識。
2.科普材料製作要求
科學性:科學性是指科普材料製作的內容要符合客觀實際,反映出事物的本質和內在規律,符合邏輯,即概念、原理、定義和論證等內容敘述清楚,實驗材料、實驗數據、實驗結果是否可靠等。科普材料製作要體現科學的「簡單性原則」,就是把解釋復雜現象的規律,越簡單越好,越簡單越可能使公眾接近客觀真理,更容易獲取地學知識。基地承擔著大量的科研任務,學科門類復雜,涉及地質、構造、岩石、礦物、地下水、地球物理、地球化學、地質災害等,並在研究中不斷探索地質演化、成礦模式、地下水循環、地球物理和地球化學效應等內部自然規律,特別是基地錯綜復雜的觀測數據,應用更簡單、更形象的方式呈現給公眾,用科學的語言,簡單明了的道理解釋說明基地的研究過程、成果及復雜的地質現象的意義,使公眾更貼近生活,進一步崇尚科學,提高保護地球、保護資源的意識。
通俗性:基地除進行正常的科研外,還要承擔科學普及的工作,特別是公益性研究單位的研究工作應該對社會和公眾有回饋。科普材料在保證科學性前提下,必須注重通俗性,盡量用通俗的語言和形象的比喻,通俗語言容易達到意義明晰、單純、易於理解的效果;必須用專業術語的應附有普通解釋,對科研工作應用淺近的道理闡述深奧的概念或道理,簡潔明了,通俗易懂;盡量選用大眾常用的語言,俗語或慣用語,通俗語言的應用自然會使公眾有明確的認識,增進更深一層的理解。
藝術性:基地材料在科學性、通俗性的前提下,應增加其藝術性和趣味性。科學關注的是客觀事實,藝術則依賴個體的感受,要把枯燥乏味的科學研究變為大眾喜聞樂見的形式,採用生動活潑的表現形式,增加欣賞性,讓公眾在輕松愉快的氣氛中更好地獲得知識,提高對科學的認知,了解科學的本質。
可視性:基地除製作音像製品外,三維可視化也是除科研工作表達形式外的科普有利工具,三維可視化是用於顯示描述和理解地下及地面諸多地質現象特徵的一種工具,廣泛應用於地質和地球物理學各領域。三維可視是描繪和理解模型的一種手段,是數據體的一種表徵形式。它能夠利用大量數據,檢查資料的連續性,發現和提出有用的規律,為分析、理解及重復數據提供了有用工具,對多學科的交流協作起到橋梁作用。三維可視化既是一種解釋工具,也是一種成果表達工具。三維體可視化解釋是通過對來自於地下界面的地震反射率數據體採用各種不同的透明度參數在三維空間內直接解釋地層的構造、岩性及沉積特點。這種三維立體掃描和追蹤技術可使解釋人員快速選定目標,結合精細的鑽井標定,可幫助解釋人員准確快速的描述各種復雜的地質現象。對公眾展示三維可視化時,盡量要遵循通俗易懂的原則,增強其觀賞性。
互動性:互動性主要是人的心理交感和行為交往過程,這些在互動行為中表現出來的相互作用、相互影響的特性被稱為互動性。基地進行科普時,應注意科普相互作用、相互影響的效應。隨著公眾科技水平的提高,他們對科普活動的要求也越來越高,很多人已經不再滿足被動的科普,他們盼望科普活動主動起來、互動起來,從靜態轉向動態,從圍觀轉為參與。在活動時科學家與公眾展開富有意義的交流,可以迅速、准確、個性化地獲得信息、反饋信息。如向參觀現場演示某種地質現象的發生,在某些環節上可以問答;某些項目的測試工作,可以在專家指導下由公眾完成,互動是一種主動認知的學習方式,是科學知識傳播的最理想方式。互動也可以用溝通、討論、問答的方式進行。
(十三)環境建設
1.綠色基地建設
基地在規劃時就要注意其環境建設,遵守國家環保規定,結合基地類別和專業特色,建造一些特殊景觀,應考慮設施安排合理,環境友好。基地要保持實驗設備、設施及室內外環境清潔衛生。因科研需要進行施工時,盡量不要破壞環境,把損失降到最低。基地范圍內的溝、坑、井、洞,必須加裝蓋板,確保使用安全方便。不得隨意排放廢氣、廢水、固體廢棄物「三廢」物質和雜訊,對「三廢」要妥善處理,對雜訊要積極防治。
廢棄物處理:基地在科研過程中可能會產生一些廢棄物,要根據具體情況做好廢氣、廢水和廢物的處理工作,避免污染環境。處理主要包括廢物的破碎、焚化、填埋、分解、吸收等。特別在處理廢物時,應避免產生二次污染,對有毒有害廢物應確保不致對人和環境產生危害。
實驗環境保護:基地人員要提高科研與實驗環境保護的意識,避免實驗設備、樣品和實驗環境的污染,包括噪音、震動、電磁、廢氣、廢水、廢物、粉塵、垃圾、放射性物質、化學物質等對採集數據和實驗數據的污染,以提高採集數據的可用性和實驗數據的真實性。
2.遺跡保護
地質遺跡是在地球演化的漫長地質歷史時期,由地球內外動力的地質作用,形成發展並遺留下來的不可再生的各種地質體,是地球歷史的「檔案」和地球學科研究的依據,是自然資源或生態環境的重要組成部分。其主要類型包括:有重大觀賞和重要科學研究價值的地質地貌景觀;有重要價值的地質剖面和構造形跡;有重要價值的古人類遺址、古生物化石遺跡;有特殊價值的礦物、岩石及其典型產地;有特殊意義的水體資源;典型的地質災害遺跡等。礦業遺跡是礦業開發過程中探、采、選、冶、加工等活動,以及遺物和史籍等遺留下來的蹤跡和與采礦活動相關的實物,是人類礦業活動的歷史見證。地質遺跡和礦山遺址具有重大的觀賞和科學研究價值,是寶貴的自然資源和文化遺產,是人類的財富。重要地質遺跡要按照《地質遺跡保護規定》進行保護,堅持保護優先、科學為本、可持續利用的原則,要掌握地質遺跡資源的變化規律,為保護地質遺跡提供科學依據。地質遺跡保護點的建設內容主要根據保護等級,採用立碑標示、工程隔離、整治修復、動態監測等幾種方式。
地質剖面:對於地質礦床類的基地來說反映地質遺跡的主要是地質剖面,地質剖面是研究地層、岩體、構造和礦床的基礎資料,對追溯地質歷史、礦床成因等具有重大科學研究價值和科學研究意義。典型礦床自然屬性集中表現是礦床的地質剖面,它通過由各種礦物、岩石組成的地層及證明層序關系的古生物遺跡,由地層構成的地質構造遺跡,直接或間接的找礦標志等,集中反映了礦床的各種典型特徵。尤其對典型層型剖面(含副層型剖面)、生物化石組合帶地層剖面,岩性岩相建造剖面及典型地質構造剖面和構造形跡,具有國際或國內大區域地層(構造)對比意義的典型剖面、化石及產地,有區域地層(構造)對比意義的典型剖面、化石及產地、典型礦床地質剖面保護極為重要。對地質剖面首先要確定保護主體,制訂保護計劃,然後按照相關保護要求對重要地質剖面進行圍欄設置、標志物、防洪溝槽、地質剖面標志碑牌、生態恢復等建設,使之成為科普、科考的重要基地。
礦山遺址:對於礦山類的基地,應該把礦業遺跡的保護放在首位,基地建設應將礦山遺跡與周圍的環境有機地結合,恢復和保護自然環境,推動可持續發展。礦業遺跡分為珍稀級、重要級和一般級,根據分級按照相關要求進行保護。珍稀級:具有全球或大區域典型意義的礦產地質遺跡,能為世界礦業發展史提供重要證據的礦業遺跡,具有代表當時國際先進科學技術水平的礦業遺跡;重要級:具有區域典型意義的礦產地質遺跡,能為國家礦業發展史提供重要證據的礦業遺跡,具有代表當時全國先進科學技術水平的礦業遺跡;一般級:具有地區典型意義的礦產地質遺跡,能為地區礦業發展史提供重要證據的礦業遺跡,具有代表當時地區先進科學技術水平的礦業遺跡。
礦山設備:對於礦山類基地可能包括與礦業開發的各種活動遺留下來的廢舊礦山設備,包括勘查、探礦、采礦、選礦、運輸、冶煉、加工、配套設施、人文活動等設備、設施。對這類設備的保護應採取保持或恢復其原貌,修舊如舊,盡量保持原貌,展示當時的社會和科學發展水平。對於一些淘汰的廢舊設備可將它們稍微整理,向人們展示設備的結構構造,讓人們學到更多的知識。對有些殘缺不全的廢舊設備還可以進行巧妙的利用,不同的部件可巧妙地組合成一系列藝術品,提高藝術欣賞價值。
(十四)安全建設
1.消防安全
基地消防安全建設可參照中華人們共和國公共安全行業標准《社會單位消防安全四個能力建設標准》建設,提高「四個能力」和以落實「六化」為核心內容的消防安全標准建設。即提高檢查消除火災隱患能力、撲救初起火災能力、組織疏散逃生能力、消防宣傳教育能力;落實消防組織制度規范化、標准懸掛統一化、設施器材標識化、重點部位警示化、培訓演練經常化、檢查巡查常態化。針對基地的實際情況,具體實現必要的建設內容,配備相應的滅火器材、裝備和個人防護器材,制定和完善事故應急處置操作程序,規范基地自身消防安全管理行為,建立消防安全自查,火災隱患自除,消防責任自負的自我管理與約束機制,全面提高自身的消防安全管理水平。
2.有害及危險品安全
對於有些類型的基地可能存放具有易燃、易爆、有毒、致病菌、腐蝕、放射性等性質的固體、液體、氣體或化學葯品等,對於這類物品應參照國務院頒布的《化學危險物品安全管理條例》的有關規定進行管理。對於有毒有害物品要嚴格履行保管和使用手續。化學危險品要保管應該科學化,儲存在通風、低溫、陰涼、乾燥的房子內,保管地點應有相應的防火、防爆、防靜電、隔離、監測、報警等設施,特別要注意性質相抵觸的危險品絕對不能堆放在一起,接觸化學危險品、劇毒及致病微生物等的儀器設備和器皿必須有明確醒目的標記,使用後及時清潔,特別是維修保養或移至其他場地前必須進行徹底的凈化,管理人員應具備急救知識,使用化學危險品的地方應備齊急救器材和用品。
3.勞動防護安全
基地的勞動保護目的是為科研人員、工作人員和參觀人員創造安全、衛生、舒適的工作和學習條件,消除和預防科技活動中可能發生的傷害、中毒等,要認真貫徹「安全第一,預防為主」的方針,提高安全意識,強化安全制度,努力改善工作條件。對有些開展鑽探、物探、儀器設備操作等專有設備以及含有工程施的基地,要做好安全防護工作,同時對接觸有毒、有害化學危險品進行實驗必須謹慎小心,嚴格按操作規程進行,做好安全保護工作,制定相應的管理辦法和操作規程,設立醒目的警示標志,必要時應有人員監護。
4.專有設備安全
這里指的是基地專有的大型儀器、精密儀器、稀有儀器的技術安全,使用人員首先要了解儀器使用說明書,熟悉操作程序,工作人員要樹立高度的安全責任感。清潔、整齊、有序的環境是保證儀器精度、維護設備使用壽命的前提條件。大型精密儀器要逐台建立技術檔案,要有使用、維修等記錄,定期對儀器的性能指標進行校檢和標定,對精度和性能降低的儀器要及時進行修復,保證科研實驗數據的准確。
5.應急演練
基地應按照應急預案,安排一次應急演練,通過演練,明確各部門、各崗位人員應急管理和處置突發事件的工作職責,檢驗各種制度的落實程度,提高果斷快速應對如火災等突發事件的應急處置能力和安全意識,評估基地應急准備狀態,突發事件應急能力,發現並修改應急預案和執行程序中的缺陷和不足。
Ⅸ 企業如何更好的搭建數據倉庫
0 引 言
隨著計算機應用的深入,大量數據存儲在計算機中,信息的存儲、管理、使用和維護顯得越來越重要,而傳統的資料庫管理系統很難滿足其要求。為了解決大數據量、異構數據集成以及訪問數據的響應速度問題,採用數據倉庫技術,為最終用戶處理所需的決策信息提供有效方法。
1 數據倉庫
數據倉庫是為管理人員進行決策提供支持的一種面向主題的、集成的、非易失的並隨時間而變化的數據集合。數據倉庫是一種作為決策支持系統和聯機分析應用數據源的結構化數據環境。
從目前數據倉庫的發展來講,數據可以存放於不同類型的資料庫中,數據倉庫是將異種數據源在單個站點以統一的模型組織的存儲,以支持管理決策。數據倉庫技術包括數據清理、數據集成、聯機分析處理(OLAP)和數據挖掘(DM)。OLAP是多維查詢和分析工具,支持決策者圍繞決策主題對數據進行多角度、多層次的分析。OLAP側重於交互性、快速的響應速度及提供數據的多維視圖,而DM則注重自動發現隱藏在數據中的模式和有用信息。OLAP的分析結果可以給DM提供分析信息,作為挖掘的依據;DM可以拓展OLAP分析的深度,可以發現OLAP所不能發現的更為復雜、細致的信息。OLAP是聯機分析處理,DM是通過對資料庫、數據倉庫中的數據進行分析而獲得知識的方法和技術,即通過建立模型來發現隱藏在組織機構資料庫中的模式和關系。這兩者結合起來可滿足企業對數據整理和信息提取的要求,幫助企業高層做出決策。在歐美發達國家,以數據倉庫為基礎的在線分析處理和數據挖掘應用,首先在金融、保險、證券、電信等傳統數據密集型行業取得成功。IBM、oracle、Teradata、Microsoft、Netezza和SAS等有實力的公司相繼推出了數據倉庫解決方案。
近幾年開始流行「分布式數據倉庫」,是在多個物理位置應用全局邏輯模型。數據被邏輯地分成多個域,但不同位置不會有重復的數據。這種分布式方法可以為不同的物理數據創建安全區域,或為全球不同時區的用戶提供全天候的服務。此外,有由Kognitio發起數據倉庫託管服務,即DBMS廠商為客戶開發和運行數據倉庫。這種最初出現在業務部門,業務部門購買託管服務,而不是使用企業內IT部門提供的數據倉庫。
2 數據挖掘技術
數據挖掘(DataMining),又稱資料庫中的知識發現(KnoWledge Discoveryin Database,KDD),是指從大型資料庫或數據倉庫中提取隱含的、未知的、非平凡的及有潛在應用價值並最終可為用戶理解的模式過程。它是資料庫研究中的很有應用價值的新領域,是人工智慧、機器學習、數理統計學和神經元網路等技術在特定的數據倉庫領域中的應用。數據挖掘的核心模塊技術歷經數十年的發展,其中包括數理統計、人工智慧、機器學習。從技術角度看,數據挖掘是從大量的、不完全的、有雜訊的、模糊的、隨機的實際數據中,提取隱含在其中的、人們所不知道的、但又是潛在有用的信息和知識的過程。從商業應用角度看,數據挖掘是嶄新的商業信息處理技術,其主要特點是對商業資料庫中的大量業務數據進行抽取、轉化、分析和模式化處理,從中提取輔助商業決策的關鍵知識。
從技術角度講,數據挖掘可應用於以下方面:
(1)關聯規則發現是在給定的事物集合中發現滿足一定條件的關聯規則,簡單來講,就是挖掘出隱藏在數據間的相互關系,為業務主題提供指導。
(2)序列模式分析和關聯規則發現相似,但其側重點在於分析數據間的前後關系。模式是按時間有序的。序列模式發現是在與時間有關的事物資料庫中發現滿足用戶給定的最小支持度域值的所有有序序列。
(3)分類分析與聚類分析,分類規則的挖掘實際上是根據分類模型從數據對象中發現共性,並把它們分成不同的類的過程。聚類時間是將d維空間的n個數據對象,劃分到k個類中,使得一個類內的數據對象間的相似度高於其他類中數據對象。聚類分析可以發現沒有類別標記的一組數據對象的特性,總結出一個類別的特徵。
(4)自動趨勢預測,數據挖掘能自動在大型資料庫裡面尋找潛在的預測信息。一個典型的利用數據挖掘進行預測的例子就是目標營銷。數據挖掘工具可以根據過去郵件推銷中的大量數據找出其中最有可能對將來的郵件推銷作出反應的客戶。
3 聯機分析(OLAP)處理技術
聯機分析(OLAP)是數據倉庫實現為決策提供支持的重要工具,是共享多維信息,針對特定問題的聯機數據訪問和分析的快速軟體技術。是使分析人員、管理人員或執行人員能夠從多種角度對從原始數據中轉化出來,能夠真正為用戶所理解,並真實反映企業維特性的信息進行快速、一致、交互地存取,從而獲得對數據的更深入了解的一類軟體技術(OLAP委員會的定義)。OLAP的特性包括:①快速性:系統應能在5s內對用戶的大部分分析要求做出反應;②可分析性:能處理與應用有關的任何邏輯分析和統計分析;⑨多維性:多維性是OLAP的關鍵屬性。系統必須提供對數據的多維視圖和分析,包括對層次維和多重層次維的完全支持;④信息性:系統應能及時獲得信息,並能管理大容量信息。
OLAP的數據結構是多維,目前存在方式:①超立方結構(Hypercube),指用三維或更多的維數來描述一個對象,每個維彼此垂直。數據的測量值發生在維的交叉點上,數據空間的各部分都有相同的維屬性(收縮超立方結構。這種結構的數據密度更大,數據的維數更少,並可加入額外的分析維);②多立方結構(Multicube),即將超立方結構變為子立方結構。面向某特定應用對維分割,它具有強靈活性,提高了數據(特別是稀疏數據)的分析效率。分析方法包括:切片、切塊、旋轉、鑽取等。
OLAP也被稱為共享的多維數據的快速分析FASMI,應用在數據密集型行業,如市場和銷售分析、電子商務的分析、基於歷史數據的營銷、預算、財務報告與整合、管理報告、利益率、質量分析等。
4 小 結
採用數據倉庫的數據挖掘及聯機分析技術實現的決策支持系統,是彌補傳統輔助決策系統能力不足的有效途徑,具有重要的現實意義。
Ⅹ 石油勘探開發數據資源規劃方法研究
文必龍 計秉玉
(中國石化石油勘探開發研究院信息技術研究所,北京 100083)
摘 要 當前的各種IT規劃方法和軟體工程方法在指導石油企業進行數據資源規劃時,需要結合石油勘探開發數據資源管理的特點進行具體化。本文分析了石油勘探開發數據資源管理方面的現狀及特點,提出了基於業務驅動的石油勘探開發數據資源規劃方法,給出了構建勘探開發業務模型、數據資源目錄的方法,以及數據中心的總體架構,為石油勘探開發數據資源規劃提供了完整的方法論。
關鍵詞 數據資源 業務驅動 業務模型 數據中心
Research on Method of Petroleum Exploration and Proction
Data Resource Planning Based on Business-driven
WEN Bilong,JI Bingyu
(Dep.of Information Technology,Exploration and Proction Research
Institute,SINOPEC,Beijing 100083,China)
Abstract To guide data resource planning,the IT planning methods and software engineering theory need to be specified according the features of petroleum data resource management.The features in petroleum exploration and proction data resource management are analyzed,and a method of data resource planning based on business-driven is put forward,that presents the approaches how to build petroleum exploration and proction business model and data resource catalogs,and architecture of data centre.These provide a complete methodology to plan petroleum exploration and proction data resource.
Key words data resource;business-driven;business model;data centre
在油氣勘探開發綜合研究過程中,需要從海內外油田收集大量的數據,同時綜合研究成果中包含了大量的數據,如各種圖表、報告。為了管理和應用這些數據,各研究部門紛紛開展了與項目研究相關的數據資料管理系統的建設,但由於缺少統一的規劃,在數據資源的建設和管理中存在以下問題:資料庫建設 「小、散、雜」,難以管理;數據分散存儲,數據之間的邏輯關聯度低,不能集成共享;數據收集困難;缺少專門的數據服務機制,數據應用困難。因此,有必要對油氣勘探開發綜合研究的勘探開發數據資源進行統一規劃,即開展數據管理與應用需求分析,從總體上設計數據中心建設方案。
數據資源規劃(Data Resource Planning,DRP)的方法主要是基於軟體工程理論和IT戰略規劃的各種方法論。目前多數國際知名的IT咨詢公司均採用企業架構(Enterprise Architecture,EA)這一先進理論方法,例如TOGAF企業架構框架,制定具有自身特點的IT規劃編制方法論,並在企業規劃咨詢項目中應用,取得了良好效果[1]。針對數據資源,高復先在信息工程方法論的基礎上,總結出了一套信息資源規劃(Information Resource Planning,IRP)方法[2]。IRP方法以面向主題資料庫的總體數據規劃方法為基礎,按照一定的方法步驟、遵循相關標准規范、利用有效的軟體支持工具進行各職能域的信息需求和數據流分析,制定信息資源管理基礎標准,建立全域和各職能域的信息系統框架——功能模型、數據模型和系統體系結構模型。
本文根據EA理論和IRP方法,結合油氣勘探開發綜合研究的特點,提出了一套基於業務驅動的勘探開發數據資源規劃方法。
1 數據規劃的基本思想
數據資源規劃是採用科學合理的方法,對企業生產經營過程中產生和使用的數據的相關內容、標准、技術、軟體、人員、支撐條件等進行全面梳理、優化和設計,提出全面的數據資源採集、傳輸、存儲、應用、管理的解決方案,以便企業提高數據的共享程度,降低數據採集、管理、應用的成本,發揮數據資源的最大價值。
數據資源規劃的目的是優化企業數據管理質量。這包括提高數據共享程度,降低數據採集、管理、應用的成本,提升數據資源的價值等。其中,首先要向企業不同層級提供相關的信息。對決策層,提供的信息包括:有哪些數據資產,還要投資建設哪些,數據投資效果如何,是否有重復建設;對管理層,提供的信息包括:數據保存在哪裡,誰在管理,哪些人在使用,數據質量如何;對執行層,提供的信息包括:有什麼數據,數據在哪裡,如何獲取數據,如何提交成果;對信息服務部門,提供的信息包括:業務部門需要什麼數據,如何使用這些數據。
數據資源規劃的目標是提出一個數據資源建設解決方案。通過實施方案,可以建立企業數據中心及配套的建設和管理體系,達到數據資源規劃的目的。數據資源規劃的內容包括梳理數據需求,即數據內容;設計數據相關標准,包括數據元標准、數據採集標准、數據管理標准、數據代碼標准等等;設計數據建設和管理的技術方案;數據管理和服務的軟體體系架構;數據建設的組織架構和配套制度等。
數據資源規劃的過程如圖1所示。如果把數據中心的建設作為一個完整的軟體工程項目,數據資源規劃位於需求分析階段和概要設計階段。在項目實施中,還需要進一步根據規劃的各項方案進行詳細設計、系統開發、系統測試和運行維護。
在數據資源需求分析階段,通過調研,梳理當前勘探開發綜合研究的業務范圍、研究活動、已經建立的資料庫及數據內容、應用軟體及部署情況。根據調用情況建立業務模型,用規范化的方式描述各項研究活動及每項活動的數據需求,並對數據流進行分析,形成統一的數據資源目錄。需求分析階段最終成果是需求分析報告,核心內容由一組規范組成,包括業務模型、數據資源目錄、數據元目錄、數據流規范。
概要設計階段主要任務是依據數據需求進行方案設計,形成數據資源建設方案,具體包括:綜合資料庫建設方案、綜合研究數據服務與管理平台建設方案、數據中心運維體系。形成數據模型、數據服務功能、數據管理功能、數據匯交管理流程、數據管理與服務組織架構等總體架構,並形成數據中心建設的項目框架。通過數據資源建設方案明確了數據如何存儲,如何控制數據質量,數據如何建設,數據如何管理,數據如何獲取、提交、應用等問題。
圖1 數據資源規劃過程
圖2 數據資源規劃的成果及其之間的關系
在項目實施階段,還需要根據數據資源建設方案,對每一個項目進行詳細設計和開發。
數據資源規劃的成果包括數據資源需求分析報告和數據中心建設方案。需求分析報告中,包含了業務模型、數據資源目錄和數據元目錄,數據中心建設方案包括資料庫和數據模型在內的資料庫建設方案、數據服務與管理平台、數據中心運行維護體系。
圖2給出了這些成果及其之間的關系。業務模型中的每一個業務活動使用和產生的每一類數據都應在數據資源目錄中進行注冊,數據資源目錄中的每一類數據都要用一個或多個數據元進行描述。資料庫中的數據實例應該歸類到數據資源目錄中,數據元與數據模型之間要建立映射關系。根據上述關系,應用軟體或用戶可以根據業務活動利用數據服務與管理平台非常方便地從數據中心獲取需要的數據。
2 基於6W的業務模型
業務模型(Business Model)是一種通過定義組成活動及活動之間邏輯關系來描述企業經營生產過程的模型。勘探開發業務建模就是要將石油勘探開發生命周期中涉及的業務抽象為一個完整的業務功能結構,建立勘探開發業務模型。建立此模型,在系統地、本質地、概括地把握勘探開發功能結構的同時,還要建立勘探開發業的數據模型、知識模型、軟體模型等與功能相關的信息模型。
業務分析與建模過程從形式上可分為4個階段:一是業務領域劃分;二是分業務領域建模;三是業務模型集成;四是業務模型標准化。
業務模型採用 「業務域-業務分類-業務活動」 3層結構。將石油勘探開發涉及的所有業務劃分為多個業務域,每個業務域建立多級業務分類,每個分類中定義一個或多項最基本的業務活動。
業務域(Business Domain)是對企業中的一些主要業務活動領域的抽象,而不是現有機構部門的照搬。對油田業務域的劃分可以依據某一主題進行。業務領域的劃分原則是:(1)根據專業劃分業務領域;(2)根據油氣田勘探、開發生命周期劃分業務領域;(3)根據油氣田勘探、開發管理階段劃分管理業務域。業務領域的劃分參照以上3種原則進行劃分,盡量符合油氣田勘探、開發管理約定俗成的管理習慣,做到不同業務域間的業務不重復,並保證能覆蓋所有的勘探、開發業務。根據以上原則,油氣勘探開發業務領域可劃分為「物化探」、「井筒工程」、「分析化驗」、「綜合研究」、「油氣生產」、「地面工程」 等六大業務領域。
業務是由一系列業務活動組成的,對業務活動的描述按照 「6W」 的模式進行[3],即活動是由誰(Who)發起的、在什麼時間(When)發起的、在哪裡(Where)發起的、為什麼(Why)要發起這個活動、在這個活動中都涉及了哪些(Which)對象、這些對象的特性是什麼(What)。採用業務單元定義了參與業務活動的基本元素以及元素之間的關系。一個業務單元包括以下8類元素:1個業務活動,該活動作用的1個業務對象,實施該活動的組織機構,1組結果對象(輸出),1組參與對象(輸入),業務規則,相關對象的特性,對象之間的關系。業務單元的結構如圖3所示。
業務單元中,「特性」 定義了業務活動需要的數據、業務活動相關的知識,是數據規劃中梳理的重點;「參與對象」 包括各種人員、軟體、數據、設施、材料、方法等;「作用對象」 包括區塊、油藏、井、層位、油田、企業等;「結果對象」 可以是油井等油田實物對象,也可以是文檔、方法、研究成果等技術性對象。
基於6W的業務模型的建模通過在統一的業務域分類架構下對單一業務活動的業務單元進行描述,沒有進行專門的業務流程梳理,但由於業務單位中描述了業務活動參與對象與結果對象,即定義了活動的輸入與輸出,以這些對象為中介,因此很容易自動形成業務流、數據流、知識流等各種流程。
業務活動與數據之間的關系可以用 「CUR」 矩陣描述。矩陣中,行對應業務活動,列對應數據元。如果業務活動中創建了某一項數據則行列對應的值標識為 「C」(Create),如果業務活動對數據進行了更新則標識為 「U」(Update),如果業務活動引用了某一項數據則標識為 「R」(Read)。通過CUR矩陣,可以檢查某一數據是否有唯一的創建源頭,保證數據源頭的唯一性。根據CUR關系,可以自動形成數據流。
圖3 業務單元的結構
3 勘探開發數據資源目錄
勘探開發數據資源目錄是對油田企業、勘探開發研究院或中國石化整體已有和需要數據的分類與組織方式描述。數據資源目錄描述了企業需要什麼數據、有什麼數據、數據在哪裡、誰在管理數據、哪些人在使用、哪些應用軟體在使用等信息。數據資源目錄既是一個數據建設單位的數據分類與數據組織規范,也是數據中心進行數據管理與服務平台的核心元數據,同時也是用戶建設和使用數據的依據。
數據資源目錄的分類模式是多維的,可以從不同角度進行分類。常用的維度包括:
(1)按業務對象組織。包括區塊、油藏、井、層位、油田、企業等,除對象本身的基礎數據(如井基礎信息)即通常所說的靜態數據外,還包括該對象的各種動態數據(如井的日報數據)。
(2)按業務活動組織。根據業務模型的 「業務域-業務分類-業務活動」 3層結構進行分類,每一個業務都有一組按 「CUR」 標識的數據。
(3)按特性組織。按數據或知識本身的特性進行分類,如長度、密度、滲透率等。
(4)按項目組織。一個項目使用和產生的數據有哪些。
(5)按單位組織。一個部門使用、產生、管理的數據有哪些。
數據資源目錄的各個維度是相互關聯的,對象、活動、特性、項目、單位之間的關系如圖4所示。
除建立分類目錄外,數據資源目錄還包括數據實例,因此需要將數據分類與資料庫中的實例關聯起來,明確標識出每一類包括哪些實例。分類與實例關聯的方式主要採用數據集進行定義,通過數據實例的標識符、標識條件確定數據集中的實例[4]。數據資源分類在數據需求分析階段完成,分類與數據實例的關聯在數據中心運行期間形成。
數據資源目錄中數據分為兩級:邏輯數據實體和屬性。從技術角度,邏輯數據實體的本質就是數據視圖,一個數據視圖是一個虛數據表,每一個數據視圖由多個屬性組成,其中至少包括一個關鍵字。實體的屬性用數據元進行描述。數據元是不必要再分的基本數據單元[5]。當前可直接參照中國石化石油勘探開發數據元字典[6]。
4 數據中心的總體架構
不同企業數據中心的架構會有所不同[7]。本文以中國石化石油勘探開發研究院的數據中心為例,說明數據中心建設方案。數據中心包括綜合研究勘探開發資料庫、數據服務與管理平台、數據中心運維體系,如圖5所示。
圖4 數據資源分類維度之間的關系
圖5 綜合研究勘探開發數據中心
勘探開發資料庫包括元數據和專業數據。元數據是以數據資源目錄為核心,描述了專業的分類、目錄、結構、使用動態等信息。外購資料庫、地理信息資料庫由於來源於外部,自帶有成熟的管理軟體,屬於公共數據,獨立於具體的項目研究。由於地震數據和測井數據有專門的格式,由專門的軟體進行管理,但要與項目數據進行關聯。項目資料與成果主要以文件形式保存,對共享程度較高的數據需要從半結構化的文件形式轉換為結構化數據,數據之間相互關聯,實現數據的集成。綜合研究應用軟體有自己內部的項目資料庫,通過數據橋技術可以實現在線數據訪問。數據通道用於實現石油勘探開發研究院數據中心與中國石化各級數據中心的互聯。
綜合研究數據服務與管理平台的主要功能包括:GIS研究目標查詢、地震剖面顯示、測井曲線顯示、資料查詢、資料搜索、資料提交、資料下載、系統管理、數據發布等。
數據中心運維體系包括運維管理組織機構、數據資料上交管理、數據服務管理3個部分。運維管理隊伍的職能包括資料庫系統管理、數據服務支持、數據質量控制等。數據資料上交管理按照數據流和數據生命周期,對各環節進行規范管理,包括:外部數據申請、數據採集、原始資料上交、個人/項目組資料管理、成果上交、數據流程調整(數據資料目錄注冊與注銷)、安全與許可權、審核與驗收等內容。數據服務管理通過數據服務管理制度,規范數據服務行為,建立數據服務技術規范,通過數據應用服務介面規范,為應用系統提供標準的服務介面。
5 結論
數據資源規劃方法提出了一套適合石油勘探開發領域開展數據資源建設的方法論。從勘探開發業務需求出發,通過梳理業務流程,建立業務模型,並梳理與業務相關的數據,建立數據資源目錄,在此基礎上提出完成的數據中心建設方案,從人員組織、數據建設、服務平台構建及運維管理進行規劃。數據資源規劃方法成功應用於中國石化油氣勘探開發數據模型標准建設,開發了中國石化業務模型(Sinopec Business Model,SPBM),定義了物化探、井筒工程、分析化驗、綜合研究、開發生產、地面工程六大業務域,包括1237個業務活動,對每一個與業務活動相關的數據項進行了梳理。進一步的研究工作將把數據資源規劃方法應用於中國石化石油勘探開發研究院數據資源建設,通過研究院業務進行調研,結合SPBM,建立綜合研究數據資源目錄,設計數據中心建設方案。針對中國石化石油勘探開發研究院綜合研究的數據資源規劃成果可進一步推廣應用於石油行業各石油公司的綜合研究數據資源建設。
參考文獻
[1]金濤,鄭樹泉,李名敏,等.企業架構驅動的IT規劃方法研究[J].計算機應用與軟體,2009,26(12):164~166.
[2]高復先.信息資源規劃——信息化建設基礎工程[M].北京:清華大學出版社,2002.
[3]肖波,景帥,吳建軍,馬承傑.模型驅動技術在油田企業數據中心中的應用研究[J].大慶石油學院學報,2012,36(1):78~82.
[4]時貴英,文必龍.基於數據元的數據集成技術研究[J].科學技術與工程,2011,11(18):4223 ~4227.
[5]Wen Bilong,Zhang Li.Defining semantics for data element with semantic tree[C].Proceedings of 2008 International Symposium on Information Science and Engineering,2008.12:524~527.
[6]文必龍,肖波,陳新榮.石油勘探開發數據元管理技術[J].大慶石油學院學報,2012,36(1):83~87.
[7]李劍峰,肖波,段鴻傑.中國石化油田企業數據中心總體框架設計[J].大慶石油學院學報,2012,36(1):73~76.