A. Geodatabse 空間資料庫模型的特點是什麼
1、空間參考。Geodatabse在要素類和數據集中對空間參考信息進行了完整的定義。
2、表定義。Geodatabse空間幾何數據與屬性數據保存在同一個表(要素類)中。
3、拓撲規則。Geodatabse的拓撲關系管理機制在以下幾個方面有明顯的優勢:
1) 用戶可以自行定義哪些要素類將手拓撲關系規則約束。
2) 多個點、線、面要素類(層)可以同時受同一組拓撲關系規則約束。
3) 提供了大量的拓撲關系規則。
4) 用戶為自己的數據可以自行指定必要的拓撲關系約束規則。
5) 拓撲關系及規則是在符合工業標準的DMBS(數據管理系統)中進行的,可以多用戶並發處理。
6) 用戶可以局部建立或檢查拓撲關系,以提高生產率。
4、可以表達復雜的地理要素(如,河流網路、電線桿等)。
B. 空間數據的邏輯模型的主要設計內容有哪些
內容如下:
空間數據邏輯模型的設計主要內容包括粒度層次劃分、數據分割策略、關系模式的定義、數據源及數據抽取模型的定義。依據建立的空間數據倉庫概念模型並不能直接建立空間數據倉庫的物理模型,而是首先建立空間數據倉庫的邏輯模型,由邏輯模型來指導空間數據倉庫的物理實施。
簡介:
數據模型(Data Model)是數據特徵的抽象,它從抽象層次上描述了系統的靜態特徵、動態行為和約束條件,為資料庫系統的信息表示與操作提供一個抽象的框架。數據模型所描述的內容有三部分,分別是數據結構、數據操作和數據約束。
C. 空間資料庫的數據模型有哪幾種
目前在空間資料庫領域,常用的數據模型有:1、層次模型 2、網路模型 3、關系模型 4、面向對象模型
D. 地質-生態環境空間資料庫建庫標准
一、范圍
本標準定義了山東半島城市群地質-生態環境空間資料庫的數據結構框架、數據實體及實體之間的相互關系,定義了成果圖件空間數據的要素集、要素類、要素分類代碼及屬性數據項,可用於山東半島城市群項目數據的採集、存儲、管理、共享及資料庫建設。
二、規范性引用文件
下列標准所包含的條文,通過在本標准中引用而構成為本標準的條文。本標准出版時,所示版本均為有效。所有標准都會被修訂,使用本標準的各方應探討使用下列標准最新版本的可能性。
GB / T 1. 1—2000 標准化工作導則 第 1 部分: 標準的結構和編寫規則
GB / T 13923—92 國土基礎信息數據分類代碼
GB / T 2260—1999 中華人民共和國行政區劃代碼
GB / T 2659 世界各國和地區名稱代碼
GB / T 9649—88 地質礦產術語分類代碼
DZ / T 0160—95 1∶ 200000 地質圖地理底圖編繪規范及圖式
DZ / T 0197—1997 數字化地質圖圖層及屬性文件格式
GB 958—99 區域地質圖圖例 ( 1∶ 50000)
DZ / T 0179—1997 地質圖用色標准及用色原則
DDB 9702 GIS 圖層描述數據內容標准
GB 17108—1997 海洋功能區劃技術導則
中國地質調查局 地質圖空間資料庫建設工作指南 ( 2. 0 版)
中國地質調查局 1∶ 20 萬區域水文地質圖空間資料庫圖層及屬性文件格式工作指南
三、術語和定義
本標准涉及的主要術語如下:
1. 地理信息資料庫 ( geodatabase)
採用標准關系資料庫技術來管理、表現地理信息的空間資料庫。
2. 數據包 ( data package)
邏輯相關數據實體的集合,本標准中將山東半島城市群項目數據整體視作一個數據包。
3. 數據實體 ( data entity)
描述專業領域同一類型數據的數據元素的集合,如地質構造數據實體,概念上等同於UML 的類。數據實體可通過一個或多個相關的數據元素及相關的數據實體定義。
4. 數據集 ( dataset)
邏輯相關數據組成的數據集合,如一幅地圖可視作一個數據集,數據集是一個邏輯上的整體。
5. 數據子集 ( subdataset)
按一定規則劃分的數據集中邏輯相關數據的集合,本標准中的一個數據子集對應一個地圖要素類,數據子集類別對應地圖上的圖層劃分。
6. 空間數據 ( spatial data)
用來表示空間實體的位置、形狀、大小和分布特徵諸方面信息的數據。空間數據不僅具有實體本身的空間位置及形態信息,而且還有實體屬性和空間關系 ( 如拓撲關系)信息。
7. 空間參照系 ( spatial reference)
對地理信息數據的空間范圍和投影的描述。
8. 地圖 ( map)
地理信息的圖形描述,包括地理信息數據和地圖元素,如標題、圖例和比例尺等。本標准中將一幅地圖視作一個數據集進行管理,並通過一組要素集 ( 要素類、關系類、屬性表的集合) 、空間參照系、地圖樣式定義地圖的數據內容及顯示方式。
9. 圖層 ( layer)
地圖上特定區域范圍內按一定規則劃分的相似要素類的集合,如水系、城鎮。圖層為要素類的專題組合及表現,一個圖層定義了它包含地理信息數據的地理位置和顯示方法。
10. 要素 ( feature)
現實世界中的對象在地圖圖層中的表示,如地圖中表示道路的一條線。
……
四、縮略語和符號
1. 縮略語
ARD 圖外整飾要素 ( Elements Around Map)
BMAP 地理底圖 ( Basemap)
BOU 境界、邊界 ( Bourn)
CD 代碼 ( Code)
COL 綜合柱狀圖 ( Colomnar Chart)
DT 日期 ( Date)
ELE 地形高程 ( Elevation)
……
2. UML 類圖符號
山東半島城市群地區地質-生態環境與可持續發展研究
3. ER 圖符號
山東半島城市群地區地質-生態環境與可持續發展研究
五、基於 UML 的 Geodatabase 的空間數據模型
構建地質數據的空間數據模型是建立地質信息資料庫的一項關鍵工作,是資料庫建設的基礎。Geodatabase 數據模型作為 ArcGIS 軟體平台的一種通用數據形式,目前已被國內外眾多地質空間資料庫的建設所採用。數據建模也已經成為地質資料庫建立的一項主要內容。
目前針對地質、水文、礦產、海洋等多個領域的專業 Geodatabase 數據模型都已存在,國內目前應用於區域地質 - 生態環境調查的綜合地質 - 生態環境空間數據模型還比較少見。因此,本項目在分析國內外目前比較通用的各專業數據模型的基礎上,提出了專門面向山東半島城市群地質 - 生態環境空間資料庫建設的 Geodatabase 數據模型。
在 Geodatabase 數據模型中,允許定義要素之間類型的關聯,Geodatabase 對空間數據管理以關系資料庫為基礎,利用商用關系資料庫成熟的數據處理能力對空間數據和非空間數據進行統一管理。Geodatabase 使用面向對象的方法,使得要素可以具有自己的行為和屬性,並且要素類具有繼承性、多態性和封裝性。這樣,以更加適合自然的行為和人的思維方式去組織數據,更精確地模擬真實世界。
1. Geodatabase 數據模型的結構體系
Geodatabase 數據模型作為一種新型的面向對象的數據模型,融入了面向對象的核心技術,如類 ( Class) 、對象 ( Object) 、封裝 ( Encapsulation) 、繼承 ( Inheritance) 和多態( Polymorphism) 等思想和技術。Geodatabase 數據模型的目的就是為了讓用戶能更容易、更自然地表示 GIS 數據特徵和更容易地建立特徵之間的各種關系。Geodatabase 空間資料庫數據模型如表 12 -1 所示。
表 12 -1 Geodatabase 內部結構
續表
2. Geodatabase 資料庫模型的特點
Geodatabase 有兩種,即個人與多用戶 Geodatabase。
1) 個人 Geodatabase 支持內置於 ArcGIS 系統並提供對本地數據的訪問,適用於面向項目的 GIS,在 Microsoft Access 資料庫平台上實現,提供生成和更新 Access 資料庫的服務,可處理小型或適中的 Access 資料庫。但個人 Geodatabase 的存儲容量有不能超過 2GB的限制。
2) 多用戶的 Geodatabase 是通過 ArcSDE ( ARC 空間資料庫引擎) 實現的。ArcSDE可以生成和訪問從小型到大型的 Geodatabase 並提供關系型數據的開放界面。
與標準的關系資料庫相比,Geodatabase 簡化了地理數據建模的工作,因為它包含有用於建模地理信息的通用模型。
此外,Geodatabase 還同時支持兩個視圖,即對象視圖和關系視圖。這樣就綜合了對象視圖和關系視圖兩者的優點。對象視圖在 Geodatabase 中占據主導地位,其目的是提供一個接近於邏輯數據模型的數據模型,因而更接近於現實。關系視圖則用於一些 Geodata-base 數據的常規處理,它表示的是一些簡單地理對象的特徵。
3. 基於 UML 的 Geodatabase 數據模型的設計
( 1) Geodatabase 資料庫設計的方法
在 ArcGIS 中,建立地理資料庫可以有多種方法。藉助 ArcCatalog,可以通過 3 種方式建立新的地理資料庫。
第一種方法是建立一個新的地理資料庫。
第二種方法是移植已經存在的數據到地理資料庫中去。
第三種方式是用 CASE 工具來建立地理資料庫。
( 2) 面向對象和 UML ( 統一建模語言)
面向對象是軟體程序設計中的一種新思想,它能使程序設計更加貼近現實,並且花費更小的精力。面向對象方法學包含了對象 ( object) 、類 ( classification) 、繼承 ( inherit-ance) 、聚集和消息 ( messages) 的概念。
UML ( Unified Modeling Language,統一建模語言) 是一種基於面向對象方法的建模語言,具有創建系統的靜態結構和動態行為等多種結構模型的能力,是一種通用的建模語言。在 Geodatabase 的設計中,主要用到描述系統靜態結構的類圖。類圖的節點表示系統中的類及其屬性和操作。類圖的邊表示類之間的聯系,包括繼承、關聯、依賴、聚合等。
類的表示由 3 個部分方框組成,上面部分給出了類的名稱; 中間部分給出了該類的單個對象的屬性; 下面部分給出了一些可以應用到這些對象的操作。類的表示如圖 12 -5。
圖 12 -5 類的表示
關聯是對類的實例之間聯系的命名,與關聯有關的內容有關聯元數 ( Degree) 、關聯角色 ( Role) 和重復度 ( Multiplicity) 。
UML 中有 3 種類型的類: 抽象類 ( abstract class) 、可創建化類 ( creatable class) 和可實例化類 ( instantiable class) 。
UML 類圖的符號見本節第四部分內容。
( 3) 面向對象的地理數據模型的設計方法
利用 CASE 工具進行 Geodatabase 數據模型設計的步驟具體為:
1) 在 CASE 工具中進行 UML 建模。
2) 將設計好的 UML 模型載入資料庫 ( repositry) 。
3) 利用 GIS 軟體提供的 CASE 介面,根據資料庫中的 UML 模型生成空間資料庫結構。至此,Geodatabase 空間資料庫結構初具雛形。在 GIS 軟體環境中,現在可以將新生成的數據或已有的數據進行格式轉換後載入到設計好的 Geodatabase 空間資料庫中,由空間資料庫統一管理。利用 CASE 工具來建立 Geodatabase 地理資料庫的工作流程見圖12 - 6。
圖 12 -6 利用 CASE 工具來建立 Geodatabase 地理資料庫的工作流程
六、地質 - 生態環境 Geodatabase 數據模型的建立
( 一) 數據模型設計的依據
根據山東半島城市群地質 - 生態環境調查評價研究工作的需要和山東半島城市群地質 - 生態環境 GIS 資料庫系統的整體設計要求,結合各地質 - 生態環境要素的成果圖件和文本報告資料,利用 UML 設計工具 Microsoft Visio 完成了山東半島城市群地質 - 生態環境Geodatabase 數據模型的設計 ( 圖 12 - 7) 。
圖 12 -7 山東半島城市群地質 - 生態環境 Geodatabase 數據模型的設計依據
( 二) 山東半島城市群地質 - 生態環境資料庫的 UML 類圖
1. 數據集管理
山東半島城市群項目數據包中的數據以數據集為單元統一組織管理,數據集管理方式就是將一份文字報告或一幅成果圖件視作邏輯上的整體,用 「數據集編號」唯一標識,通過數據集實體統一管理。同一數據集的不同實體,例如成果圖中的圖層,通過實體中的「數據集編號」元素關聯。
2. 空間數據管理
山東半島城市群項目數據包由文字報告及成果圖件兩大類數據組成,並以成果圖件為主,成果圖件是一空間數據實體,統一存儲在面向對象的地理信息資料庫中,以圖幅為單元進行管理。
3. 數據包總體結構
本標准中山東半島城市群項目數據包總體結構用 UML 模型來體現,山東半島城市群項目數據包由 「成果報告」、「元數據」及 「存檔文件」3 個數據實體 ( UML 類) 組成,通過 「數據集」實體統一組織管理。「成果報告」由它的繼承類 「文字報告」及 「成果圖件」定義,為研究成果數據包的主體數據。「元數據」及 「存檔文件」為數據集的輔助數據,「元數據」存放文字報告或成果圖件的元數據; 「存檔文件」存放文字報告或成果圖件的相關存檔文件,供數據集數據的整體下載與利用。
一個 「數據集」實體對應一個項目的 「文字報告」或一幅 「成果圖件」; 每一個數據集必須有一個而且只能有一個 「元數據」文件; 「存檔文件」是 「數據集」的可選聚合實體。
「成果圖件」是一空間數據實體,由特定的面向對象地理信息資料庫 ( Geodatabase)統一存儲、管理。一幅 「成果圖件」數據內容由一組空間要素集 ( 基礎地理要素集、地質要素集、地球物理要素集、地球化學要素集、輔助要素集) 組成,空間要素集數據類型包括矢量 ( Feature Dataset,簡稱要素集) 、柵格 ( Raster Dataset) 和 TIN ( TIN Dataset)3 種。
4. 數據集編號的編碼規則
數據集編號由資料庫管理方統一編碼,必須保證編號在資料庫中唯一,編號中的英文字母全部大寫。
山東半島城市群項目數據集按 「項目或圖幅—提交單位—提交年份—成果序號」編碼。數據集編號的字元串長度不得超過 22 位,以保證 「數據集編號 + 要素類名」的字元串總長度不超過 30 位。
5. 成果圖件要素類命名規則
要素類名字元串總長度不得超過 8 位。
矢量要素類按 「要素集類型 + 要素類名 + 要素類型」命名,全部用大寫英文字母表示。「要素集類型」用一位代碼表示,如 「L」表示基礎地理要素集。柵格數據集數據以「要素集類型 + 要素類型」命名,要素類型用代碼 RAS 表示,如 「DRSRAS」表示遙感柵格數據。TIN 數據集數據以 「要素集類型 + 要素類型」命名,要素類型用代碼 TIN 表示,如 「LELETIN」表示地面高程 TIN。
6. 成果圖件要素分類編碼規則
要素分類編碼用以標識不同的要素類要素,保證地圖要素存儲、交換、顯示的一致性。
( 1) 分類編碼原則
1) 科學性、系統性;
2) 相對穩定性;
3) 不受地圖比例尺的限制;
4) 完整性和可擴展性;
5) 適用性。
( 2) 分類編碼方法
成果圖件要素類中不同要素的分類編碼採用中華人民共和國國家標准 《國土基礎信息數據分類與代碼》的編碼結構,結構如下:
山東半島城市群地區地質-生態環境與可持續發展研究
大類碼、小類碼、一級代碼和二級代碼分別用數字順序排列。識別位由用戶自行定義,以便於擴充。在本項目中編碼分兩類: ①基礎地理要素編碼; ②地質專業要素編碼( 地質、地球物理、地球化學等) 。
( 三) 山東半島城市群項目數據實體及實體關系
山東半島城市群項目數據實體類及其代碼見表 12 -2,實體類名代碼按實體類的英文名縮略語編碼,本標准中山東半島城市群項目數據實體及實體間關系用 UML 及實體關系圖 ( ERD) 來體現。
表 12 -2 山東半島城市群項目數據實體類及其代碼
1. 數據集實體 ( MGRD_Dataset)
山東半島城市群項目數據包中的 「數據集」實體用來統一組織管理 「文字報告」、「成果圖件」、「元數據」及 「存檔文件」數據實體,「數據集」實體中的數據項包含數據集的歸屬項目、提交日期、提交單位、主題類別及地理范圍等可用於數據集檢索的信息。一個 「數據集」實體對應一個項目的 「文字報告」或一幅 「成果圖件」,「數據集」實體與 「元數據」實體間為一一對應關系,與 「存檔文件」實體間為一對多的對應關系。「數據集」實體的數據內容及其存儲表通過 「數據子集」實體分類定義,主鍵 [數據集編號]可用於同一數據集中不同 「數據子集」的關聯,也可用於數據集對應的 「元數據」及「存檔文件」的關聯。
2. 成果報告數據實體 ( MGRD SumTmaryReport)
研究成果報告數據實體包括項目的最終綜合文字報告及相應的成果圖件。
( 1) 文字報告數據實體 ( SR_WordReport)
文字報告數據實體包括 「文字報告」及圖像格式的 「報告附圖」數據實體,文字報告及附圖均以二進制大對象存儲。數據實體之間通過 [數據集編號] 關聯。
( 2) 成果圖件數據實體 ( SR_hemeMapSet)
「成果圖件」數據實體是一空間數據實體,主要以矢量圖形格式存儲在地理信息資料庫中,其中也包括柵格數據及 TIN 數據用於數據的空間分析。
1) 要素集: 「成果圖件」 數據實體以圖幅為數據集單元進行管理; 圖幅內容以分屬不同空間要素集 ( 基礎地理要素集、地質要素集、地球物理要素集、地球化學要素集、輔助要素集) 的要素類組合,同一個要素集內的要素類享有同一空間參照系,相互具有拓撲關系。
2) 要素類: 一個要素類的存儲單元為關系資料庫中的一個數據表,要素類圖元類型有點、線、面、注記 4 種,一個要素類只能包含一種圖元類型。本標准中基礎地理要素集、地質要素集、地球物理要素集、地球化學要素類、輔助要素集的要素類用 UML 類圖體現。
3) 圖層: 圖層為要素類的專題組合及表現,不同圖層的組合即構成了可視化 「成果圖件」。本項目通過對數據來源的分析,提出並建立了適合山東半島城市群地區地質 - 生態環境調查與評價特點的空間資料庫數據圖層。考慮到空間數據的應用和相互轉換,每一圖層均應建立相應的內部屬性表,屬性表必須包含一些基本欄位內容,根據具體任務的不同,需靈活擴充內部屬性表欄位內容。 「成果圖件」數據實體的圖層劃分及其代碼見表 12 -3。
4) 要素類屬性: 要素類的要素特徵由屬性表定義,屬性表每一行對應一個要素,每一列包含要素的一個特徵信息。
表 12 -3 成果圖件數據實體的圖層劃分及其代碼
5) 要素類要素分類: 同一要素類中不同類型的要素用不同的代碼標識,通過屬性表中的 「編碼」 ( GEO_CODE) 數據項體現,以便地圖中同一要素類要素的分類顯示,並保證地圖要素存儲、交換、顯示的一致性。在本項目中成果圖件的基礎地理要素分類代碼採用中華人民共和國國家標准 《國土基礎信息數據分類與代碼》,並根據需要進行了擴充,地質專業要素分類代碼全部由本標準定義,見表 12 -4 和表 12 -5。
表 12 -4 基礎地理要素分類代碼
表 12 -5 地質專業要素分類代碼
圖12 -8 山東半島城市群項目數據包UML類圖
圖層編碼中,第一位為圖類代碼,L 代表基礎地理類圖層; D 代表基礎地質類圖層;G 代表國土資源圖層; W 代表地殼穩定性圖層; S 代表水資源圖層; H 代表海岸帶圖層;T 代表生態環境圖層; R 代表人類工程活動圖層; F 代表分析評價圖層; Y 代表預測與防治圖層; Z 代表輔助圖層。第二位為比例尺代碼,圖件均採用 1∶ 50 萬比例尺,代碼為 B。第三位到第五位為圖名的漢語拼音首字母縮寫。第六位為圖層數字編號。
( 四) 山東半島城市群項目 UML 類圖
1. 山東半島城市群項目數據包 UML 類圖
UML 類圖見圖 12 - 8。
2. 成果圖件要素集 UML 類圖
1) 基礎地理要素集實體 UML 類圖 ( FD_Geography) 。本項目將基礎地理要素分為地理網格、居民地、境界、交通網、地貌地形、水系、海洋海岸帶、行政區劃、柵格數據等 9個抽象要素類,建立了 「各市基本情況」對象類,與表明各地區域的 「城市群」類相連接,將山東半島城市群8 個地級市的地理位置數據與地區的基本資料數據有機地聯系起來。
2) 地質要素集實體 UML 類圖 ( FD_Geology) 。
3) 國土資源要素集實體 UML 類圖 ( FD_LandResource) 。
4) 水資源要素集實體 UML 類圖 ( FD_WaterResource) 。
5) 生態環境要素集實體 UML 類圖 ( FD_Environment) 。
6) 輔助要素集實體 UML 類圖 ( FD_Ancillary) 。
3. 山東半島城市群項目數據實體關系圖
1) 數據集實體 ER 圖 ( MGRD_DataSet) 。
2) 研究成果報告數據實體 ER 圖 ( MGRD_SummaryReport) ( 圖 12 - 9) 。
圖 12 -9 研究成果報告數據實體 ER 圖 ( MGRD_SummaryReport)
七、山東半島城市群項目數據包數據字典
( 一) 數據集實體 ( MGRD_DataSet)
山東半島城市群地區地質-生態環境與可持續發展研究
( 二) 研究成果報告數據實體 ( MGRD_SummaryReport)
1. 文字報告數據實體 ( SR_WordReport)
山東半島城市群地區地質-生態環境與可持續發展研究
2. 成果圖件數據實體 ( SR_ThemeMapSet)
( 1) 基礎地理要素集實體 ( FD_Geography)
山東半島城市群地區地質-生態環境與可持續發展研究
( 2) 地質要素集實體 ( FD_Geology)
山東半島城市群地區地質-生態環境與可持續發展研究
( 3) 水資源要素集實體 ( FD_HydroResource)
山東半島城市群地區地質-生態環境與可持續發展研究
E. 什麼是空間數據模型他對GIS技術及其應用有何重要性
來源一:空間數據模型是關於現實世界中空間實體及其相互間聯系的概念,它為描述空間數據的組織和設計空間資料庫模式提供著基本方法。因此,對空間數據模型的認識和研究在設計GIS空間資料庫和發展新一代GIS系統的過程中起著舉足輕重的作用。
《地理信息系統——原理、方法和應用》鄔倫等編著,第48頁。
來源二:為了能夠利用地理信息系統工具來解決現實世界中的問題,首先必須將復雜的地理事物和現象抽象到計算機中進行表示、處理和分析,其結果就是空間數據模型。
空間數據模型可分為:
1、概念模型(分三種:1:場模型:用於描述空間中連續分布的現象;2:對象模型:用於描述各種空間地物;3:網路模型:可以模擬現實世界中的各種網路)
2、邏輯數據模型(常用的分:矢量數據模型,柵格數據模型和面向對象數據模型等)
3、物理數據模型(物理數據模型是指概念數據模型在計算機內部具體的存儲形式和操作機制,即在物理磁碟上如何存放和存取,是系統抽象的最底層。)
《地理信息系統教程》湯國安等編,第62頁。
順:考研加油~
F. 中亞地區空間資料庫建庫技術流程
本文在ArcGIS 9.2系統支持下,採用中國地質調查局地質調查技術標准(DD2006-06)——數字地質圖空間資料庫的建庫標准,本標準是根據地質調查數據產品生產的需要及以往數據模型建模的實踐,基於地理信息應用模式規則(ISO 19109)與地理信息空間模式(ISO 19107)、以ESRI的地理資料庫描述框架、UML和關系資料庫規范化理論為基礎,採用面向對象(地理資料庫模型)的建模技術,在空間數據模型研究的基礎上,建立反映數字地質圖數據(實體)、數據(實體)之間的聯系以及有關語義約束規則的形式化表述,為數字地質圖數據的共同理解提供基礎。本文參照該標准,結合中亞地區地質圖的實際情況,適當選取各資料庫要素類、對象類和綜合要素類,構建中亞地區地質圖空間資料庫。
1.中亞地質圖資料庫結構定義
(1)資料庫各要素類定義
採用下列要素對地質圖空間資料庫要素類、對象類和綜合要素類進行描述與定義:
實體名稱:實體數據的中文名稱;要素類名稱:要素類的中文名稱;
對象類名稱:對象類的中文名稱;
綜合要素類名稱:綜合要素類的中文名稱;
要素對象與綜合要素類編碼:數據項名稱的標准化編碼;
空間數據類型:指點線面類型;
數據類型:指數據存儲的類型數據存儲的類型,一般包括字元型(C)、單精度數值(S)、雙精度數值(D)、長整形(L)、整形等(I),對於特殊系統的數據類型,需要明確說明;
與其他實體的關系:表示該實體與其他實體的關系,如:拓撲關系或依賴關系;
數據存儲長度:存儲於某一特定系統平台的位元組數,為系統默認值;
數據顯示長度:數據用於信息表達的長度,字元型數據說明字元個數,數值型數據說明小數點前後的位數,如F8.2,不確定長度的數據項需明確說明;
約束條件:確定數據項是否填寫,按照以下三類規定,可選(O)、必選(M)、條件必選(C);若為必選(M)時,可填寫是否為空(NOT NULL);
默認值/初始值:確定數據項在初始狀態下的值;
值域范圍:明確給出數據項的取值范圍;
數據項描述:對需要進一步說明的數據項進行描述。對於特殊表達格式的數據項也需在此說明,如多數值表達的分隔符,特殊符號的表達描述等;
主關鍵字名稱:用以標識記錄的唯一性,並用於和其他實體進行關聯的數據項的名稱;
子關鍵字名稱:和主關鍵字一起用以標識記錄的唯一性,並用於和其他實體進行關聯的數據項的名稱;
索引鍵名稱:用於按照一定規律排序的數據項的名稱;
注釋要素類編碼:注釋要素類數據項名稱的標准化編碼。
1)組成地質圖空間資料庫要素數據集包括三大類:基本要素數據集、綜合要素數據集和對象數據集。地質圖空間資料庫要素、對象的分類、描述要素、對象的內容、要素、對象的關系描述見表7-2。
表7-3 沉積(火山)岩岩石地層單位(_strata)
2.資料庫建庫技術流程
按照統一的分類標准掃描地質圖矢量入庫後,在地質圖上按各個要素進行分類,參照每一幅地質圖說明書逐一進行屬性錄入。本文基於數字制圖技術的地質圖空間資料庫建庫技術流程圖如圖7-18所示:本文採用的建庫流程是參考國家數字地質圖建庫標准,結合中亞地區地質圖圖幅要素的實際情況,以及在ArcGIS 9.2平台上建庫的實際操作過程,在矢量化過程中,採用以線性地質要素(斷層,地質界線,岩性邊界等)矢量為起點,以線跟蹤,線拷貝為中心,最後以線轉面(feature to polygon)的方法生成各面類地質圖層,然後對臨時面文件按各地質要素進行分類,導入各圖幅的標准地質資料庫中,再進行屬性數據的錄入。
圖7-17 地理資料庫模型的地質圖類圖
在建庫過程中,第一步,對掃描地質圖進行幾何校正,本文在ERDAS IMAGINE 9.2軟體的支持下,採用多項式幾何校正法,按一次方,選取圖紙網格線交點作為控制點,每幅圖至少選取20各控制點,進行幾何校正,精度保證在0.5個像素以內,即10米的精度內,完成對中亞地區掃描地質圖的幾何校正。
第二步,在ArcGIS Catloge平台上,按照前文討論的各地質要素數據集,各地質要素欄位創建資料庫表結構。在統一的建庫標准下建立完整的中亞地區地質圖資料庫。每一幅地質圖形成一個單獨的地理資料庫(geodata base),每個庫包含相同的數據結構和欄位類型,每一個屬性表形成一個圖層,存放對應的地質幾何要素;並在各自的資料庫下增加臨時線文件、臨時面文件,用來保存第一步線形矢量化後未分類的圖形數據。
在矢量化過程中,我們首先對斷層要素進行矢量,因為斷層線性平滑,多數斷層是地層岩性的公共邊界。斷層矢量完成後緊接著對所有岩性邊界進行矢量,包括沉積岩地層、侵入岩地層和變質岩地層邊界,岩性邊界數據存入臨時線文件,是一個單獨的線要素圖層,在矢量時,如果斷層恰好是岩性邊界的界線或公共邊,這時,為保證幾何圖形拓撲一致性,我們採用「線跟蹤」或「線拷貝」的方法將公共邊界的斷層線直接拷貝至「臨時線」圖層。凡是作為公共邊界的線,我們都採用同樣的方法進行矢量,比如「地質界線」圖層與其他面狀要素的公共邊界等。
圖7-18 基於GIS數字制圖技術的地質圖空間資料庫建庫技術流程
完成各岩性界線的矢量後,檢查若沒有遺漏,利用ArcGIS空間分析模塊的「線轉面」(feature to polygon)工具,將臨時線文件轉換為臨時面文件,設定閉合容差為10 米。轉換完成後按照沉積岩、侵入岩、變質岩和水域進行面狀要素的分類,逐一導入各自相對應的單獨的圖層中。對於脈岩(面)要素、產狀(線)要素、火山口和礦點(點)要素基本很少與其他圖層共用邊界,因此,直接對這些要素單獨進行矢量便可。最後進行圖形的質量檢查,包括劃分岩性類別檢查,幾何拓撲檢查,檢查無誤且沒有遺漏後,導入標准庫中。這樣基本完成了一幅掃描地質圖11類地質要素的圖形矢量工作,下一步,主要參考圖例、柱狀圖和地質圖說明書進行屬性錄入。如流程圖7-16所示。最後,檢查屬性數據的錄入完整無誤後,便可進行下一圖幅的矢量工作。
建立數字地質圖資料庫,目的在於最有效地保存和交流使用數據,按規范對掃描地質圖進行數字化;設計和建立中亞地區數字地質圖資料庫,實現地質圖原始資料客觀描述的、數字化的、統一分類的、圖文一體化的資料存儲和管理,為中亞地區金、銅礦床基於GIS空間分析奠定了統一的基礎和完整的數據平台。數字地質圖資料庫的建立也為將來三維數字礦床研究、礦體立體定量預測、地礦資源評價、勘查數據管理等提供數據平台支持。
G. 無縫空間資料庫設計與構建
(一)問題的提出
塔里木河流域生態環境動態監測系統的運轉需要大量的空間數據支持。在空間資料庫構建前期,採集了塔里木河流域的各尺度基礎地形圖、生態環境專題圖以及遙感影像資料等圖形、圖像數據,這些數據都是以分幅的成果進行收集和提交的,需要進入綜合資料庫中,以實現數據的共享。
我國國土版圖大,而且大部分位於中、低緯度地區,因此我國現行的大於1∶50萬比例尺的各種地形圖都採用高斯-克里格投影即橫切橢圓柱正形投影。經過高斯-克里格投影後的平面直角坐標系是以相切的經線(中央經線)的投影為X軸,以赤道的投影為Y軸。高斯-克里格投影具有以下特點:
(1)中央經線投影為直線,而且是投影的對稱軸(也是投影平面的X軸);
(2)高斯-克里格投影是等角投影,投影後具有角度不變、伸長固定的特點(即同一地點各個方向的長度比不變),滿足等角的要求;
(3)中央經線上長度沒有變形,離中央經線越遠變形越大。為了限制投影變形,必須進行分帶投影。所謂分帶就是按照一定的經度差,將橢球體按經線劃分成若干個狹窄的區域,各個區域分別按高斯投影的規律進行投影,每一個區域就稱為一個投影帶。在每一個投影帶內,位於各帶中央的子午線就是軸子午線,各帶相鄰的子午線叫邊緣子午線。分帶之後,各帶均有自己的坐標軸和原點,形成各自獨立但又相同的坐標系統。根據國際通用方法,我國投影分帶主要有兩種:在我國1∶2.5萬到1∶50萬地形圖均採用6°分帶投影,1∶1萬及更大比例尺的地形圖採用3°分帶投影,以保證投影變形誤差滿足地圖的精度要求(王密等,2001)。
本系統所採集到的數據產品的空間參考大都是以高斯投影後的平面坐標為基礎的分幅數據。塔里木河流域地域廣闊,地理坐標介於東經73°10'~94°05',北緯34°55'~43°08'之間,以1∶10萬基礎地形圖數據為例,按照高斯投影後的坐標分成了13°、14°、15°、16°四個6°高斯投影帶,每個帶的坐標都是以本帶的坐標原點為參考點,空間基準不統一,如果將這些數據直接進行入庫,將在跨帶處產生縫隙,不能形成邏輯意義上完整的河流表現,也無法完成基於整個流域的生態環境分析,因此,必須採用相應的數據處理與建庫技術,實現塔河整個流域數據的無縫集成管理,使之形成統一的整體。從基礎數據的獲取開始,進行精心設計和組織,分離出數據物理層和數據邏輯層,在統一的空間框架之下,將物理層歸化到邏輯層,以消除邏輯層的縫隙,從而實現用戶級的邏輯無縫空間資料庫。
(二)無縫資料庫
隨著GIS數據發布與共享技術的發展,無縫空間資料庫逐漸分化出兩個層次的含義:一是GIS系統內部的數據無縫,一是不同GIS實現互操作時的數據無縫。前者是通常意義的無縫,後者主要通過數據標准化與操作標准化來實現。無縫空間資料庫的最終含義體現在邏輯無縫資料庫。無論是多源還是單源、同構還是異構,跨越數據層呈現在用戶面前的GIS空間資料庫必須是邏輯無縫的。
空間數據的無縫連接是一個建立在用戶與資料庫介面基礎上的概念,意味著GIS管理的數據不再是單一、被硬性割裂的圖幅,而是范圍更加廣闊的區域,這個區域小可到一個城市,大可到一個國家甚至整個地球(王卉、王家耀,2004)。由於硬軟體條件的限制,計算機系統尚不能同時處理海量的空間數據,因此從具體技術的實施上,可採用將空間數據分塊存儲於資料庫中,資料庫提供相應的圖塊拼接信息。物理上空間數據是有縫隙的,但空間資料庫提供圖塊之間的接圖信息及相應的拼接訪問手段,保障了空間數據在使用上的空間連貫性,即數據在邏輯使用上是無縫的(王密等,2001)。
(三)縫隙產生原因
在現實世界中,地理空間是由地貌、地物組成的連續的表層空間,地理信息則是有關地理空間的一切有用的知識。在計算機世界中,地理信息通過抽象、建模形成數字化的表示形式,通過空間資料庫來進行表達、存儲和管理(朱欣焰等,2002)。空間地理數據縫隙是在數據的獲取、表示與處理過程中產生的數據不連續現象。
1.數據源
由於歷史和現實的原因,地圖是絕大多數GIS系統直接的數據源。地圖是地球三維橢球面的二維平面表達,本身對真實世界有扭曲;地圖是對連續空間的割裂表達,實體被分割到不同的地圖空間中去;高斯投影是基本比例尺地形圖經常選用的投影,也是絕大多數GIS系統的數學基礎,由於分帶的原因,使得投影後帶有高斯投影平面坐標的地圖無法實現無縫拼接。
2.數據表達與組織方式
空間地理幾何數據的表示主要有柵格和矢量兩種不同的形式。柵格形式是將地理表層空間劃分為一系列網格,空間目標由這些網格的位置及其量化值來表示,這些網格本身就是連續空間信息的離散表達。矢量形式則是將地理空間的一切事物、概念進行抽象,形成點、線、面,由點、線、面來組成各類空間目標。按點、線、面來分類和按分層的思想來組織空間數據,也割裂了實體之間內在的聯系。
在空間資料庫組織與管理上,目前主要有文件型、文件與關系資料庫混合型、全關系型以及對象關系型。傳統的文件型空間資料庫、文件與關系混合型空間資料庫,按圖幅或一定的區域范圍以文件的形式來組織與存儲空間幾何數據,不同的圖幅或區域之間存在縫隙。在文件與關系資料庫混合型的空間資料庫中,空間幾何數據貯存在文件中,屬性數據貯存在關系資料庫中,屬性數據和幾何數據之間通過內部標識來鏈接,空間幾何數據和屬性數據之間存在縫隙。
3.數據處理
數據處理的過程中也會引入縫隙,產生這種縫隙的原因有:①數據處理過程的順序不一致;②選擇的處理參數不一致;③數字化的精度不一致。
4.多源異構數據共享
數據屬性(數學基礎、比例尺、用途、時間、精度等)的不同,導致了數據的差異,這些差異是多層次和多方面的,它們集中體現了數據的異構。數據異構和多源往往是一體的,多源異構是系統內部和系統之間數據裂隙的主要原因(劉仁峰,2005)。
(四)數據縫隙類別和表現
數據縫隙基本可以分為物理縫隙和邏輯縫隙兩類。物理縫隙是地理空間的分離存儲,本來連續的實體空間被分離到不同的存儲空間和存儲單元中去,例如空間數據的分幅、分層存儲。邏輯縫隙是指邏輯上本身連續的信息不能以邏輯連續的方式呈現,例如跨越多幅圖的一條河流,在圖幅內查詢河流屬性(如長度)時只能獲取其在本圖幅內的相關信息而不是實體整體的信息。顯然,由於空間信息本身的海量特性,要完全意義上的實現物理無縫的空間資料庫目前還是不可能的,也沒有必要。GIS用戶關心的不是空間數據是物理無縫,因為GIS呈現給用戶的是數據邏輯層,只需要保證用戶看到的數據是邏輯無縫的。
物理有縫的資料庫向邏輯無縫資料庫的轉換是無縫空間資料庫構建的重要一環。
(五)無縫鑲嵌技術
數據的無縫連接包含以下幾個問題:投影、坐標系統、比例尺、數據精度等。對不同投影和坐標系統的空間數據在投影和坐標系統上統一採用相同的標准,當空間數據具有多尺度時,無縫連接尋找數據集之間連續的表達方式,它表現為不同尺度數據之間的集成。建立無縫空間數據的關鍵在於在合適的空間信息框架上實現多源異構空間數據的融合,框架是基礎,融合是手段。
1.合適的空間框架選擇
(1)適合多尺度信息表達。地球是一個開放的非常復雜的巨大系統,隨著觀察視角的變化,我們希望空間地理信息比例尺也自動增減。由於地圖的自動綜合受諸多因素的影響,目前比較可行的是採用多尺度空間數據支持來達到目的。所謂多尺度就是指系統內包含幾種不同比例尺(或解析度)的空間數據,其目的是為了適度地反映系統所關心區域的空間地理信息,以避免地物信息的過粗、失真或地物信息的負載量過大而無法使用。無縫空間資料庫也應該符合多尺度空間資料庫要求。
(2)適合大區域表達。各種自然和人文現象的空間分布,有其內在的原因和規律,這些原因和規律的獲得,往往需要研究大區域多因素的綜合作用;另一方面,對於全球范圍的環境變異和氣候變遷的研究需要基於數字地球的空間框架。大區域的表達,還涉及空間尺度問題,不應繼續採用歐氏空間尺度,而應該採用大地線尺度空間。
2.多源異構空間數據的融合
(1)GIS的迅速發展和廣泛應用導致了多源空間數據的產生。如何實現不同的GIS軟體共享並操作不同來源的地理數據,即GIS多源空間數據的集成,成為GIS發展的關鍵。目前GIS多源空間數據的集成主要朝著三個方向發展,一是通過建立統一的數據交換標准來約束並規范已有的各類地理信息系統,採用數據交換標准來進行空間數據交換;二是建立開放式地理數據互操作規范,進行地理信息系統互操作;三是GIS數據中間件技術。
(2)統一數據交換標准存在很多實現上的困難。互操作是一個重要發展趨勢,是在異構分布式資料庫中實現信息共享的途徑,它需要將GIS技術、分布處理技術、面向對象方法、資料庫設計及實時信息獲取方法更有效地結合起來。所謂GIS數據中間件技術是指能夠嵌入各類GIS系統的軟體,GIS開發者通過中間件開發商提供的介面,訪問和操作特定的數據源。
(3)在多源異構數據集成技術尚未成熟的時候,人們再次把目光投向數據本身,如果可以提供關於數據的詳細描述,是否可以提高融合數據的能力呢?於是,對於「關於數據的數據」的研究,即對於元數據的研究便普遍展開。從DublinCore到CSDGM與OGC,都提出了相應的元數據標准體系,有了完整而完善的元數據描述,必將提高數據的效能,從而最終促進多源異構資料庫向無縫空間資料庫的歸化。
為實現塔河整個流域數據的無縫集成管理,使之形成統一的整體,設計從縫隙產生的地方開始,分離出數據物理層和數據邏輯層,在統一的空間框架之下,將物理層歸化到邏輯層,以消除邏輯層的縫隙,從而實現用戶級的邏輯無縫空間資料庫;同時制定統一的數據提交規范,如所有矢量數據在入庫前統一採用經緯度坐標,柵格數據統一提供兩套數據,即高斯坐標和經緯度坐標,以滿足不同用戶的管理需求和精度要求。
H. 遙感作業空間資料庫的建立流程有那些
建模,入庫,生產。
資料庫建模過程。這一過程主要是根據行業應用特點及對其的理解,制定出比較規范的數據規范,在邏輯上建設資料庫。數據監理過程。這一過程主要是檢測數據的正確性,從而保證建庫的准確性。利用各種工具將各種數據入庫的過程。此過程主要是將可以得到的各種數據紙制數據,矢量數據,柵格數據,遙感數據等快速、准確的入到庫中。
通過設計和建database空間資料庫,掌握空間資料庫設計和建設流程,學會所學GIS知識獨立分析決問題的能力,對所學建庫知識進行一個完整的串接。需求分析,旅遊業是一個綜合性很強的信息依賴型產業,旅遊信息的獲取、加工、傳播和利用對旅遊業的發展起著舉足輕重的作用。從旅遊者和旅遊規劃管理部門的需求出發建立旅遊信息資料庫,不僅可以使旅遊者和旅遊規劃管理部門能夠快速、准確地查找和檢索自己所需要的旅遊信息,而且能夠促進旅遊信息規范化和標准化,促進旅遊信息的共享,打破對旅遊信息的封鎖;旅遊信息資料庫的建立有利於從整體上對旅遊業進行宏觀的調控和管理,有利於旅遊業協調、健康有序的發展。
I. 資料庫邏輯模型
資料庫關系模型(資料庫邏輯模型)是將數據概念模型轉換為所使用的資料庫管理系統(DBMS)支持的資料庫邏輯結構,即將E-R圖表示成關系資料庫模式。資料庫邏輯設計的結果不是唯一的,需利用規范化理論對資料庫結構進行優化。
在關系模型中,資料庫的邏輯結構是一張二維表。在資料庫中,滿足下列條件的二維表稱為關系模型:
1)每列中的分量是類型相同的數據;
2)列的順序可以是任意的;
3)行的順序可以是任意的;
4)表中的分量是不可再分割的最小數據項,即表中不允許有子表;
5)表中的任意兩行不能完全相同。
由此可見,有序的航空物探測量剖面數據不滿足資料庫關系模型條件第3條「行的順序可以是任意的」,因此,不能簡單地直接利用關系資料庫(如Oracle,SQL Server,Sybase等)來管理剖面數據,需將數據在資料庫中的存儲方式改為大欄位存儲,確保不因資料庫數據的增加和刪除等操作改變剖面數據有序特性。
一、大欄位存儲
(一)大欄位存儲技術
大欄位LOB(Large Object)技術是Oracle專門用於存放處理大對象類型數據(如多媒體材料、影像資料、文檔資料等)的數據管理技術。LOB包括內部的和外部的兩種類型。內部LOB又分CLOB(字元型)、BLOB(二進制型)等3種數據類型,其數據存儲在資料庫中,並且支持事務操作;外部LOB只有BFILE類型,其數據存儲在操作系統中,並且不支持事務操作。LOB存放數據的長度最大可以達到4G位元組,並且空值列(沒有存放數據)不佔空間(圖2-6)。
圖2-6 大欄位存儲示意圖
由於外部LOB存放在操作系統文件中,其安全性比內部LOB差一些。此外,大欄位的存儲支持事務操作(批量提交和回滾等),而外部LOB不支持事務操作。所以,航空物探測量剖面數據採用BLOB來存儲。對於BLOB類型,如果數據量小於4000位元組,資料庫通常採用行內存儲,而數據量大於4000位元組採用行外存儲。分析航空物探測量剖面數據,每個場值數據佔4個位元組(單精度),目前航磁數據采樣率為10次/s,4000位元組只能存儲100 s數據;一般情況下航空物探測量每條測線飛行時間至少在10 min以上,每條測線數據量遠遠大於4000位元組。所以,航空物探測量剖面數據採用行外存儲方式,即大欄位列指定「Disable Storage In Row」的存儲參數。
由於大欄位類型長度可變,最大可到4G。假設測線飛行時間為T,場值采樣率為n次/s,測線場值數據量為4Tn,所以有4Tn≤4G。單條測線飛行時間T不會超過10 h(36000 s,航空物探測量1架次至少飛行1個往返2條測線),則場值的采樣率n≤4G/4T=4×1024×1024×1024/4×36000次/s=29826次/s。採用大欄位來存儲測量數據,不僅能夠減少數據表的記錄數,提高查詢效率,而且使得采樣率的擴展不受限制。
(二)大欄位存儲技術應用
由於航空物探數據的數據量較大,現有的航磁測量數據按基準點方式(點存儲)存儲可達幾億個數據記錄。若按磁場數據采樣點存儲方式(簡稱「場值存儲方式」),則記錄條數=(磁場數據采樣率/坐標采樣率)點存儲方式的記錄數,達幾十億條數據記錄,且隨著數據采樣率的擴展、測點的加密,航空物探測量數據量隨著時間的推移呈現快速增長之勢。顯然,如果採用常規的表結構來存儲,勢必造成數據的存儲、管理、檢索、瀏覽和提取都非常困難。另一方面,從航空物探專業應用需求來說,很少對單個測點的場值數據進行運算、分析等操作,一般至少是對一條測線或以上測線,多數時候是需要對整個測區的場值數據進行化極、上延、正反演擬合等。
因此,在航空物探資料庫表結構設計時,改變過去將基準點或場值點數據記錄作為資料庫最小管理對象的理念,採用了大欄位存儲技術,將測線作為資料庫最小管理對象,將測線上的測量數據,如坐標數據和磁場、重力場數據分別存儲在相應大欄位中。在航空物探資料庫建設中,大量採用資料庫的大欄位存儲技術(詳見《航空物探信息系統資料庫結構設計》)。
(三)大欄位存儲效率
以航磁測量數據為例分析大欄位存儲技術優勢。如果以場值存儲方式存儲測線數據,則每條記錄包含架次號、測線號、基準號、地理坐標、投影坐標、磁場數據等,由於坐標數據采樣率2次/s,磁場數據采樣率10次/s,每5個磁場數據中,只有第1個磁場數據有坐標數據,其他4個坐標數據是內插出來,因此在測線記錄中會產生大量冗餘的數據坐標數據。採用點存儲方式存儲的測線數據記錄數等於線上基準點數,若採用大欄位存儲方式,一條測線數據只存儲為1條數據記錄(圖2-7),一般一條測線的測點數近萬個,甚至更多,可見採用大欄位存儲大大減少測線數據存儲記錄數,提高數據的存取效率。
以某測區的兩條航跡線為例,分別採用3種方式測試資料庫的數據存儲效率。磁場數據的采樣率10次/s,坐標數據采樣率2次/s,兩條測線上共有基準點8801個。以場值方式存儲先內插坐標信息,使得每個場值數據都擁有自己的坐標,然後存入資料庫,共有數據記錄44005條,寫入資料庫時間為57.22 s,讀取時間為1.03 s。第二種方式是以采樣點的方式進行存儲,共有8801條記錄,寫入資料庫時間為9.47 s,讀取需要0.91 s。第三種方式是以大欄位的形式存儲,只有2條記錄,寫入資料庫1.03 s,讀取時間為0.44 s(表2-2)。大欄位數據存儲記錄數最少,存取效率最高。用整個測區數據測試效果更加明顯。
表2-2 三種數據存儲方法的存取效率比較
圖2-7 大欄位存儲方式示意圖
二、聯合主鍵
主外鍵是關系型資料庫建立表間關系的核心。在航空物探空間資料庫建設過程中,要素類與要素類之間、要素類與對象類之間,以及對象類與對象類之間的關系的描述有3種形式,即拓撲關系——描述要素類與要素類之間結點、鄰接和聯通關系;疊加關系——描述要素類與要素類之間的相交、包含與分類關系;隸屬關系——描述對象類與對象類之間的派生關系。前兩種關系是採用空間數據模型建立的關系,而隸屬關系是通過主鍵建立的對象類與對象類之間的關系。在建立一對一、一對多的表間關系時,需要在整個資料庫表中確定具有唯一性的一個欄位作為主鍵(主關鍵字)。
按照傳統的航空物探數據的檔案管理模式,每個項目分配一個自然數作為檔案號,項目的所有資料均與此檔案號相聯系。勘查項目和科研項目的檔案號是獨立編號的,且均從001開始。加之人工管理的原因,存在1個項目2個檔案號和2個項目1個檔案號的情況,因此現行的檔案號與項目之間的對應關系不具備唯一性,不能作為項目的唯一標識,即不能作為資料庫表的主鍵。項目編號也不能作為資料庫表的主鍵,項目編號也只是近十年的事,以前的項目沒有項目編號。
綜合考慮上述因素和項目具有分級、分類的特點,提出了構造項目唯一標識碼(簡稱「項目標識」)的方法,並以此碼作為資料庫表的主鍵。
項目標識(主鍵):AGS+項目類別(2位)+項目起始年份(4位)+檔案號(6位)
標識含義:AGS——航空物探的縮位代碼;
項目類別——2位代碼,01代表勘查項目、02代表科研項目;
起始年份——4位代碼,項目開始年號;
檔案號——6位代碼,為了與傳統的項目管理方式相銜接,後面3~4位是
項目檔案管理模式下的檔案號,不足部分補零。
以上15位編碼是一級項目的項目標識,二級及其以下級別的項目標識是在上一級項目標識基礎上擴展2位數字代碼,中間用「.」號隔開,數字為該級項目的序號。項目標識定義為30位編碼,適用於六級以內的項目。例如:AGS022004000576.08.04.02,表示該項目為2004年開展的檔案號為576的航空物探科研項目(一級項目)的第8課題(二級項目)第4子課題(三級項目)的第2專題。由此可見,該項目標識不僅僅是一個建立表間關系的關鍵字,同時還表達了不同級別項目間的隸屬關系。在系統軟體開發時,利用此關系生成了項目的分級樹形目錄,用戶對項目的層次關系一目瞭然,便於項目查詢。
資料庫的主鍵一經確定,相應地需要確定聯合主鍵的組成及其表達方式。所謂聯合主鍵就是數據資料的唯一標識,在一個資料庫表中選擇2個或者2個以上的欄位作為主鍵。由於航空物探數據絕大部分與項目標識有關,加之數據的種類較多,分類復雜,單憑主鍵確定資料庫表中記錄的唯一性,勢必需要構建極其復雜的主鍵,這種方法既不利於主鍵的數據操作,又會造成大量的數據冗餘,合理地使用聯合主鍵技術可以很好地解決資料唯一問題。以項目提交資料為例,提交的資料分為文字類資料、圖件類資料和媒體類資料,我們對資料進行分類和編號,例如100代表文字資料(110——World文檔,120——PDF文檔),200代表圖件資料(210——基礎地理資料、220——基礎地質資料,230——航跡線圖,240——剖面圖,250——等值線圖等),300代表媒體資料(310——PPT文檔,320——照片等),第1位(百位)表示該資料的類型,第2~3位表示該類資料的序號。
在資料庫管理和項目資料查詢時,採用項目標識與資料分類編號作為聯合主鍵(圖2-8),可以高效地實現復雜數據的查詢。在整個資料庫系統中多處(項目查詢、數據提取等模塊)使用聯合主鍵技術。
圖2-8 聯合主鍵實例
三、信息標准化
為了實現數據共享,在航空物探資料庫建模過程中,參考和引用了近百個國家信息化標准,編制了4個中心信息化標准和1個圖件信息化工作指南。
(一)引用的國家信息化標准
1)地質礦產術語分類代碼:地球物理勘查,地球化學勘查,大地構造學,工程地質學,結晶學及礦物學,礦床學,水文地質學,岩石學,地質學等。
2)國家基礎信息數據分類與代碼,國土基礎信息數據分類與代碼,地球物理勘查技術符號,地面重力測量規范,地面磁勘查技術規程,地面高精度磁測技術規程,大比例尺重力勘查規范,地理信息技術基本術語,地理點位置的緯度、經度和高程的標准表示法,地名分類與類別代碼編制規則。
3)地球空間數據交換格式;數學數字地理底圖數據交換格式;數字化地質圖圖層及屬性文件格式。
(二)本系統建立的信息化標准
編寫了「航空物探空間數據要素類和對象類劃分標准」,「航空物探項目管理和資料管理分類代碼標准」,「航空物探勘查分類代碼標准」,「航空物探信息系統元數據標准」,「航空物探圖件信息化工作指南」,以便與其他應用系統進行信息交換,實現資料庫資料共享。
航空物探空間數據要素類和對象類劃分標准:根據物探方法、數據處理過程以及推斷解釋方法和過程,把與GIS有關的數據劃分為不同類型的要素類-對象類數據,按專業、比例尺、數據內容對要素類和對象類進行統一命名,使空間資料庫中的每個要素類和對象類的命名具有唯一性,防止重名出現。規定要素類-對象類資料庫表結構及數據項數值類型。
航空物探項目管理和資料管理分類代碼標准:規定了航空物探項目管理和資料管理的相關內容,包括航空物探勘查項目和科研項目的項目立項、設計、實施、成果、評審、資料匯交等項目管理的全過程中的內容,以及項目成果資料和收集資料的歸檔、發送、銷毀、借閱等資料管理與服務過程中的內容和數據項代碼。
航空物探勘查分類代碼標准:在「地質礦產術語分類代碼 地球物理勘查」(國家標准GB/T 9649.28—1998)增加了航磁、航重專業方面所涉及的數據採集、物性參數、方法手段、儀器設備、資料數據解釋及成圖圖件等內容和數據項代碼。
航空物探信息系統元數據標准:規定了航空物探空間數據管理與服務的元數據(數據的標識、內容、質量、狀況及其他有關特徵)的內容。
四、航跡線數據模型
(一)航跡線模型的結構
航空物探測量是依據測量比例尺在測區內布置測網(測線和切割線)。當飛機沿著設計的測線飛行測量時,航空物探數據收錄系統按照一定的采樣率採集采樣點的地理位置、高度和各種地球物理場信息。採用屬性數據分置的方法,將測線地理位置信息從航空物探測量數據中分離出來,形成航跡線要素類表,在此表中只存儲與航跡線要素類有關的數據,如項目標識、測區編號、測線號、測線類型(用於區分測線、切割線、不同高度線、重復線等)、坐標、高度值等;將航跡線的對象類數據(磁場、重力場基礎數據)分別以大欄位形式存儲在各自的二維表中,它們共享航跡線,解決了多源有序不同采樣率的航空物探測量數據的數據存儲問題,在滿足要素類空間查詢的同時,統一數據的存儲方式(圖2-9)。航跡線要素類隸屬於測區要素類,它們之間為空間拓撲(包含)關系。測區從屬於勘查項目,每個勘查項目至少有一個測區,它們之間為1對多關系。有關項目信息存放在項目概況信息對象類表中,各種表之間通過項目標識進行聯接。
圖2-9 航跡線數據模型結構
(二)航跡線的UML模型
統一建模語言UML(Unified Modeling Language)是一種定義良好、易於表達、功能強大且普遍適用的建模語言。它溶入了軟體工程領域的新思想、新方法和新技術。UML是面向對象技術領域內佔主導地位的標准建模語言,成為可視化建模語言的工業標准。在UML基礎上,ESRI定義了空間資料庫建模的ArcGIS包、類庫和擴展原則。
圖2-10 與航跡線有關的資料庫表邏輯模型結構圖
在確定航跡線數據模型後,以它為基礎,使用UML完成與航跡的有關的項目概況信息、測區信息、原始數據等資料庫表邏輯模型設計(圖2-10)。
由UML模型生成Geodatabase模式時,模型中的每個類都對應生成一個要素類或對象類。類的屬性映射為要素類或對象類的欄位。基類屬性中包含的欄位,在繼承類中不需重復創建。例如,每個類都包括項目標識等欄位,可以創建一個包含公共屬性的基類,其他類從該類繼承公共的屬性,而無需重復建基類中包含的屬性。因為基類沒有對應的要素類或對象類,所以將基類設置為抽象類型。要素類之間的關系採用依賴關系表示。
五、資料庫邏輯模型
關系資料庫的邏輯結構由一組關系模式組成,因而從概念結構到關系資料庫邏輯結構的轉換就是將概念設計中所得到的概念結構(ER圖)轉換成等價的UML關系模式(圖2-11)。在UML模型圖中,要素數據集用Geodatabase工作空間下的靜態包表示。要素集包不能互相嵌套,為了容易組織,在生成物理模型後,在要素數據集包中自定義嵌套。要素數據集與空間參考有關,但是空間參考不能在UML中表達。要素類和二維表都是以類的形式創建的,區別是要素類繼承Feature Class的屬性,而二維表繼承Object屬性。為了表達每種元素的額外屬性,比如設置字元型屬性欄位的字元串長度,設置要素類的幾何類型(點、線或面)需要使用Geodatabase預定義的元素標記值。
圖2-11 邏輯設計關系轉換
基於航空物探數據的內在邏輯關系進行分析,使用統一建模語言(UML)構建數據實體對象間的關系類,定義了航空物探資料庫的邏輯模型(圖2-12)。
J. 數據倉庫數據建模的幾種思路
數據倉庫數據建模的幾種思路主要分為一下幾種
1. 星型模式
星形模式(Star Schema)是最常用的維度建模方式。星型模式是以事實表為中心,所有的維度表直接連接在事實表上,像星星一樣。星形模式的維度建模由一個事實表和一組維表成,且具有以下特點:a. 維表只和事實表關聯,維表之間沒有關聯;b. 每個維表主鍵為單列,且該主鍵放置在事實表中,作為兩邊連接的外鍵;c. 以事實表為核心,維表圍繞核心呈星形分布;
星座模型