Ⅰ 資料庫建設方案及數據質量檢查標准
1 .制定調查資源整合方案
通過合理編碼方式理順各類數據間的關系,保證不同類別數據的緊密性,完整體現地學資料數據的多源性和空間性。
2.資料庫建設標准
根據資源整合方案,利用關系資料庫技術和空間資料庫技術,建立CO2地質儲存調查資料庫,有效儲存和管理各種空間數據和屬性數據,保證數據間的邏輯合理性,達到充分利用調查數據,並快速輸出數據的目的。
3.數據質量檢查標准及方法
根據資源整合方案,制定數據質量標准,開發相應質量檢查軟體,對數據進行質量檢查,確保入庫數據的有效性和合法性。
Ⅱ 資料庫建設
(一)數據准備
1.數據收集
1∶25萬遙感地質填圖數據包含影像數據和矢量數據兩種格式,影像數據主要包括:TM原始影像、SPOT原始影像、SAR原始影像、TM與SPOT融合影像、TM與SAR融合影像、信息增強分類處理後的整幅影像或影像子區;矢量數據主要包括:航磁等值線影像、1∶25萬地形圖、地質圖、航磁解譯地質圖、遙感解譯單元圖、遙感解譯地質圖。現以新疆瓦石峽地區、內蒙古阿龍山地區為例,具體情況如下:
(1)瓦石峽地區
TM衛星影像
SAR衛星影像
航磁等值線(TIF)影像
航磁解譯地質圖
地質圖
遙感解譯影像單元圖
遙感解譯地質圖
(2)阿龍山地區
TM衛星影像
SPOT衛星影像
航磁等值線(TIF)影像
地質圖
航磁解譯地質圖
遙感解譯地質圖
2.數據預處理
1)影像數據處理,主要針對原始影像數據
(1)將TM原始影像、SPOT原始影像、SAR原始影像、航磁等值線(.JPG)數據格式轉換為ERDAS的.IMG格式。
(2)對轉換後的IMG文件進行投影轉換。投影系採用6度分帶的橫軸墨卡托(Transverse Mercator)投影,投影參數為:
Units:Meters
Scale Factor:1.0
Longitude Of Center:123 00 00
Latitude Of Center:0 00 00
False Easting:500 KM
False Northing:0 KM
Xshift:0
Yshift:0
橢球(spheroid)體採用克拉索夫(Krasovsky)橢球,參數為:
SemiMajor:6378245.0000 Meters
SemiMinor:6356863.0188 Meters
坐標系採用大地坐標,度量單位為米,這樣可以在GIS系統中方便的量算特徵的長度和面積。
(3)圖像坐標糾正
參照地形圖選擇同名點,對影像數據進行坐標精校正。同名點的選擇不少於12個。
2)矢量數據處理
工作主要針對地質圖、航磁解譯地質圖、遙感解譯單元圖、遙感解譯地質圖。
(1)數據分層
根據圖面特徵信息內容和制圖要求,每幅矢量圖按特徵類型劃分為點、線、面(區)三個圖層。劃分的依據是遙感地質解譯圖件的信息不完全等同於其他地質調查圖件,它表現的內容主要是:從影像圖中判讀出的地層、岩石影像單元及構造界線,但各種地質特徵的單位、時代、分類、度量、結構、方向等的描述不是十分具體,因此在屬性定義上比較一致,對一個圖件不需要產生基於同一特徵類型的專題圖層,因此按矢量特徵類型劃分較為合理、簡便。
(2)圖件掃描矢量化
將地質、影像單元等圖件掃描成 TIF影像文件,按照分層要求,將每個圖件數字化為點、線、面三個圖層文件。處理的圖件和產生的矢量圖層文件見表3-1至3-7。
表3-1 矢量圖層表
1∶25萬遙感地質填圖方法和技術
c.面特徵:由於影像單元圖的面特徵描述有其特殊之處,有時遵照地層、岩石的分類方法國家標准,但絕大部分是按照影像顏色、紋理等劃分和稱謂,因此進行分類編碼十分困難,有待進一步研究解決。
以上編碼方法是在每種特徵類型組合最大值和預留一定的擴充餘地的基礎上編制的,編碼方案參照國標:GB958—89區域地質圖圖例(1∶5萬)
(6)屬性定義
說明:由於地質代號的組成方式極為復雜,使用了上下角標、希臘字元、拉丁字母等,而這些字元和格式在純文本的屬性欄位中是不能完全或准確表達的,因此在錄入時對地質代號進行了一些簡化。
例如:Pt2xh簡化為Pt2xh
簡化為An1—3
(二)建立資料庫
GIS空間資料庫有兩種存儲形式:一是基於文件索引的傳統空間資料庫管理體系;二是採用商用關系資料庫的解決方案,二者各有千秋。第一種結構是對應用的集成,而數據是鬆散的,雖不利於數據的集中管理,但對不同系統平台之間共享數據提供了很大方便,特別是數據較少的小型應用系統。這種結構的另外一個可取之處是方案簡單,工作量小,不需要資料庫方面的專業知識。第二種結構既是應用的集成,也是數據的集成,並且提供所有的RDBMS的數據和安全管理優勢,但它需要專用的空間數據引擎,對其他軟體使用數據是一個極大的限制,必須進行數據的導入導出和格式轉換,並且要求使用者對RDBMS有一定的操作和管理經驗。
由於本集成系統採用的是ARC/INFO和ERDAS軟體,它們之間只能達到文件方式的數據共享,雖然ARC/INFO 8提供了GeoDataBase這種關系資料庫管理模式,實現真正的空間數據集中管理和RDBMS所有的數據管理能力,但為了滿足兩個軟體之間數據的交互處理,本系統採用文件索引形式的資料庫。在數據完備的基礎上,建庫工作需以下兩個步驟:
(1)首先創建基於項目的不同格式、不同類型的目錄樹工作區,把所有數據文件分類保存在這個工作區中,工作區框架以瓦石峽幅數據為例(圖3-5)。
(2)然後在 ARC/INFO 的 ARCMAP中新建一個 MAP DOCUMENT(以下簡稱為文檔),添加所有數據文件到文檔中。文檔中每個數據文件都被稱為一個 LAYER(以下簡稱為層),每個矢量層可以有它自己的環境,文檔可以保存環境的變化。使用者只需打開這個文檔即可調用項目所有的數據文件,並且恢復到上一次工作時的狀態。
圖3-5 數據分層結構圖
在MAP DOCUMENT這種集成的數據環境下,使用者可以採用ARC/INFO 8的ARCEDITOR、ARCMAP參照影像圖層進行矢量化的解譯工作,對已形成的圖件直接進行圖形和屬性編輯,進行輔助解譯的空間分析,對各種圖件進行疊加比較,使用文字標簽或屬性欄位標注特徵,按照分類符號化特徵,製作專題圖,列印輸出圖件報表等,實現一系列與遙感解譯有關的功能和操作。
由於ARC/INFO提供的地質圖式圖例和符號不能滿足我國的地質成圖要求,因此制圖軟體採用地質行業較為通用的MAPGIS。通過ARCTOOLS工具將最終的解譯成果矢量地質圖轉換為ARC/INFO的標准交換格式E00,提交給MAPGIS形成繪圖文件,出版印刷。具體的實施方案和技術流程見「成果圖件製作方法研究」一節。
Ⅲ 天津市地質資料信息化服務研究
張惠生1 馬鋒1 楊書暢2
(1.天津市地質資料館;2.天津市國土資源和房屋管理局)
摘要 本文概略講述了在開展地質資料信息服務方面的工作思路、工作內容以及部分擬開展的工作。通過調研,了解不同的地質信息需求,進行服務對象分類,在地質資料信息集成的基礎上,建立地質資料信息服務平台、網路,利用內網、互聯網等方式開展有針對性的地質資料信息服務,以促進天津市的經濟建設。
關鍵詞 地質資料 社會化服務 地質信息服務平台
從2002年開始,天津市陸續開展了地質資料目錄資料庫建設、成果地質資料數字化、鑽孔基本信息清查、重要地質鑽孔資料庫建設等工作,不斷提高地質資料數字化管理。建立了天津市地質資料館網站,開發了地質資料數據中心服務平台,初步搭建了地質資料信息化服務平台。從數據和平台兩個方面為地質資料信息化服務奠定了基礎。
1 服務對象
在《推進地質資料信息服務集群化產業化工作方案》(國土資發〔2010〕113號)文件中,一個基本原則是堅持公共服務。充分考慮社會公眾、政府管理、科學研究、企業發展的需求。通過需求調研和分析,服務對象主要分3個層面:企事業單位層面、政府層面和公眾層面。企事業單位層麵包括與地質工作相關的城建、規劃、測繪、環保、地勘、交通部門的科研院所、大專院校等企事業單位;政府層麵包括城市規劃和國土資源管理、城市建設、水務管理、海洋管理、環境保護管理、農林業管理、地震管理等管理部門;社會公眾層面為需要了解地質相關情況的人員。
2 服務需求
通過調研,不同層面的服務對象對地質資料的需求存在差異。企事業單位層面主要從技術方面考慮,結合所承擔的工作或者研究課題,需要的是在地質工作中形成的地質數據、地質成果、地質理論和觀點等;政府層面主要從管理方面考慮,需要地質工作中形成的成果,開展決策、實施等管理;公眾層面主要從興趣方面考慮,了解相關的地質科普知識。
3 數字化數據整理
經過多年的數字化信息化工作,形成或正在形成的數字化存儲數據分為三個方面。
一是地質工作中形成的文件資料。①成果地質資料。報告正文、附圖、附表、附件、評審意見等,目前全部實現數字化存儲,2003年之前的成果地質資料通過掃描以圖片格式存儲,2003年之後按照電子文件匯交格式進行存儲。②原始地質資料。部分項目的原始地質進行了匯交,擬同處理2003年之前匯交的成果地質資料一樣,通過開展掃描數字化工作後以圖片格式存儲。③實物地質資料。逐步通過照片、掃描等方式進行資料存儲。
二是地質資料管理中形成的文件資料。成果地質資料目錄資料庫,包括資料名稱、形成時間、形成單位、主要編著者、內容介紹等;原始地質資料目錄,各個原始地質資料文件的名稱;實物地質目錄,每個項目形成的實物地質資料清單。地質資料元資料庫,某一份地質資料的元數據信息,包括基本信息、標識信息、數據質量、內容信息等方面的信息。
三是地質信息集群化形成的信息數據。天津市三維地質信息系統建設地質資料信息集群化成果,包括各類各專業的基礎數據和圖件;利用三維地質信息系統的各項功能新形成的地質資料信息,包括生成的鑽孔柱狀圖、剖面圖、統計數據,各地質專業分析評價模型形成圖件、三維地質結構模型形成的地質模型等。地質鑽孔基本信息清查資料庫,重要地質鑽孔資料庫等信息。
4 在線數據上傳與展示
目前對在線服務的定位於介紹、推介、引導地質資料的查詢和利用。基於這種定位,對整理的數字化資料按照分類管理和用戶需求進行上傳,以滿足用戶實現網上利用服務。對三類不同的資料,通過不同方式的服務以滿足不同層面用戶的需求。對第一類資料選擇可公開的公益性資料、科普類、科技類資料,上傳到信息服務平台,對政府層面需要的成果、圖件等資料,通過編輯處理,去除涉密要素、涉密數據後,形成可滿足需要的成果、圖件;對第二類資料全部上網,滿足用戶對地質資料基本信息的查詢;對第三類資料有選擇地進行深加工後上傳,深加工包括鑽孔地層標准化、鑽孔位置的校正、圖形比例的校正等工作,滿足專業用戶的資料需求。
上傳後的地質數據和基礎地理數據相結合,開發基於WebGIS的空間數據展示功能,包括地圖顯示與輸出、地質成果圖件展示與管理、鑽孔數據空間查詢與信息顯示等功能。例如通過拉框選擇該區域的地質資料目錄、鑽孔,並進一步讀取詳細的資料;對分析評價模型的展示等。
5 數據服務方式
不論是地質資料館網站還是地質資料數據中心服務平台,都是通過互聯網為用戶提供快捷、滿意的服務。在提供服務的同時,既要考慮互聯網的方便快捷,也要考慮地質資料的安全穩妥。首先堅持涉密地質資料不上互聯網;其次採用分級管理模式,即分為遊客、注冊用戶、高級注冊用戶進行分類管理,不同類別用戶具有不同的許可權,提供不同深度內容的服務。
6 服務制度建設
隨著科技的不斷發展,新的方法、新的工具不斷應用,同時要更新完善相關制度,以適應時代的要求。例如建立信息服務平台管理制度、網路安全制度、數據安全制度、數據維護制度、數據服務利用制度等,以保證地質信息服務的規范、安全和高效。
總之,利用資料庫技術、GIS技術、三維可視化技術和計算機網路技術,優化地質信息服務模式,使地質資料信息資源能夠被便捷、有效地瀏覽和利用,形成為城市建設、土地利用、礦產資源開發和地質環境保護等服務的地質信息平台,更好地服務於天津市的經濟建設。
Ⅳ 大數據工程師進行數據平台建設 有哪些方案
【導語】數據平台其實在企業發展的進程中都是存在的,在進入到數據爆發式增加的大數據時代,傳統的企業級資料庫,在數據管理應用上,並不能完全滿意各項需求。就企業自身而言,需求更加契合需求的數據平台建設方案,那麼大數據工程師進行數據平台建設,有哪些方案呢?下面就來細細了解一下吧。
1、敏捷型數據集市
數據集市也是常見的一種方案,底層的數據產品與分析層綁定,使得應用層可以直接對底層數據產品中的數據進行拖拽式分析。數據集市,主要的優勢在於對業務數據進行簡單的、快速的整合,實現敏捷建模,並且大幅提升數據的處理速度。
2、常規數據倉庫
數據倉庫的重點,是對數據進行整合,同時也是對業務邏輯的一個梳理。數據倉庫雖然也可以打包成SAAS那種Cube一類的東西來提升數據的讀取性能,但是數據倉庫的作用,更多的是為了解決公司的業務問題。
3、Hadoop分布式系統架構
當然,大規模分布式系統架構,Hadoop依然站在不可代替的關鍵位置上。雅虎、Facebook、網路、淘寶等國內外大企,最初都是基於Hadoop來展開的。
Hadoop生態體系龐大,企業基於Hadoop所能實現的需求,也不僅限於數據分析,也包括機器學習、數據挖掘、實時系統等。企業搭建大數據系統平台,Hadoop的大數據處理能力、高可靠性、高容錯性、開源性以及低成本,都使得它成為首選。
4、MPP(大規模並行處理)架構
進入大數據時代以來,傳統的主機計算模式已經不能滿足需求了,分布式存儲和分布式計算才是王道。大家所熟悉的Hadoop
MapRece框架以及MPP計算框架,都是基於這一背景產生。
MPP架構的代表產品,就是Greenplum。Greenplum的資料庫引擎是基於Postgresql的,並且通過Interconnnect神器實現了對同一個集群中多個Postgresql實例的高效協同和並行計算。
關於大數據工程師進行數據平台建設方案的有關內容,就給大家介紹到這里了,中國社會發展至今,大數據的應用正在逐漸普及,所以未來前景不可估量,希望想從事此行業的人員能夠合理選擇。
Ⅳ 資料庫建設數據流程
中國地熱資源資料庫建設工作必須按照其數據組成及屬性表規定的數據格式的具體要求,在對相關數據資料進行整理的基礎上,按照制定的數據卡片逐項填寫內容。並在建立健全檢查制度的基礎上,確保數據卡片的內容詳實、准確。再在 Access 系統中完成屬性數據的錄入,並進行校核。圖形的數字處理在 MapGIS 系統中完成 ( 圖 2-5) 。
圖 2-5 中國地熱資源資料庫建設數據流程
Ⅵ 資料庫建設方面
在全面收集了研究區的地、物、化、遙以及所產出的礦床地質特徵資料的基礎上,完成研究區系統和詳細的工作區研究程度圖,詳細地勾勒了全區總的已經開展的工作狀況。
完成中國地質調查局的關於資料庫和圖庫建設的任務,完成了西南三江中段礦產地質資料庫,該地質資料庫由地質圖資料庫、礦產地資料庫、地理底圖資料庫、物探資料庫(包括重力資料庫和航磁資料庫)、化探資料庫、遙感構造解譯資料庫六大子庫構成。資料庫建設的主要進展包括:①完成研究區457個礦床(點)資料收集(四川272個、西藏185個);②完成了研究區1:2.5萬圖幅-數據點區域化探數據(共2364個數據點)及藏東和川西地區1:20萬區域化探數據36個分幅的資料庫收集和建設,並利用多種方法進行必要的數據處理和元素分布背景分析,取得滿意的效果;③建立了西南三江中段重力資料庫和重力場資料庫;④完成 Landsat TM 圖像處理,圖像波段組合採用 TM543(RGB)進行假彩色合成,同時進行必要的和詳細的線、環構造解譯;⑤以MapGIS為基礎平台,採用VB為開發工具實現二次開發,初步完成了一個針對本區各個子庫的管理系統,主要完成各個子庫的統一管理及瀏覽功能;⑥完成三江中段礦產地質資料庫成果文件的詳細分類。
Ⅶ 數據平台建設的方案有哪幾種
1、常規數據倉庫
數據倉庫的重點,是對數據進行整合,同時也是對業務邏輯的一個梳理。數據倉庫雖然也可以打包成SAAS那種Cube一類的東西來提升數據的讀取性能,但是數據倉庫的作用,更多的是為了解決公司的業務問題。
2、敏捷型數據集市
數據集市也是常見的一種方案,底層的數據產品與分析層綁定,使得應用層可以直接對底層數據產品中的數據進行拖拽式分析。數據集市,主要的優勢在於對業務數據進行簡單的、快速的整合,實現敏捷建模,並且大幅提升數據的處理速度。
3、MPP(大規模並行處理)架構
進入大數據時代以來,傳統的主機計算模式已經不能滿足需求了,分布式存儲和分布式計算才是王道。大家所熟悉的Hadoop MapRece框架以及MPP計算框架,都是基於這一背景產生。
MPP架構的代表產品,就是Greenplum。Greenplum的資料庫引擎是基於Postgresql的,並且通過Interconnnect神器實現了對同一個集群中多個Postgresql實例的高效協同和並行計算。
4、Hadoop分布式系統架構
當然,大規模分布式系統架構,Hadoop依然站在不可代替的關鍵位置上。雅虎、Facebook、網路、淘寶等國內外大企,最初都是基於Hadoop來展開的。
Hadoop生態體系龐大,企業基於Hadoop所能實現的需求,也不僅限於數據分析,也包括機器學習、數據挖掘、實時系統等。企業搭建大數據系統平台,Hadoop的大數據處理能力、高可靠性、高容錯性、開源性以及低成本,都使得它成為首選。
關於數據平台建設的方案有哪幾種,環球青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。
Ⅷ 創建資料庫的兩種方法
創建資料庫有兩種方式:
1.用圖形界面創建資料庫
資料庫(Database)是按照數據結構來組織、存儲和管理數據的建立在計算機存儲設備上的倉庫。
簡單來說是本身可視為電子化的文件櫃——存儲電子文件的處所,用戶可以對文件中的數據進行新增、截取、更新、刪除等操作。
拓展資料:
資料庫(Database)是按照數據結構來組織、存儲和管理數據的倉庫,它產生於距今六十多年前,隨著信息技術和市場的發展,特別是二十世紀九十年代以後,數據管理不再僅僅是存儲和管理數據,而轉變成用戶所需要的各種數據管理的方式。資料庫有很多種類型,從最簡單的存儲有各種數據的表格到能夠進行海量數據存儲的大型資料庫系統都在各個方面得到了廣泛的應用。
在信息化社會,充分有效地管理和利用各類信息資源,是進行科學研究和決策管理的前提條件。資料庫技術是管理信息系統、辦公自動化系統、決策支持系統等各類信息系統的核心部分,是進行科學研究和決策管理的重要技術手段。