當前位置:首頁 » 數據倉庫 » 資料庫預處理的特點
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

資料庫預處理的特點

發布時間: 2022-09-27 22:43:49

⑴ 數據挖掘中的數據預處理技術有哪些,它們分別適用於哪些場合

一、數據挖掘工具分類數據挖掘工具根據其適用的范圍分為兩類:專用挖掘工具和通用挖掘工具。專用數據挖掘工具是針對某個特定領域的問題提供解決方案,在涉及演算法的時候充分考慮了數據、需求的特殊性,並作了優化。對任何領域,都可以開發特定的數據挖掘工具。例如,IBM公司的AdvancedScout系統針對NBA的數據,幫助教練優化戰術組合。特定領域的數據挖掘工具針對性比較強,只能用於一種應用;也正因為針對性強,往往採用特殊的演算法,可以處理特殊的數據,實現特殊的目的,發現的知識可靠度也比較高。通用數據挖掘工具不區分具體數據的含義,採用通用的挖掘演算法,處理常見的數據類型。通用的數據挖掘工具不區分具體數據的含義,採用通用的挖掘演算法,處理常見的數據類型。例如,IBM公司Almaden研究中心開發的QUEST系統,SGI公司開發的MineSet系統,加拿大SimonFraser大學開發的DBMiner系統。通用的數據挖掘工具可以做多種模式的挖掘,挖掘什麼、用什麼來挖掘都由用戶根據自己的應用來選擇。二、數據挖掘工具選擇需要考慮的問題數據挖掘是一個過程,只有將數據挖掘工具提供的技術和實施經驗與企業的業務邏輯和需求緊密結合,並在實施的過程中不斷的磨合,才能取得成功,因此我們在選擇數據挖掘工具的時候,要全面考慮多方面的因素,主要包括以下幾點:(1)可產生的模式種類的數量:分類,聚類,關聯等(2)解決復雜問題的能力(3)操作性能(4)數據存取能力(5)和其他產品的介面三、數據挖掘工具介紹:1.QUESTQUEST是IBM公司Almaden研究中心開發的一個多任務數據挖掘系統,目的是為新一代決策支持系統的應用開發提供高效的數據開采基本構件。系統具有如下特點:提供了專門在大型資料庫上進行各種開採的功能:關聯規則發現、序列模式發現、時間序列聚類、決策樹分類、遞增式主動開采等。各種開采演算法具有近似線性計算復雜度,可適用於任意大小的資料庫。演算法具有找全性,即能將所有滿足指定類型的模式全部尋找出來。為各種發現功能設計了相應的並行演算法。2.MineSetMineSet是由SGI公司和美國Standford大學聯合開發的多任務數據挖掘系統。MineSet集成多種數據挖掘演算法和可視化工具,幫助用戶直觀地、實時地發掘、理解大量數據背後的知識。MineSet有如下特點:MineSet以先進的可視化顯示方法聞名於世。支持多種關系資料庫。可以直接從Oracle、Informix、Sybase的表讀取數據,也可以通過SQL命令執行查詢。多種數據轉換功能。在進行挖掘前,MineSet可以去除不必要的數據項,統計、集合、分組數據,轉換數據類型,構造表達式由已有數據項生成新的數據項,對數據采樣等。操作簡單、支持國際字元、可以直接發布到Web。3.DBMinerDBMiner是加拿大SimonFraser大學開發的一個多任務數據挖掘系統,它的前身是DBLearn。該系統設計的目的是把關系資料庫和數據開採集成在一起,以面向屬性的多級概念為基礎發現各種知識。DBMiner系統具有如下特色:能完成多種知識的發現:泛化規則、特性規則、關聯規則、分類規則、演化知識、偏離知識等。綜合了多種數據開采技術:面向屬性的歸納、統計分析、逐級深化發現多級規則、元規則引導發現等方法。提出了一種互動式的類SQL語言——數據開采查詢語言DMQL。能與關系資料庫平滑集成。實現了基於客戶/伺服器體系結構的Unix和PC(Windows/NT)版本的系統。4.IntelligentMiner由美國IBM公司開發的數據挖掘軟體IntelligentMiner是一種分別面向資料庫和文本信息進行數據挖掘的軟體系列,它包括IntelligentMinerforData和IntelligentMinerforText。IntelligentMinerforData可以挖掘包含在資料庫、數據倉庫和數據中心中的隱含信息,幫助用戶利用傳統資料庫或普通文件中的結構化數據進行數據挖掘。它已經成功應用於市場分析、詐騙行為監測及客戶聯系管理等;IntelligentMinerforText允許企業從文本信息進行數據挖掘,文本數據源可以是文本文件、Web頁面、電子郵件、LotusNotes資料庫等等。5.SASEnterpriseMiner這是一種在我國的企業中得到採用的數據挖掘工具,比較典型的包括上海寶鋼配礦系統應用和鐵路部門在春運客運研究中的應用。SASEnterpriseMiner是一種通用的數據挖掘工具,按照"抽樣--探索--轉換--建模--評估"的方法進行數據挖掘。可以與SAS數據倉庫和OLAP集成,實現從提出數據、抓住數據到得到解答的"端到端"知識發現。6.SPSSClementineSPSSClementine是一個開放式數據挖掘工具,曾兩次獲得英國政府SMART創新獎,它不但支持整個數據挖掘流程,從數據獲取、轉化、建模、評估到最終部署的全部過程,還支持數據挖掘的行業標准--CRISP-DM。Clementine的可視化數據挖掘使得"思路"分析成為可能,即將集中精力在要解決的問題本身,而不是局限於完成一些技術性工作(比如編寫代碼)。提供了多種圖形化技術,有助理解數據間的關鍵性聯系,指導用戶以最便捷的途徑找到問題的最終解決法。7.資料庫廠商集成的挖掘工具SQLServer2000包含由Microsoft研究院開發的兩種數據挖掘演算法:Microsoft決策樹和Microsoft聚集。此外,SQLServer2000中的數據挖掘支持由第三方開發的演算法。Microsoft決策樹演算法:該演算法基於分類。演算法建立一個決策樹,用於按照事實數據表中的一些列來預測其他列的值。該演算法可以用於判斷最傾向於單擊特定標題(banner)或從某電子商務網站購買特定商品的個人。Microsoft聚集演算法:該演算法將記錄組合到可以表示類似的、可預測的特徵的聚集中。通常這些特徵可能是隱含或非直觀的。例如,聚集演算法可以用於將潛在汽車買主分組,並創建對應於每個汽車購買群體的營銷活動。,SQLServer2005在數據挖掘方面提供了更為豐富的模型、工具以及擴展空間。包括:可視化的數據挖掘工具與導航、8種數據挖掘演算法集成、DMX、XML/A、第三方演算法嵌入支持等等。OracleDataMining(ODM)是Oracle資料庫10g企業版的一個選件,它使公司能夠從最大的資料庫中高效地提取信息並創建集成的商務智能應用程序。數據分析人員能夠發現那些隱藏在數據中的模式和內涵。應用程序開發人員能夠在整個機構范圍內快速自動提取和分發新的商務智能—預測、模式和發現。ODM針對以下數據挖掘問題為Oracle資料庫10g提供支持:分類、預測、回歸、聚類、關聯、屬性重要性、特性提取以及序列相似性搜索與分析(BLAST)。所有的建模、評分和元數據管理操作都是通過OracleDataMining客戶端以及PL/SQL或基於Java的API來訪問的,並且完全在關系資料庫內部進行。IBMIntelligentMiner通過其世界領先的獨有技術,例如典型數據集自動生成、關聯發現、序列規律發現、概念性分類和可視化呈現,它可以自動實現數據選擇、數據轉換、數據發掘和結果呈現這一整套數據發掘操作。若有必要,對結果數據集還可以重復這一過程,直至得到滿意結果為止。現在,IBM的IntelligentMiner已形成系列,它幫助用戶從企業數據資產中識別和提煉有價值的信息。它包括分析軟體工具----IntelligentMinerforData和IBMIntelligentMinerforText,幫助企業選取以前未知的、有效的、可行的業務知識----如客戶購買行為,隱藏的關系和新的趨勢,數據來源可以是大型資料庫和企業內部或Internet上的文本數據源。然後公司可以應用這些信息進行更好、更准確的決策,獲得競爭優勢。

⑵ 簡要闡述數據預處理原理

數據預處理(data preprocessing)是指在主要的處理以前對數據進行的一些處理。如對大部分地球物理面積性觀測數據在進行轉換或增強處理之前,首先將不規則分布的測網經過插值轉換為規則網的處理,以利於計算機的運算。另外,對於一些剖面測量數據,如地震資料預處理有垂直疊加、重排、加道頭、編輯、重新取樣、多路編輯等。
中文名
數據預處理
外文名
data preprocessing
定義
主要的處理以前對數據進行處理
方法
數據清理,數據集成,數據變換等
目標
格式標准化,異常數據清除
快速
導航
預處理內容

方法
基本介紹
現實世界中數據大體上都是不完整,不一致的臟數據,無法直接進行數據挖掘,或挖掘結果差強人意。為了提高數據挖掘的質量產生了數據預處理技術。 數據預處理有多種方法:數據清理,數據集成,數據變換,數據歸約等。這些數據處理技術在數據挖掘之前使用,大大提高了數據挖掘模式的質量,降低實際挖掘所需要的時間。
數據的預處理是指對所收集數據進行分類或分組前所做的審核、篩選、排序等必要的處理。[1]
預處理內容
數據審核
從不同渠道取得的統計數據,在審核的內容和方法上有所不同。[1]
對於原始數據應主要從完整性和准確性兩個方面去審核。完整性審核主要是檢查應調查的單位或個體是否有遺漏,所有的調查項目或指標是否填寫齊全。准確性審核主要是包括兩個方面:一是檢查數據資料是否真實地反映了客觀實際情況,內容是否符合實際;二是檢查數據是否有錯誤,計算是否正確等。審核數據准確性的方法主要有邏輯檢查和計算檢查。邏輯檢查主要是審核數據是否符合邏輯,內容是否合理,各項目或數字之間有無相互矛盾的現象,此方法主要適合對定性(品質)數據的審核。計算檢查是檢查調查表中的各項數據在計算結果和計算方法上有無錯誤,主要用於對定量(數值型)數據的審核。[1]
對於通過其他渠道取得的二手資料,除了對其完整性和准確性進行審核外,還應該著重審核數據的適用性和時效性。二手資料可以來自多種渠道,有些數據可能是為特定目的通過專門調查而獲得的,或者是已經按照特定目的需要做了加工處理。對於使用者來說,首先應該弄清楚數據的來源、數據的口徑以及有關的背景資料,以便確定這些資料是否符合自己分析研究的需要,是否需要重新加工整理等,不能盲目生搬硬套。此外,還要對數據的時效性進行審核,對於有些時效性較強的問題,如果取得的數據過於滯後,可能失去了研究的意義。一般來說,應盡可能使用最新的統計數據。數據經審核後,確認適合於實際需要,才有必要做進一步的加工整理。[1]
數據審核的內容主要包括以下四個方面:
1.准確性審核。主要是從數據的真實性與精確性角度檢查資料,其審核的重點是檢查調查過程中所發生的誤差。[2]
2.適用性審核。主要是根據數據的用途,檢查數據解釋說明問題的程度。具體包括數據與調查主題、與目標總體的界定、與調查項目的解釋等是否匹配。[2]
3.及時性審核。主要是檢查數據是否按照規定時間報送,如未按規定時間報送,就需要檢查未及時報送的原因。[2]
4.一致性審核。主要是檢查數據在不同地區或國家、在不同的時間段是否具有可比性。[2]
數據篩選
對審核過程中發現的錯誤應盡可能予以糾正。調查結束後,當數據發現的錯誤不能予以糾正,或者有些數據不符合調查的要求而又無法彌補時,就需要對數據進行篩選。數據篩選包括兩方面的內容:一是將某些不符合要求的數據或有明顯錯誤地數據予以剔除;二是將符合某種特定條件的數據篩選出來,對不符合特定條件的數據予以剔除。數據的篩選在市場調查、經濟分析、管理決策中是十分重要的。

⑶ 預處理是什麼 包括哪兩種方法

資料庫基礎分析為什麼要進行預處理數據 收藏
做數據預處理很重要,但是如何做好數據預處理似乎是件更困難的事。。。。。

-----------------------------------------------------------------------------------------------------------------------

當今現實世界的資料庫極易受雜訊、丟失數據和不一致數據的侵擾,因為資料庫太大(常常多達數千兆位元組,甚至更多),並且多半來自多個異構數據源。低質量的數據將導致低質量的挖掘結果。「如何預處理數據提高數據質量,從而提高挖掘結果的質量?如何預處理數據,使得挖掘過程更加有效、更加容易?」

有大量數據預處理技術。數據清理可以用來去掉數據中的雜訊,糾正不一致。數據集成將數據由多個源合並成一致的數據存儲,如數據倉庫。也可以使用數據變換,如規范化。例如,規范化可以提高涉及距離度量的挖掘演算法的准確率和有效性。數據歸約可以通過聚集、刪除冗餘特徵或聚類等方法來減小數據規模。這些技術不是互斥的,可以一起使用。例如,數據清理可能涉及糾正錯誤數據的變換,如將日期欄位變換成共同的格式。這些數據處理技術在挖掘之前使用,可以顯著地提高挖掘模式的總體質量和/或減少實際挖掘所需要的時間。

介紹數據預處理的基本概念,介紹作為數據預處理基礎的描述性數據匯總。描述性數據匯總幫助我們研究數據的一般特徵、識別雜訊或離群點,對成功的數據清理和數據集成很有用。數據預處理的方法組織如下:數據清理、數據集成與變換和數據歸約。概念分層可以用作數據歸約的一種替換形式,其中低層數據(如年齡的原始值)用高層概念(如青年、中年或老年)替換。這種形式的數據歸約,在那裡我們討論使用數據離散化技術,由數值數據自動地產生概念分層。

為什麼要預處理數據

想像你是AllElectronics的經理,負責分析涉及你部門的公司銷售數據。你立即著手進行這項工作,仔細地審查公司的資料庫和數據倉庫,識別並選擇應當包含在分析中的屬性或維,如item, price和units_sold。啊!你注意到許多元組在一些屬性上沒有值。為了進行分析,希望知道每種購進的商品是否作了銷售廣告,但是發現這些信息沒有記錄下來。此外,你的資料庫系統用戶已經報告某些事務記錄中的一些錯誤、不尋常的值和不一致性。換言之,你希望

使用數據挖掘技術分析的數據是不完整的(缺少屬性值或某些感興趣的屬性,或僅包含聚集數據),含雜訊的(包含錯誤或存在偏離期望的離群值),並且是不一致的(例如,用於商品分類的部門編碼存在差異)。歡迎來到現實世界!

存在不完整的、含雜訊的和不一致的數據是現實世界大型的資料庫或數據倉庫的共同特點。不完整數據的出現可能有多種原因。有些感興趣的屬性,如銷售事務數據中顧客的信息,並非總是可用的。其他數據沒有包含在內只是因為輸入時認為是不重要的。相關數據沒有記錄可能是由於理解錯誤,或者因為設備故障。與其他記錄不一致的數據可能已經刪除。此外,記錄歷史或修改的數據可能被忽略。缺失的數據,特別是某些屬性上缺少值的元組可能需要推導出來。

數據含雜訊(具有不正確的屬性值)可能有多種原因。收集數據的設備可能出故障;人或計算機的錯誤可能在數據輸入時出現;數據傳輸中的錯誤也可能出現。這些可能是由於技術的限制,如用於數據傳輸同步的緩沖區大小的限制。不正確的數據也可能是由命名約定或所用的數據代碼不一致,或輸入欄位(如日期)的格式不一致而導致的。重復元組也需要數據清理。

數據清理常式通過填寫缺失的值、光滑雜訊數據、識別或刪除離群點並解決不一致性來「清理」數據。如果用戶認為數據是臟的,則他們不會相信這些數據的挖掘結果。此外,臟數據造成挖掘過程陷入混亂,導致不可靠的輸出。盡管大部分挖掘常式都有一些過程處理不完整或雜訊數據,但它們並非總是魯棒的。相反,它們著重於避免建模函數過分擬合數據。因此,一個有用的預處理步驟是使用一些清理常式處理數據。2.3節討論清理數據的方法。回到你在AllElectronics的任務,假定在分析中包含來自多個數據源的數據。這涉及集成48 多個資料庫、數據立方體或文件,即數據集成。代表同一概念的屬性在不同的資料庫中可能有不同的名字,這將導致不一致性和冗餘。例如,顧客標識屬性在一個資料庫中可能是customer_id,而在另一個中為cust_id。命名的不一致還可能出現在屬性值中。例如,同一個人的名字可能在一個資料庫中登記為「Bill」,在第二個資料庫中登記為「William」,而在第三個資料庫中登記為「B」。此外,你可能會覺察到,有些屬性可能是由其他屬性(例如年收入)導出的。含大量冗餘數據可能降低知識發現過程的性能或使之陷入混亂。顯然,除數據清理之外,在數據集成時必須採取步驟,避免數據冗餘。通常,在為數據倉庫准備數據時,數據清理和集成將作為預處理步驟進行。還可以再次進行數據清理,檢測和刪去可能由集成導致的冗餘。

回到你的數據,假設你決定要使用諸如神經網路、最近鄰分類法或聚類這樣的基於距離的挖掘演算法進行分析。如果待分析的數據已經規范化,即按比例映射到一個特定的區間[0.0,1.0],這些方法能得到更好的結果。例如,你的顧客數據包含年齡和年薪屬性。年薪屬性的取值范圍可能比年齡大得多。這樣,如果屬性未規范化,距離度量對年薪所取的權重一般要超過距離度量對年齡所取的權重。此外,分析得到每個客戶區域的銷售額這樣的聚集信息可能是有用的。這種信息不在你的數據倉庫的任何預計算的數據立方體中。你很快意識到,數據變換操作,如規范化和聚集,是導向挖掘過程成功的預處理過程。

隨著你進一步考慮數據,你想知道「我選擇用於分析的數據集太大了,肯定降低挖掘過程的速度。有沒有辦法壓縮我的數據集而又不損害數據挖掘的結果?」數據歸約得到數據集的簡化表示,它小得多,但能夠產生同樣的(或幾乎同樣的)分析結果。有許多數據歸約策略,包括數據聚集(例如建立數據立方體)、屬性子集選擇(例如通過相關分析去掉不相關的屬性)、維度歸約(例如使用諸如最小長度編碼或小波等編碼方案)和數值歸約(例如使用聚類或參數模型等較小的表示「替換」數據)。使用概念分層泛化也可以「歸約」數據。泛化用較高層的概念替換較低層的概念,例如,對於顧客位置,用region或49 province_or_state替換city。概念分層將概念組織在不同的抽象層。數據離散化是一種數據歸約形式,對於從數值數據自動地產生概念分層是非常有用的。

下圖總結了這里討論的數據預處理步驟。注意,上面的分類不是互斥的。例如,冗餘數據的刪除既是一種數據清理形式,也是一種數據歸約。

概言之,現實世界的數據一般是臟的、不完整的和不一致的。數據預處理技術可以改進神經網路和最近鄰分類法在第6章介紹,聚類在第7章討論。

數據的質量,從而有助於提高其後的挖掘過程的精度和性能。由於高質量的決策必然依賴於高質量的數據,因此數據預處理是知識發現過程的重要步驟。檢測數據異常、盡早地調整數據並歸約待分析的數據,將在決策過程得到高回報。

⑷ 什麼是數據預處理(在數據倉庫中的概念)

數據預處理:就是指在數據進入數據倉庫之前,對數據進行清洗轉換裝載。

⑸ 數據預處理的意義

數據預處理(datapreprocessing)是指在主要的處理以前對數據進行的一些處理。如對大部分地球物理面積性觀測數據在進行轉換或增強處理之前,首先將不規則分布的測網經過插值轉換為規則網的處理,以利於計算機的運算。另外,對於一些剖面測量數據,如地震資料預處理有垂直疊加、重排、加道頭、編輯、重新取樣、多路編輯等。

⑹ 數據預處理包括哪些內容

數據預處理沒有統一的標准,只能說是根據不同類型的分析數據和業務需求,在對數據特性做了充分的理解之後,再選擇相關的數據預處理技術。

通常來說,數據預處理涉及到——

1)數據清理

填寫空缺的值,平滑雜訊數據,識別、刪除孤立點,解決不一致性

2)數據集成

集成多個資料庫、數據立方體或文件

3)數據變換

規范化和聚集

4)數據歸約

得到數據集的壓縮表示,它小得多,但可以得到相同或相近的結果

5)數據離散化

數據歸約的一部分,通過概念分層和數據的離散化來規約數據,對數字型數據特別重要。

⑺ 數據預處理主要針對哪些數據

數據預處理一方面是為了提高數據的質量,另一方面也是為了適應所做數據分析的軟體或者方法。一般來說,數據預處理步驟有數據清洗、數據集成、數據變換、數據規約,每個大步驟又有一些小的細分點。當然了,這四個大步驟在做數據預處理時未必都要執行。

一、數據清洗

數據清洗,顧名思義,「黑」的變成「白」的,「臟」的數據變成「干凈」的,臟數據表現在形式上和內容上的臟。

形式上的臟,如:缺失值、帶有特殊符號的;
內容上的臟,如:異常值。
缺失值包括缺失值的識別和缺失值的處理。

在R里缺失值的識別使用函數is.na()判別,函數complete.cases()識別樣本數據是否完整。

缺失值處理常用的方法有:刪除、替換和插補。

刪除法 :刪除法根據刪除的不同角度又可以分為刪除觀測樣本和變數,刪除觀測樣本(行刪除法),在R里na.omit()函數可以刪除所含缺失值的行。這就相當於減少樣本量來換取信息的完整度,但當變數有較大缺失並且對研究目標影響不大時,可考慮刪除變數R里使用語句mydata[,-p]來完成。mydata表示所刪數據集的名字,p是該刪除變數的列數,-表示刪除。
替換法 :替換法顧名思義對缺失值進行替換,根據變數的不同又有不同的替換規則,缺失值的所在變數是數值型用該變數下其他數的均值來替換缺失值;變數為非數值變數時則用該變數下其他觀測值的中位數或眾數替換。
插補法 :插補法分為回歸插補和多重插補。回歸插補指的是將插補的變數當作因變數y,其他變數看錯自變數,利用回歸模型進行擬合,在R里使用lm()回歸函數對缺失值進行插補;多重插補是指從一個包含缺失值的數據集中生成一組完整的數據,多次進行,產生缺失值的一個隨機樣本,在R里mice()包可以進行多重插補。
異常值跟缺失值一樣包括異常值的識別和異常值的處理。

異常值的識別通常用單變數散點圖或箱形圖來處理,在R里dotchart()是繪制單變數散點圖的函數,boxplot()函數繪制箱現圖;在圖形中,把遠離正常范圍的點當作異常值。
異常值的的處理有刪除含有異常值的觀測(直接刪除,當樣本少時直接刪除會造成樣本量不足,改變變數的分布)、當作缺失值(利用現有的信息,對其當缺失值填補)、平均值修正(用前後兩個觀測值的均值修正該異常值)、不處理。在進行異常值處理時要先復習異常值出現的可能原因,再判斷異常值是否應該舍棄。

⑻ jsp資料庫操作時,使用預處理語句的好處是什麼請詳細闡述。

預處理語句PreparedStatement會將傳入的SQL命令封裝在PreparedStatement對象中,事先進行預編譯處理等待使用。
當有單一的SQL語句多次執行時,用PreparedStatement類會比Statement類更有效率。

⑼ 數據預處理的原理

數據預處理(data preprocessing)是指在主要的處理以前對數據進行的一些處理。如對大部分地球物理面積性觀測數據在進行轉換或增強處理之前,首先將不規則分布的測網經過插值轉換為規則網的處理,以利於計算機的運算。另外,對於一些剖面測量數據,如地震資料預處理有垂直疊加、重排、加道頭、編輯、重新取樣、多路編輯等。

中文名
數據預處理
外文名
data preprocessing
定義
主要的處理以前對數據進行處理
方法
數據清理,數據集成,數據變換等
目標
格式標准化,異常數據清除
快速
導航
預處理內容

方法
基本介紹
現實世界中數據大體上都是不完整,不一致的臟數據,無法直接進行數據挖掘,或挖掘結果差強人意。為了提高數據挖掘的質量產生了數據預處理技術。 數據預處理有多種方法:數據清理,數據集成,數據變換,數據歸約等。這些數據處理技術在數據挖掘之前使用,大大提高了數據挖掘模式的質量,降低實際挖掘所需要的時間。
數據的預處理是指對所收集數據進行分類或分組前所做的審核、篩選、排序等必要的處理。[1]
預處理內容
數據審核
從不同渠道取得的統計數據,在審核的內容和方法上有所不同。[1]
對於原始數據應主要從完整性和准確性兩個方面去審核。完整性審核主要是檢查應調查的單位或個體是否有遺漏,所有的調查項目或指標是否填寫齊全。准確性審核主要是包括兩個方面:一是檢查數據資料是否真實地反映了客觀實際情況,內容是否符合實際;二是檢查數據是否有錯誤,計算是否正確等。審核數據准確性的方法主要有邏輯檢查和計算檢查。邏輯檢查主要是審核數據是否符合邏輯,內容是否合理,各項目或數字之間有無相互矛盾的現象,此方法主要適合對定性(品質)數據的審核。計算檢查是檢查調查表中的各項數據在計算結果和計算方法上有無錯誤,主要用於對定量(數值型)數據的審核。[1]
對於通過其他渠道取得的二手資料,除了對其完整性和准確性進行審核外,還應該著重審核數據的適用性和時效性。二手資料可以來自多種渠道,有些數據可能是為特定目的通過專門調查而獲得的,或者是已經按照特定目的需要做了加工處理。對於使用者來說,首先應該弄清楚數據的來源、數據的口徑以及有關的背景資料,以便確定這些資料是否符合自己分析研究的需要,是否需要重新加工整理等,不能盲目生搬硬套。此外,還要對數據的時效性進行審核,對於有些時效性較強的問題,如果取得的數據過於滯後,可能失去了研究的意義。一般來說,應盡可能使用最新的統計數據。數據經審核後,確認適合於實際需要,才有必要做進一步的加工整理。[1]
數據審核的內容主要包括以下四個方面:
1.准確性審核。主要是從數據的真實性與精確性角度檢查資料,其審核的重點是檢查調查過程中所發生的誤差。[2]
2.適用性審核。主要是根據數據的用途,檢查數據解釋說明問題的程度。具體包括數據與調查主題、與目標總體的界定、與調查項目的解釋等是否匹配。[2]
3.及時性審核。主要是檢查數據是否按照規定時間報送,如未按規定時間報送,就需要檢查未及時報送的原因。[2]
4.一致性審核。主要是檢查數據在不同地區或國家、在不同的時間段是否具有可比性。[2]
數據篩選
對審核過程中發現的錯誤應盡可能予以糾正。調查結束後,當數據發現的錯誤不能予以糾正,或者有些數據不符合調查的要求而又無法彌補時,就需要對數據進行篩選。數據篩選包括兩方面的內容:一是將某些不符合要求的數據或有明顯錯誤地數據予以剔除;二是將符合某種特定條件的數據篩選出來,對不符合特定條件的數據予以剔除。數據的篩選在市場調查、經濟分析、管理決策中是十分重要的。[1]
數據排序
數據排序是按照一定順序將數據排列,以便於研究者通過瀏覽數據發現一些明顯的特徵或趨勢,找到解決問題的線索。除此之外,排序還有助於對數據檢查糾錯,為重新歸類或分組等提供依據。在某些場合,排序本身就是分析的目的之一。排序可藉助於計算機很容易的完成。[1]
對於分類數據,如果是字母型數據,排序有升序與降序之分,但習慣上升序使用得更為普遍,因為升序與字母的自然排列相同;如果是漢字型數據,排序方式有很多,比如按漢字的首位拼音字母排列,這與字母型數據的排序完全一樣,也可按筆畫排序,其中也有筆畫多少的升序降序之分。交替運用不同方式排序,在漢字型數據的檢查糾錯過程中十分有用。[1]
對於數值型數據,排序只有兩種,即遞增和遞減。排序後的數據也稱為順序統計量。[1]
方法
數據清理
數據清理常式通過填寫缺失的值、光滑雜訊數據、識別或刪除離群點並解決不一致性來「清理」數據。主要是達到如下目標:格式標准化,異常數據清除,錯誤糾正,重復數據的清除。
數據集成
數據集成常式將多個數據源中的數據結合起來並統一存儲,建立數據倉庫的過程實際上就是數據集成。
數據變換
通過平滑聚集,數據概化,規范化等方式將數據轉換成適用於數據挖掘的形式。
數據歸約
數據挖掘時往往數據量非常大,在少量數據上進行挖掘分析需要很長的時間,數據歸約技術可以用來得到數據集的歸約表示,它小得多,但仍然接近於保持原數據的完整性,並結果與歸約前結果相同或幾乎相同。
數據預處理[3] 是數據挖掘一個熱門的研究方面,畢竟這是由數據預處理的產生背景所決定的--現實世界中的數據幾乎都臟數據。
參考資料
[1] -李衛東主編 .應用統計學 .北京:清華大學出版社,2014:55-56
[2] 熊俊順著.統計學教程 第3版 .杭州:浙江大學出版社,2014:31-32
[3] 數據預處理的方法.中國網路網 [引用日期2014-03-27]

⑽ 資料庫的特點有哪些

特點資料庫管理系統將具有一定結構的數據組成一個集合,它主要具有以下幾個特點:1. 數據的結構化資料庫中的數據並不是雜亂無章、毫不相乾的,它們具有一定的組織結構,屬於同一集合的數據具有相似的特徵。2. 數據的共享性在一個單位的各個部門之間,存在著大量的重復信息。使用資料庫的目的就是要統一管理這些信息,減少冗餘度,使各個部門共同享有相同的數據。3. 數據的獨立性數據的獨立性是指數據記錄和數據管理軟體之間的獨立。數據及其結構應具有獨立性,而不應該去改變應用程序。4. 數據的完整性數據的完整性是指保證資料庫中數據的正確性。可能造成數據不正確的原因很多,資料庫管理系統通過對數據性質進行檢查而管理它們。5. 數據的靈活性資料庫管理系統不是把數據簡單堆積,它在記錄數據信息的基礎上具有很多的管理功能,如輸入、輸出、查詢、編輯修改等。6. 數據的安全性根據用戶的職責,不同級別的人對資料庫具有不同的許可權,資料庫管理系統應該確保數據的安全性。