⑴ 哪些企業中使用資料庫,數據倉庫,數據挖掘技術
開源的資料庫不少,公司內部使用的話,看你的實際需求,如果結構比較簡單,數據量不大的,從網上下載個mysql和對應的管理工具就行。如果稍復雜的,就用大型的關系型資料庫吧,如oracle、SQL
SERVER等等。
⑵ 大數據之後的發展
大數據領域已經涌現出了大量新的技術,它們成為大數據採集、存儲、處理和呈現的有力武器。這些技術下一步將如何發展?它們之中哪些技術將廣為流行?又會誕生哪些新的技術?
數據分析集逐步擴大,企業級數據倉庫將成為主流,未來還將逐步納入行業數據、政府公開數據等多來源數據
當人們從大數據分析中嘗到甜頭以後,數據分析集就會逐步擴大。目前大部分的企業所分析的數據量一般以TB為單位。按照目前數據的發展速度,很快將會進入PB時代。特別是目前在100-500TB和500+TB范圍的分析數據集的數量會呈3倍或4倍增長。
隨著數據分析集的擴大,以前部門層級的數據集市將不能滿足大數據分析的需求,它們將成為企業級資料庫(EDW)的一個子集。根據TDWI的調查,如今大概有2/3的用戶已經在使用企業級數據倉庫,未來這一佔比將會更高。傳統分析資料庫可以正常持續,但是會有一些變化,一方面,數據集市和操作性數據存儲(ODS)的數量會減少,另一方面,傳統的資料庫廠商會提升它們產品的數據容量,細目數據和數據類型,以滿足大數據分析的需要。
因此,企業內的數據分析將從部門級過渡到企業級,從面向部門需求轉向面向企業需求,從而也必將獲得比部門視角更大的益處。
需要指出的是,隨著政府和行業數據的開放,更多的外部數據將進入企業級數據倉庫,使得數據倉庫規模更大,數據的價值也越大。
⑶ 數據分析怎麼核對生成的百萬數據的正確性
百萬級的數據,無論側重OLTP還是OLAP,當然就是MySql了。
過億級的數據,側重OLTP可以繼續Mysql,側重OLAP,就要分場景考慮了。
實時計算場景:強調實時性,常用於實時性要求較高的地方,可以選擇Storm;
批處理計算場景:強調批處理,常用於數據挖掘、分析,可以選擇Hadoop;
實時查詢場景:強調查詢實時響應,常用於把DB里的數據轉化索引文件,通過搜索引擎來查詢,可以選擇solr/elasticsearch;
企業級ODS/EDW/數據集市場景:強調基於關系性資料庫的大數據實時分析,常用於業務數據集成,可以選擇Greenplum;
資料庫系統一般分為兩種類型:
一種是面向前台應用的,應用比較簡單,但是重吞吐和高並發的OLTP類型;
一種是重計算的,對大數據集進行統計分析的OLAP類型。
⑷ 大數據從百萬級別數據的分析角度,資料庫如何選擇哪位大大告訴yunmar下,謝謝!!
百萬級的數據,無論側重OLTP還是OLAP,當然就是MySql了。
過億級的數據,側重OLTP可以繼續Mysql,側重OLAP,就要分場景考慮了。
實時計算場景:強調實時性,常用於實時性要求較高的地方,可以選擇Storm;
批處理計算場景:強調批處理,常用於數據挖掘、分析,可以選擇Hadoop;
實時查詢場景:強調查詢實時響應,常用於把DB里的數據轉化索引文件,通過搜索引擎來查詢,可以選擇solr/elasticsearch;
企業級ODS/EDW/數據集市場景:強調基於關系性資料庫的大數據實時分析,常用於業務數據集成,可以選擇Greenplum;
資料庫系統一般分為兩種類型:
一種是面向前台應用的,應用比較簡單,但是重吞吐和高並發的OLTP類型;
一種是重計算的,對大數據集進行統計分析的OLAP類型。
傳統資料庫側重交易處理,即OLTP,關注的是多用戶的同時的雙向操作,在保障即時性的要求下,系統通過內存來處理數據的分配、讀寫等操作,存在IO瓶頸。
OLTP(On-Line Transaction Processing,聯機事務處理)系統也稱為生產系統,它是事件驅動的、面向應用的,比如電子商務網站的交易系統就是一個典型的OLTP系統。
OLTP的基本特點是:
數據在系統中產生;
基於交易的處理系統(Transaction-Based);
每次交易牽涉的數據量很小;
對響應時間要求非常高;
用戶數量非常龐大,主要是操作人員;
資料庫的各種操作主要基於索引進行。
分析型資料庫是以實時多維分析技術作為基礎,即側重OLAP,對數據進行多角度的模擬和歸納,從而得出數據中所包含的信息和知識。
OLAP(On-Line Analytical Processing,聯機分析處理)是基於數據倉庫的信息分析處理過程,是數據倉庫的用戶介面部分。OLAP系統是跨部門的、面向主題的,其基本特點是:
本身不產生數據,其基礎數據來源於生產系統中的操作數據(OperationalData);
基於查詢的分析系統;
復雜查詢經常使用多表聯結、全表掃描等,牽涉的數據量往往十分龐大;
響應時間與具體查詢有很大關系;
用戶數量相對較小,其用戶主要是業務人員與管理人員;
⑸ mybatis獲取一個list怎麼添加到資料庫里
思路為採用Oracle中insert語句的高級用法:INSERT ALL ,批量插入數據:
INSERT ALL舉例:
1、建測試表
CREATETABLEEDW_INT
(
AGMT_NOVARCHAR2(40BYTE)NOTNULL,
AGMT_SUB_NOVARCHAR2(4BYTE)NOTNULL,
NEED_REPAY_INTNUMBER(22,2),
CURR_PERIODNUMBER(4)NOTNULL
);
CREATETABLEEDW_INT_1
(
AGMT_NOVARCHAR2(40BYTE)NOTNULL,
AGMT_SUB_NOVARCHAR2(4BYTE)NOTNULL,
NEED_REPAY_INTNUMBER(22,2),
CURR_PERIODNUMBER(4)NOTNULL
);
CREATETABLEEDW_INT_2
(
AGMT_NOVARCHAR2(40BYTE)NOTNULL,
AGMT_SUB_NOVARCHAR2(4BYTE)NOTNULL,
NEED_REPAY_INTNUMBER(22,2),
CURR_PERIODNUMBER(4)NOTNULL
);
2.插入測試數據
INSERTINTOEDW_INT
(AGMT_NO,AGMT_SUB_NO,NEED_REPAY_INT,CURR_PERIOD)
VALUES
('20003874','2104',3126.5,7);
INSERTINTOEDW_INT
(AGMT_NO,AGMT_SUB_NO,NEED_REPAY_INT,CURR_PERIOD)
VALUES
('20003874','2104',3290.76,6);
INSERTINTOEDW_INT
(AGMT_NO,AGMT_SUB_NO,NEED_REPAY_INT,CURR_PERIOD)
VALUES
('20003874','2104',3454.06,5);
INSERTINTOEDW_INT
(AGMT_NO,AGMT_SUB_NO,NEED_REPAY_INT,CURR_PERIOD)
VALUES
('20003874','2104',3616.41,4);
INSERTINTOEDW_INT
(AGMT_NO,AGMT_SUB_NO,NEED_REPAY_INT,CURR_PERIOD)
VALUES
('20017143','2104',2350.86,0);
INSERTINTOEDW_INT
(AGMT_NO,AGMT_SUB_NO,NEED_REPAY_INT,CURR_PERIOD)
VALUES
('20017143','2104',3566.55,0);
INSERTINTOEDW_INT
(AGMT_NO,AGMT_SUB_NO,NEED_REPAY_INT,CURR_PERIOD)
VALUES
('20018273','2104',1639.46,0);
INSERTINTOEDW_INT
(AGMT_NO,AGMT_SUB_NO,NEED_REPAY_INT,CURR_PERIOD)
VALUES
('20018273','2104',2080.49,0);
COMMIT;
3.insert all-不帶條件
insertall
intoedw_int_1(agmt_no,agmt_sub_no,need_repay_int,curr_period)
values(agmt_no,agmt_sub_no,need_repay_int,curr_period)
intoedw_int_2(agmt_no,agmt_sub_no,curr_period)
values(agmt_no,'1234',curr_period)
selectagmt_no,agmt_sub_no,need_repay_int,curr_periodfromedw_int;
commit;
結合該問題具體分析:
mybatis 的和相關的sql寫法如下:
<insertid="batchSave">
INSERTALL
<foreachcollection="list"item="item">
INTOFSP_BUSINESS_INTEREST_REPORT
(
ID,
BUSINESS_DAY,
LOAN_NO,
CIF_NO,
CIF_NAME,
LOAN_TYPE,
REPAY_WAY,
TERM_TYPE,
VOUCH_WAY,
CHANNEL_TYPE,
LOAN_BEGIN_DATE,
LOAN_END_DATE,
RATE_BEGIN_DATE,
RATE_END_DATE,
AMT,
RATE_TYPE,
RATE,
RATE_AMT,
PAY_TYPE,
REPORT_OUT_FLAG,
REPORT_OUT_DATE,
REPORT_OUT_AMT,
CREATOR,
CREATE_TIME,
UPDATOR,
UPDATE_TIME
)VALUES(
getSeqByName('SEQ_FSP_BUS_INT_REPORT'),
#{businessDay,jdbcType=VARCHAR},
#{loanNo,jdbcType=VARCHAR},
#{cifNo,jdbcType=VARCHAR},
#{cifName,jdbcType=VARCHAR},
#{loanType,jdbcType=VARCHAR},
#{repayWay,jdbcType=VARCHAR},
#{termType,jdbcType=VARCHAR},
#{vouchWay,jdbcType=VARCHAR},
#{channelType,jdbcType=VARCHAR},
#{loanBeginDate,jdbcType=DATE},
#{loanEndDate,jdbcType=DATE},
#{rateBeginDate,jdbcType=DATE},
#{rateEndDate,jdbcType=DATE},
#{amt,jdbcType=NUMERIC},
#{rateType,jdbcType=VARCHAR},
#{rate,jdbcType=NUMERIC},
#{rateAmt,jdbcType=NUMERIC},
#{payType,jdbcType=VARCHAR},
#{reportOutFlag,jdbcType=VARCHAR},
#{reportOutDate,jdbcType=DATE},
#{reportOutAmt,jdbcType=NUMERIC},
#{creator,jdbcType=VARCHAR},
#{createTime,jdbcType=DATE},
#{updator,jdbcType=VARCHAR},
#{updateTime,jdbcType=DATE}
)
</foreach>
SELECT1FROMDUAL
</insert>
2.中介面如下定義:
voidbatchSave(@Param("list")List<BusinessInterestReport>list);
⑹ 淺談數據挖掘與數據倉庫
淺談數據挖掘與數據倉庫
1數據挖掘
1.1數據挖掘與傳統數據分析的區別
數據挖掘與傳統的數據分析,如查詢、報表、聯機應用分析的本質區別是數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識。數據挖掘所得到的信息應具有先前未知、有效和實用三個特徵。即數據挖掘是要發現那些不能靠直覺發現的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越出乎意料就可能越有價值。而傳統的數據分析趨勢為從大型資料庫抓取所需數據並使用專屬計算機分析軟體。因此數據挖掘與傳統分析方法有很大的不同。
1.2數據挖掘的應用價值
(1)分類:首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分類模型,對於沒有分類的數據進行分類。(2)估計:與分類類似,不同之處在於,分類描述的是離散型變數的輸出,而估值處理連續值的輸出;分類是確定數目的,估計是不確定的。(3)聚類:是對記錄分組。聚類和分類的區別是聚集不依賴於預先定義好的類,不需要訓練集。中國移動採用先進的數據挖掘工具馬克威分析系統,對用戶wap上網的行為進行聚類分析,通過客戶分群,進行精確營銷。(4)關聯規則和序列模式的發現:關聯是某種事物發生時其他事物會發生的這樣一種聯系。例如:每天購買啤酒的人也有可能購買香煙,比重有多大,可以通過關聯的支持度和可信度來描述。與關聯不同,序列是一種縱向的聯系。例如:今天銀行調整利率,明天股市的變化。(5)預測:通過分類或估值得出模型,該模型用於對未知變數的預言。(6)偏差的檢測:對分析對象的少數的、極端的特例的描述,揭示內在的原因。除此之外,在客戶分析,運籌和企業資源的優化,異常檢測,企業分析模型的管理的方面都有廣泛使用價值。
2數據倉庫
2.1數據倉庫的特徵
(1)面向主題(Subject Oriented)的數據集合。數據倉庫圍繞一些主題如顧客、供應商、產品和銷售來組織。數據倉庫關注決策者的數據建模與分析,而不是組織機構的日常操作和事務處理。(2)集成(Integrated)的數據集合。數據倉庫中的數據是在對原有分散的資料庫數據抽取、清理的基礎上經過系統加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關於整個企業的一致的全局信息。(3)時變(Time Variant)的數據集合。數據存儲從歷史的角度提供信息。數據倉庫中的數據通常包含歷史信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。(4)非易失(Nonvolatile)的數據集合。數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,修改和刪除操作很少,通常只需要定期的載入、刷新。數據倉庫里的數據通常只需要兩種操作:初始化載入和數據訪問,因此其數據相對穩定,極少或根本不更新。[page] 2.2數據倉庫的類型
數據倉庫的類型根據數據倉庫所管理的數據類型和它們所解決的企業問題范圍,一般可將數據倉庫分為下列3種類型:企業數據倉庫(EDW)、操作型資料庫(ODS)和數據集市(Data Marts)。①企業數據倉庫為通用數據倉庫,它既含有大量詳細的數據,也含有大量累贅的或聚集的數據,這些數據具有不易改變性和面向歷史性。此種數據倉庫被用來進行涵蓋多種企業領域上的戰略或戰術上的決策。②操作型資料庫既可以被用來針對工作數據做決策支持,又可用做將數據載入到數據倉庫時的過渡區域。與EDW相比,ODS是面向主題和面向綜合的,易變的,僅含有目前的、詳細的數據,不含有累計的、歷史性的數據。③數據集市是為了特定的應用目的或應用范圍,而從數據倉庫中獨立出來的一部分數據,也可稱為部門數據或主題數據。幾組數據集市可以組成一個EDW。
2.3數據倉庫與傳統資料庫的比較
二者的聯系既有聯系又有區別。數據倉庫的出現,並不是要取代資料庫。目前,大部分數據倉庫還是用關系資料庫管理系統來管理的。可以說,資料庫、數據倉庫相輔相成、各有千秋。二者的區別可以從以下幾個方面進行比較:
(1)出發點不同:資料庫是面向事務的設計;數據倉庫是面向主題設計的。(2)存儲的數據不同:資料庫一般存儲在線交易數據;數據倉庫存儲的一般是歷史數據。(3)設計規則不同:資料庫設計是盡量避免冗餘,一般採用符合範式的規則來設計;數據倉庫在設計是有意引入冗餘,採用反範式的方式來設計。(4)提供的功能不同:資料庫是為捕獲數據而設計,數據倉庫是為分析數據而設計。(5)基本元素不同:資料庫的基本元素是事實表,數據倉庫的基本元素是維度表。(6)容量不同:資料庫在基本容量上要比數據倉庫小的多。(7)服務對象不同:資料庫是為了高效的事務處理而設計的,服務對象為企業業務處理方面的工作人員;數據倉庫是為了分析數據進行決策而設計的,服務對象為企業高層決策人員。
3數據倉庫與數據挖掘的關系
當然為了數據挖掘你也不必非得建立一個數據倉庫,數據倉庫不是必需的。建立一個巨大的數據倉庫,把各個不同源的數據統一在一起,解決所有的數據沖突問題,然後把所有的數據導到一個數據倉庫內,是一項巨大的工程,可能要用幾年的時間花上百萬的錢才能完成。只是為了數據挖掘,你可以把一個或幾個事務資料庫導到一個只讀的資料庫中,就把它當作數據集市,然後在他上面進行數據挖掘。
⑺ 大數據倉儲系統是什麼
什麼才是大數據
大數據相關的技術和工具非常多,給企業提供了很多的選擇。在未來,還會繼續出現新的技術和工具,如Hadoop分發、下一代數據倉庫等,這也是大數據領域的創新熱點。但是什麼才是大數據可能很多人會認為數據量大就是大數據,其實不然所謂大數據是結合數據的條數+單個數據文件的大小綜合衡量得出,而這其中則包括如何快速精準定位到單條數據和快速傳輸數據等多項相關技術。
那麼我們企業到底該選用什麼技術?才能保證我們的系統或者軟體擺脫大數據的瓶頸呢?
可能大家都知道TDWI(數據倉庫研究所)對現有的大部分技術和工具進行了調查,以現在及未來三年內企業接受度和增長率兩個維度進行劃分,這些技術和工具可分成四類。
從中分析得出企業最需要關注的是第1類中的技術和工具,它們最有可能成為最佳的實施工具,有很多人認為這代表了大數據技術的發展方向。我們認為這是一個誤區。
對於我們真實使用及使用過程中,只有基於雲的數據分析及分布式平台進行數據處理才能趨於完善。
很多企業越來越希望能將自己的各類應用程序及基礎設施轉移到雲平台上。就像其他IT系統那樣,大數據的分析工具和資料庫也將走向雲計算。雲計算不單單是硬體的疊加,它必須結合分布式內核調用和內存計算,同時如果你想更快速的定位那就需要將演算法遷入其中。
雲計算能為大數據帶來哪些變化呢?
首先雲計算為大數據提供了可以彈性擴展、相對便宜的存儲空間和計算資源(請記住這不單單說的是硬體的疊加,我們的要考慮的是軟體層面的控制和管理,線程池/內存鎖/域空間/層級都是必可少的考慮因素),使得中小企業也可以像亞馬遜一樣通過雲計算來完成大數據分析。
其次,雲計算IT資源龐大、分布較為廣泛,是異構系統較多的企業及時准確處理數據的有力方式,甚至是唯一的方式。(此時的傳輸效率就會成為我們應該去考慮的問題,量子數據傳輸系統為我么提供了非常好的解決方案)
當然,大數據要走向雲計算,還有賴於數據通信帶寬的提高和雲資源池的建設,需要確保原始數據能遷移到雲環境以及資源池可以隨需彈性擴展。
數據分析集逐步擴大,企業級數據倉庫將成為主流如現有的NOSQL,內存性資料庫等,更加便宜和迅速,成為企業業務經營的好助手,甚至可以改變許多行業的經營方式。
輿情早報網大數據的商業模式與架構
我們不得不承認雲計算及其分布式結構是重要途徑大數據處理技術正在改變目前計算機的運行模式,正在改變著這個世界:它能處理幾乎各種類型的海量數據,無論是微博、文章、電子郵件、文檔、音頻、視頻,還是其它形態的數據;它工作的速度非常快速:實際上幾乎實時;它具有普及性:因為它所用的都是最普通低成本的硬體,而雲計算它將計算任務分布在大量計算機構成的資源池上,使用戶能夠按需獲取計算力、存儲空間和信息服務。雲計算及其技術給了人們廉價獲取巨量計算和存儲的能力,雲計算分布式架構能夠很好地支持大數據存儲和處理需求。這樣的低成本硬體+低成本軟體+低成本運維,更加經濟和實用,使得大數據處理和利用成為可能。但這只是從投入來說我們可以有更多的彈性。
大數據的存儲和管理----雲資料庫的必然
很多人認為NoSQL就是雲資料庫,因為其處理數據的模式完全是分布於各種低成本伺服器和存儲磁碟,因此它可以幫助網頁和各種交互性應用快速處理過程中的海量數據。
它採用分布式技術結合了一系列技術,可以對海量數據進行實時分析,滿足了大數據環境下一部分業務需求。
但我說這是一個錯誤,至少不是完整的,不能或無法徹底解決大數據存儲管理需求。不可否認雲計算對關系型資料庫的發展將產生巨大的影響,而絕大多數大型業務系統(如銀行、證券交易等)、電子商務系統所使用的資料庫還是基於關系型的資料庫,隨著雲計算的大量應用,勢必對這些系統的構建產生影響,進而影響整個業務系統及電子商務技術的發展和系統的運行模式。
而基於關系型資料庫服務的雲資料庫產品將是雲資料庫的主要發展方向,雲資料庫(CiiDB),提供了海量數據的並行處理能力和良好的可伸縮性等特性,提供同時支持在在線分析處理( CRD)和在線事務處理(CRD) 能力,提供了超強性能的資料庫雲服務,並成為集群環境和雲計算環境的理想平台。它是一個高度可擴展、安全和可容錯的軟體系統,客戶能通過整合降低IT成本,管理位於多個數據,提高所有應用程序的性能和實時性做出更好的業務決策服務。
我們認為CII分布式結構粒度數據結構數據倉庫才是大數據處理的未來。它包含量子數據傳輸系統(有效解決數據傳輸的瓶頸)/高效壓縮系統(壓縮比例128:1)/雲智能粒度層級分布式系統。
當人們從大數據分析中嘗到甜頭以後,數據分析集就會逐步擴大。目前大部分的企業所分析的數據量一般以TB為單位。按照目前數據的發展速度,很快將會進入PB時代。特別是目前在100-500TB和500+TB范圍的分析數據集的數量會呈3倍或4倍增長。
隨著數據分析集的擴大,以前部門層級的數據集市將不能滿足大數據分析的需求,它們將成為企業級資料庫(EDW)的一個子集。有一部分用戶已經在使用企業級數據倉庫,未來這一佔比將會更高。傳統分析資料庫可以正常持續,但是會有一些變化,一方面,數據集市和操作性數據存儲(ODS)的數量會減少,另一方面,傳統的資料庫廠商會提升它們產品的數據容量,細目數據和數據類型,以滿足大數據分析的需要。
這就是我們所說的分布式結構粒度數據結構數據倉庫,而如何做好大數據處理,輿情早報網已經做到了。
⑻ 為什麼企業需要數據倉庫
在日益激烈的商業競爭中,企業迫切需要更加准確的戰略決策信息。在以往的操作型資料庫系統中,企業擁有海量的數據,並不缺乏足夠的信息,而是因為這些數據不是戰略決策要使用的信息。這些大量的數據對於企業的運作是非常有用的,但是對於商業戰略決策和目標制定的作用甚微。但是信息技術資源和操作型資料庫系統不能把這些數據轉換為企業真正需要的決策信息。為什麼呢?首先,企業數據分散在多種互不兼容的的結構和系統中,導致數據很難被整合成需要的決策信息;其次,戰略決策所需的數據格式必須適合趨勢分析,但操作型數據是由事件驅動的,不能直接反映趨勢的變化;再次,對於戰略決策來說,決策者必須從不同的商業角度觀察數據,比如說產品、地區、客戶群等不同方面觀察數據,操作型數據不適合從不同的角度進行分析。 提供戰略決策信息需要大量的企業數據,能夠以合適的格式存放並能快速檢索。 隨著計算機技術的快速發展,存儲成本迅速降低和計算能力大大提高,使建立數據倉庫成為可能。
⑼ 大數據為生命周期管理帶來挑戰
大數據為生命周期管理帶來挑戰
無論數據的規模和類型是什麼,它們必須要在生命周期中接受管理,即便管理工具並不成熟也必須如此。
伴隨著大數據的出現,整合的生命周期管理(Integrated Lifecycle Management,簡稱為ILM)遇到了一個全新的領域。核心挑戰來自三個方面:首先大數據的規模沒有上限,其次許多新數據的生命周期都極為短暫,再次由於數據或多或少具有大數據的3V特徵(數據規模大、處理速度快和數據種類繁多)因而難以保持始終如一的品質。
以上這些是我從Loraine Lawson所寫的文章中總結出來的。她的觀點與我對這一問題的總體看法基本一致。但是我並不認同她關於「與小型數據分析環境相比,ILM對於大數據環境來說更為重要」的說法。無論是以前,還是進入到了大數據時代,讓所有的商業數據資產處於安全、可控和受管理的狀態都同等重要,它們之間的重要性沒有發生絲毫的改變。
它們之間的不同之處在於,在大數據環境中,由於以下幾個方面正在迅速發生變化,使得全面的ILM越來越難以確保數據資產處於安全、可控和受管理的狀態之下。
■新的大數據平台:除了MPP 關系型資料庫系統、縱列資料庫、多維資料庫外, Hadoop、NoSQL、內存資料庫、圖形資料庫等新的技術平台逐漸在企業計算環境中發揮越來越重要的作用。現有的ILM工具幾乎不可能支持這些新的平台。同時,為了能夠在公有雲上處理大數據,你可能需要使用由服務提供商提供的ILM功能。為了降低在新環境中的風險,以及維護核心數據的高度可信性,你需要仔細測試新的大數據平台,以確保它們具備ILM功能(數據安全、管理、歸檔和保留),以及這些功能是否與你計劃賦予它們的角色相對應。
■新的大數據主題域:大數據並沒有改變企業對存儲和管理辦公系統(例如客戶、財務和人力資源等)記錄的數據管理樞紐的需求。這些是現有企業級數據倉庫(EDW)的功能。目前大部分EDW是運行在傳統的基於關系型資料庫系統的數據平台上,並集成有功能強大的ILM。不過,這些記錄數據域系統可能無法在最新的大數據平台上運行,因為許多平台已經將重點放在了處理由社交、事件、感測器、點擊流、地理空間,以及其他新來源所產生的新數據之上。然而,這些新的數據域通常生命周期都非常短。從這個意義上說,我們可能不需要將其中的大部分數據保存在永久性記錄系統中。
■新的大數據擴展:大數據並不意味著你的新平台能夠支持無限大的容量、極高的速度或無數的數據種類。由於受到技術上和經濟上的束縛,新數據的龐大規模導致它們不可能被隨意存儲在任何地方。這一現實將迫使大數據管理人員將更多的精力放在調整多溫度存儲管理、歸檔和保留策略上。隨著大數據環境的擴展,你需要確保ILM需求不超過現有容量(存儲容量)、速度(帶寬、管理器和存儲速度)和類型(元數據深度)所能支持的范圍。
此外,我還與一些專家進行了探討。這些專家認為,除非我們真的想刪除數據,否則大數據革命可使我們無需刪除任何數據。目前大數據看起來似乎將持續以指數級速度增長,並且大數據平台的成本似乎也將持續大幅下降,但是我對大數據雲的執行和管理將跌至接近零成本的觀點存在嚴重懷疑。
如果我的預感正確,那麼我們將無法阻止大數據源源不斷的涌到雲上——即便我們想阻止也無能為力。幸運的是,生命周期管理能夠為無用數據劃上一個終點,而這正是我們將ILM擺在需求第一位的關鍵原因。