大數據存儲處理器_什麼是大數據存儲

A. 大數據時代需要什麼樣的存儲

眾多專家認為，大數據時代的存儲，應當是分布式的存儲，並呈現出與計算融合的趨勢。當然，不同專家對融合的理解也有所區別。 SNIA-China技術委員會主席雷濤表示，在當前的大數據時代，由於數據量TB、PB級的急劇膨脹，傳統的數據搬移工作已經不現實，因而存儲伺服器出現新的融合趨勢。在這樣的架構中，數據不再移動，寫入以後分散在STORAGE，它的計算節點融合在數據旁邊的CPU，數據越來越貼近計算。雷濤補充說，大數據只談商業分析的數據支持，這是小數據思維，從金融、運營商、政府行業我們做的項目裡面發現，大數據是嵌入到整個行業裡面，替換以前的存儲和計算的系統架構的過程。華為存儲產品線Marketing部長經寧認為，大數據帶來的三大變化，包括從集中式走向分布式，從水平走向縱向，從計算為中心轉向以數據為中心，總結一句話，即在大數據下架構方向走向分布式存儲的架構。 2013年，華為存儲產品線把理念進行升級，變成「存以致用，融以致遠」。經寧表示，融合架構是我們面對大數據挑戰一個很好的選擇。華為更多的希望把數據智能用起來產生價值，通過融合架構實現計算存儲融合，可以帶來更高的管理效率更高效能，大大降低我們管理上的開銷。中橋國際調研咨詢公司首席分析師王叢女士則從虛擬化、雲計算數據保護和融合架構三個維度談了中國數據中心的發展變化。她表示，具有高可移動性的虛擬機用於生產，掉了鏈子就很難判斷是哪個物理環境，這就驅動了融合架構。融合架構避免了整合的時間和網路問題判斷的時間，能夠實現統一集中透明管理，可以根據工作負載去實時動態配置資源，也可以實時監控哪裡出了問題，怎麼解決問題。王叢還指出，融合架構有不同的形態，其中一種是在原來硬體基礎上用一個軟體罩上，然後形成融合架構，實現目的是可以在線擴展，所有動態可以負載均衡，在最大限度提高部署效率前提下，又能夠降低因為硬體問題而導致的應用性能降低和應用的不穩定。老牌存儲廠商NetApp同樣對存儲架構很有體會。NetApp公司北方區及電信事業部技術總監劉煒表示，在今天把數據存起來不是很難的問題，買一個移動硬碟就可以存儲數據，但是在上面存儲享受的服務級別不同的，不同於放在數據中心和網路雲上面的服務級別的。為了不讓數據成為整個企業發展的負擔，而是成為真正的價值點，從資料變成資產，基礎架構需要快速、安全地支持一些新的技術手段。劉煒認為，應用級別和服務級別怎麼定義需要有很好存儲架構。NetApp集群存儲系統，並不是簡單地迎合新概念，而是面向實際的應用設計。NetApp做了很多IT架構的設計，滿足應用分級、資源分層的需求，你可以用虛擬化，也可以不用。 Fusion-io大中國區技術總監Tonny Ai與英特爾公司通信和存儲基礎架構事業部存儲部市場總監 Christine M Rice女士談到了SSD在大數據時代數據中心的應用。Tonny Ai表示，讓包括非結構化數據的大量數據快速變成信息，不僅僅是伺服器要快，存儲速度也要跟上CPU的速度，快閃記憶體正是針對當前網路存儲速度落後的解決方案，能夠有效提高存儲的性能。同時，Tonny Ai認為，在雲計算、大數據時代，集中式存儲需要的管理和維護非常困難，分布式存儲模型是大勢所趨。在這其中，Fusion-io提供了PCIe快閃記憶體卡、全快閃記憶體陣列以及SDK工具，支持提升各種應用的性能。 Christine M Rice女士指出，SSD不只是讓數據變快。她認為，通過SSD在數據中心的使用，能夠幫助節約成本，降低延遲，加快訪問數據的速度，同時還能夠提供非常高的可靠性和管理級別，結合了DRM的使用進行軟體分層管理。戴爾亞太存儲技術總監許良謀則強調了SSD的利用要在成本和性能之間的平衡，如何更好地應對大數據——快閃記憶體的成本和壽命讓很多企業對它愛恨交加。許良謀認為，大數據需要一個高容量高速度的共享存儲，戴爾的流動數據架構就是一個讓數據平滑遷移的平台。戴爾實現了一個新的技術突破，即快速SLC和eMLC大容量盤可以用到流動架構裡面，再加上普通的大容量盤，兩級固態盤優化和流動數據架構的配合，這種方案可以比普通純快閃記憶體的方式實現75%以上的成本節約。許良謀介紹到，戴爾一直通過收購、合作等方式，在自身產品線中不斷引入新的存儲技術，力圖把最好的存儲產品以最經濟的方式提供給用戶。

B. excel大數據（大型超市數據匯總）處理用AMD處理器好還是英特爾好大概需要什麼配置才可以

一開始大數據的大超市威廉處理用的好，就模特大概需要啊，幾分鍾就搞定了。

C. 什麼是大數據存儲

Hadoop是一個開源分布式計算平台，它提供了一種建立平台的方法，這個平台由標准化硬體(伺服器和內部伺服器存儲)組成，並形成集群能夠並行處理大數據請求。在存儲方面來看，這個開源項目的關鍵組成部分是Hadoop分布式文件系統(HDFS)，該系統具有跨集群中多個成員存儲非常大文件的能力。HDFS通過創建多個數據塊副本，然後將其分布在整個集群內的計算機節點，這提供了方便可靠極其快速的計算能力。

D. 做大數據處理的 cpu需要最高嗎

我覺得大數據處理和CPU的浮點性能關系比較大，這種cpu不需要有多高的主頻，但要有足夠大的緩存，對於大數據處理來說，磁碟系統的穩定也是很重要的，盡量選用機械硬碟。cpu方面您可以考慮志強系列的cpu，畢竟它是服務於伺服器的，在數據處理方面比普通PC的cpu性能好一些。

E. 五種大數據處理架構

五種大數據處理架構
大數據是收集、整理、處理大容量數據集，並從中獲得見解所需的非傳統戰略和技術的總稱。雖然處理數據所需的計算能力或存儲容量早已超過一台計算機的上限，但這種計算類型的普遍性、規模，以及價值在最近幾年才經歷了大規模擴展。
本文將介紹大數據系統一個最基本的組件：處理框架。處理框架負責對系統中的數據進行計算，例如處理從非易失存儲中讀取的數據，或處理剛剛攝入到系統中的數據。數據的計算則是指從大量單一數據點中提取信息和見解的過程。
下文將介紹這些框架：
· 僅批處理框架：
Apache Hadoop
· 僅流處理框架：
Apache Storm
Apache Samza
· 混合框架：
Apache Spark
Apache Flink
大數據處理框架是什麼？
處理框架和處理引擎負責對數據系統中的數據進行計算。雖然「引擎」和「框架」之間的區別沒有什麼權威的定義，但大部分時候可以將前者定義為實際負責處理數據操作的組件，後者則可定義為承擔類似作用的一系列組件。
例如Apache Hadoop可以看作一種以MapRece作為默認處理引擎的處理框架。引擎和框架通常可以相互替換或同時使用。例如另一個框架Apache Spark可以納入Hadoop並取代MapRece。組件之間的這種互操作性是大數據系統靈活性如此之高的原因之一。
雖然負責處理生命周期內這一階段數據的系統通常都很復雜，但從廣義層面來看它們的目標是非常一致的：通過對數據執行操作提高理解能力，揭示出數據蘊含的模式，並針對復雜互動獲得見解。
為了簡化這些組件的討論，我們會通過不同處理框架的設計意圖，按照所處理的數據狀態對其進行分類。一些系統可以用批處理方式處理數據，一些系統可以用流方式處理連續不斷流入系統的數據。此外還有一些系統可以同時處理這兩類數據。
在深入介紹不同實現的指標和結論之前，首先需要對不同處理類型的概念進行一個簡單的介紹。
批處理系統
批處理在大數據世界有著悠久的歷史。批處理主要操作大容量靜態數據集，並在計算過程完成後返回結果。
批處理模式中使用的數據集通常符合下列特徵…
· 有界：批處理數據集代表數據的有限集合
· 持久：數據通常始終存儲在某種類型的持久存儲位置中
· 大量：批處理操作通常是處理極為海量數據集的唯一方法
批處理非常適合需要訪問全套記錄才能完成的計算工作。例如在計算總數和平均數時，必須將數據集作為一個整體加以處理，而不能將其視作多條記錄的集合。這些操作要求在計算進行過程中數據維持自己的狀態。
需要處理大量數據的任務通常最適合用批處理操作進行處理。無論直接從持久存儲設備處理數據集，或首先將數據集載入內存，批處理系統在設計過程中就充分考慮了數據的量，可提供充足的處理資源。由於批處理在應對大量持久數據方面的表現極為出色，因此經常被用於對歷史數據進行分析。
大量數據的處理需要付出大量時間，因此批處理不適合對處理時間要求較高的場合。
Apache Hadoop
Apache Hadoop是一種專用於批處理的處理框架。Hadoop是首個在開源社區獲得極大關注的大數據框架。基於谷歌有關海量數據處理所發表的多篇論文與經驗的Hadoop重新實現了相關演算法和組件堆棧，讓大規模批處理技術變得更易用。
新版Hadoop包含多個組件，即多個層，通過配合使用可處理批數據：
· HDFS：HDFS是一種分布式文件系統層，可對集群節點間的存儲和復制進行協調。HDFS確保了無法避免的節點故障發生後數據依然可用，可將其用作數據來源，可用於存儲中間態的處理結果，並可存儲計算的最終結果。
· YARN：YARN是Yet Another Resource Negotiator（另一個資源管理器）的縮寫，可充當Hadoop堆棧的集群協調組件。該組件負責協調並管理底層資源和調度作業的運行。通過充當集群資源的介面，YARN使得用戶能在Hadoop集群中使用比以往的迭代方式運行更多類型的工作負載。
· MapRece：MapRece是Hadoop的原生批處理引擎。
批處理模式
Hadoop的處理功能來自MapRece引擎。MapRece的處理技術符合使用鍵值對的map、shuffle、rece演算法要求。基本處理過程包括：
· 從HDFS文件系統讀取數據集
· 將數據集拆分成小塊並分配給所有可用節點
· 針對每個節點上的數據子集進行計算（計算的中間態結果會重新寫入HDFS）
· 重新分配中間態結果並按照鍵進行分組
· 通過對每個節點計算的結果進行匯總和組合對每個鍵的值進行「Recing」
· 將計算而來的最終結果重新寫入 HDFS
優勢和局限
由於這種方法嚴重依賴持久存儲，每個任務需要多次執行讀取和寫入操作，因此速度相對較慢。但另一方面由於磁碟空間通常是伺服器上最豐富的資源，這意味著MapRece可以處理非常海量的數據集。同時也意味著相比其他類似技術，Hadoop的MapRece通常可以在廉價硬體上運行，因為該技術並不需要將一切都存儲在內存中。MapRece具備極高的縮放潛力，生產環境中曾經出現過包含數萬個節點的應用。
MapRece的學習曲線較為陡峭，雖然Hadoop生態系統的其他周邊技術可以大幅降低這一問題的影響，但通過Hadoop集群快速實現某些應用時依然需要注意這個問題。
圍繞Hadoop已經形成了遼闊的生態系統，Hadoop集群本身也經常被用作其他軟體的組成部件。很多其他處理框架和引擎通過與Hadoop集成也可以使用HDFS和YARN資源管理器。
總結
Apache Hadoop及其MapRece處理引擎提供了一套久經考驗的批處理模型，最適合處理對時間要求不高的非常大規模數據集。通過非常低成本的組件即可搭建完整功能的Hadoop集群，使得這一廉價且高效的處理技術可以靈活應用在很多案例中。與其他框架和引擎的兼容與集成能力使得Hadoop可以成為使用不同技術的多種工作負載處理平台的底層基礎。
流處理系統
流處理系統會對隨時進入系統的數據進行計算。相比批處理模式，這是一種截然不同的處理方式。流處理方式無需針對整個數據集執行操作，而是對通過系統傳輸的每個數據項執行操作。
· 流處理中的數據集是「無邊界」的，這就產生了幾個重要的影響：
· 完整數據集只能代表截至目前已經進入到系統中的數據總量。
· 工作數據集也許更相關，在特定時間只能代表某個單一數據項。
處理工作是基於事件的，除非明確停止否則沒有「盡頭」。處理結果立刻可用，並會隨著新數據的抵達繼續更新。
流處理系統可以處理幾乎無限量的數據，但同一時間只能處理一條（真正的流處理）或很少量（微批處理，Micro-batch Processing）數據，不同記錄間只維持最少量的狀態。雖然大部分系統提供了用於維持某些狀態的方法，但流處理主要針對副作用更少，更加功能性的處理（Functional processing）進行優化。
功能性操作主要側重於狀態或副作用有限的離散步驟。針對同一個數據執行同一個操作會或略其他因素產生相同的結果，此類處理非常適合流處理，因為不同項的狀態通常是某些困難、限制，以及某些情況下不需要的結果的結合體。因此雖然某些類型的狀態管理通常是可行的，但這些框架通常在不具備狀態管理機制時更簡單也更高效。
此類處理非常適合某些類型的工作負載。有近實時處理需求的任務很適合使用流處理模式。分析、伺服器或應用程序錯誤日誌，以及其他基於時間的衡量指標是最適合的類型，因為對這些領域的數據變化做出響應對於業務職能來說是極為關鍵的。流處理很適合用來處理必須對變動或峰值做出響應，並且關注一段時間內變化趨勢的數據。
Apache Storm
Apache Storm是一種側重於極低延遲的流處理框架，也許是要求近實時處理的工作負載的最佳選擇。該技術可處理非常大量的數據，通過比其他解決方案更低的延遲提供結果。
流處理模式
Storm的流處理可對框架中名為Topology（拓撲）的DAG（Directed Acyclic Graph，有向無環圖）進行編排。這些拓撲描述了當數據片段進入系統後，需要對每個傳入的片段執行的不同轉換或步驟。
拓撲包含：
· Stream：普通的數據流，這是一種會持續抵達系統的無邊界數據。
· Spout：位於拓撲邊緣的數據流來源，例如可以是API或查詢等，從這里可以產生待處理的數據。
· Bolt：Bolt代表需要消耗流數據，對其應用操作，並將結果以流的形式進行輸出的處理步驟。Bolt需要與每個Spout建立連接，隨後相互連接以組成所有必要的處理。在拓撲的尾部，可以使用最終的Bolt輸出作為相互連接的其他系統的輸入。
Storm背後的想法是使用上述組件定義大量小型的離散操作，隨後將多個組件組成所需拓撲。默認情況下Storm提供了「至少一次」的處理保證，這意味著可以確保每條消息至少可以被處理一次，但某些情況下如果遇到失敗可能會處理多次。Storm無法確保可以按照特定順序處理消息。
為了實現嚴格的一次處理，即有狀態處理，可以使用一種名為Trident的抽象。嚴格來說不使用Trident的Storm通常可稱之為Core Storm。Trident會對Storm的處理能力產生極大影響，會增加延遲，為處理提供狀態，使用微批模式代替逐項處理的純粹流處理模式。
為避免這些問題，通常建議Storm用戶盡可能使用Core Storm。然而也要注意，Trident對內容嚴格的一次處理保證在某些情況下也比較有用，例如系統無法智能地處理重復消息時。如果需要在項之間維持狀態，例如想要計算一個小時內有多少用戶點擊了某個鏈接，此時Trident將是你唯一的選擇。盡管不能充分發揮框架與生俱來的優勢，但Trident提高了Storm的靈活性。
Trident拓撲包含：
· 流批（Stream batch）：這是指流數據的微批，可通過分塊提供批處理語義。
· 操作（Operation）：是指可以對數據執行的批處理過程。
優勢和局限
目前來說Storm可能是近實時處理領域的最佳解決方案。該技術可以用極低延遲處理數據，可用於希望獲得最低延遲的工作負載。如果處理速度直接影響用戶體驗，例如需要將處理結果直接提供給訪客打開的網站頁面，此時Storm將會是一個很好的選擇。
Storm與Trident配合使得用戶可以用微批代替純粹的流處理。雖然藉此用戶可以獲得更大靈活性打造更符合要求的工具，但同時這種做法會削弱該技術相比其他解決方案最大的優勢。話雖如此，但多一種流處理方式總是好的。
Core Storm無法保證消息的處理順序。Core Storm為消息提供了「至少一次」的處理保證，這意味著可以保證每條消息都能被處理，但也可能發生重復。Trident提供了嚴格的一次處理保證，可以在不同批之間提供順序處理，但無法在一個批內部實現順序處理。
在互操作性方面，Storm可與Hadoop的YARN資源管理器進行集成，因此可以很方便地融入現有Hadoop部署。除了支持大部分處理框架，Storm還可支持多種語言，為用戶的拓撲定義提供了更多選擇。
總結
對於延遲需求很高的純粹的流處理工作負載，Storm可能是最適合的技術。該技術可以保證每條消息都被處理，可配合多種編程語言使用。由於Storm無法進行批處理，如果需要這些能力可能還需要使用其他軟體。如果對嚴格的一次處理保證有比較高的要求，此時可考慮使用Trident。不過這種情況下其他流處理框架也許更適合。
Apache Samza
Apache Samza是一種與Apache Kafka消息系統緊密綁定的流處理框架。雖然Kafka可用於很多流處理系統，但按照設計，Samza可以更好地發揮Kafka獨特的架構優勢和保障。該技術可通過Kafka提供容錯、緩沖，以及狀態存儲。
Samza可使用YARN作為資源管理器。這意味著默認情況下需要具備Hadoop集群（至少具備HDFS和YARN），但同時也意味著Samza可以直接使用YARN豐富的內建功能。
流處理模式
Samza依賴Kafka的語義定義流的處理方式。Kafka在處理數據時涉及下列概念：
· Topic（話題）：進入Kafka系統的每個數據流可稱之為一個話題。話題基本上是一種可供消耗方訂閱的，由相關信息組成的數據流。
· Partition（分區）：為了將一個話題分散至多個節點，Kafka會將傳入的消息劃分為多個分區。分區的劃分將基於鍵（Key）進行，這樣可以保證包含同一個鍵的每條消息可以劃分至同一個分區。分區的順序可獲得保證。
· Broker（代理）：組成Kafka集群的每個節點也叫做代理。
· Procer（生成方）：任何向Kafka話題寫入數據的組件可以叫做生成方。生成方可提供將話題劃分為分區所需的鍵。
· Consumer（消耗方）：任何從Kafka讀取話題的組件可叫做消耗方。消耗方需要負責維持有關自己分支的信息，這樣即可在失敗後知道哪些記錄已經被處理過了。
由於Kafka相當於永恆不變的日誌，Samza也需要處理永恆不變的數據流。這意味著任何轉換創建的新數據流都可被其他組件所使用，而不會對最初的數據流產生影響。
優勢和局限
乍看之下，Samza對Kafka類查詢系統的依賴似乎是一種限制，然而這也可以為系統提供一些獨特的保證和功能，這些內容也是其他流處理系統不具備的。
例如Kafka已經提供了可以通過低延遲方式訪問的數據存儲副本，此外還可以為每個數據分區提供非常易用且低成本的多訂閱者模型。所有輸出內容，包括中間態的結果都可寫入到Kafka，並可被下游步驟獨立使用。
這種對Kafka的緊密依賴在很多方面類似於MapRece引擎對HDFS的依賴。雖然在批處理的每個計算之間對HDFS的依賴導致了一些嚴重的性能問題，但也避免了流處理遇到的很多其他問題。
Samza與Kafka之間緊密的關系使得處理步驟本身可以非常鬆散地耦合在一起。無需事先協調，即可在輸出的任何步驟中增加任意數量的訂閱者，對於有多個團隊需要訪問類似數據的組織，這一特性非常有用。多個團隊可以全部訂閱進入系統的數據話題，或任意訂閱其他團隊對數據進行過某些處理後創建的話題。這一切並不會對資料庫等負載密集型基礎架構造成額外的壓力。
直接寫入Kafka還可避免回壓（Backpressure）問題。回壓是指當負載峰值導致數據流入速度超過組件實時處理能力的情況，這種情況可能導致處理工作停頓並可能丟失數據。按照設計，Kafka可以將數據保存很長時間，這意味著組件可以在方便的時候繼續進行處理，並可直接重啟動而無需擔心造成任何後果。
Samza可以使用以本地鍵值存儲方式實現的容錯檢查點系統存儲數據。這樣Samza即可獲得「至少一次」的交付保障，但面對由於數據可能多次交付造成的失敗，該技術無法對匯總後狀態（例如計數）提供精確恢復。
Samza提供的高級抽象使其在很多方面比Storm等系統提供的基元（Primitive）更易於配合使用。目前Samza只支持JVM語言，這意味著它在語言支持方面不如Storm靈活。
總結
對於已經具備或易於實現Hadoop和Kafka的環境，Apache Samza是流處理工作負載一個很好的選擇。Samza本身很適合有多個團隊需要使用（但相互之間並不一定緊密協調）不同處理階段的多個數據流的組織。Samza可大幅簡化很多流處理工作，可實現低延遲的性能。如果部署需求與當前系統不兼容，也許並不適合使用，但如果需要極低延遲的處理，或對嚴格的一次處理語義有較高需求，此時依然適合考慮。
混合處理系統：批處理和流處理
一些處理框架可同時處理批處理和流處理工作負載。這些框架可以用相同或相關的組件和API處理兩種類型的數據，藉此讓不同的處理需求得以簡化。
如你所見，這一特性主要是由Spark和Flink實現的，下文將介紹這兩種框架。實現這樣的功能重點在於兩種不同處理模式如何進行統一，以及要對固定和不固定數據集之間的關系進行何種假設。
雖然側重於某一種處理類型的項目會更好地滿足具體用例的要求，但混合框架意在提供一種數據處理的通用解決方案。這種框架不僅可以提供處理數據所需的方法，而且提供了自己的集成項、庫、工具，可勝任圖形分析、機器學習、互動式查詢等多種任務。
Apache Spark
Apache Spark是一種包含流處理能力的下一代批處理框架。與Hadoop的MapRece引擎基於各種相同原則開發而來的Spark主要側重於通過完善的內存計算和處理優化機制加快批處理工作負載的運行速度。
Spark可作為獨立集群部署（需要相應存儲層的配合），或可與Hadoop集成並取代MapRece引擎。
批處理模式
與MapRece不同，Spark的數據處理工作全部在內存中進行，只在一開始將數據讀入內存，以及將最終結果持久存儲時需要與存儲層交互。所有中間態的處理結果均存儲在內存中。
雖然內存中處理方式可大幅改善性能，Spark在處理與磁碟有關的任務時速度也有很大提升，因為通過提前對整個任務集進行分析可以實現更完善的整體式優化。為此Spark可創建代表所需執行的全部操作，需要操作的數據，以及操作和數據之間關系的Directed Acyclic Graph（有向無環圖），即DAG，藉此處理器可以對任務進行更智能的協調。
為了實現內存中批計算，Spark會使用一種名為Resilient Distributed Dataset（彈性分布式數據集），即RDD的模型來處理數據。這是一種代表數據集，只位於內存中，永恆不變的結構。針對RDD執行的操作可生成新的RDD。每個RDD可通過世系（Lineage）回溯至父級RDD，並最終回溯至磁碟上的數據。Spark可通過RDD在無需將每個操作的結果寫回磁碟的前提下實現容錯。
流處理模式
流處理能力是由Spark Streaming實現的。Spark本身在設計上主要面向批處理工作負載，為了彌補引擎設計和流處理工作負載特徵方面的差異，Spark實現了一種叫做微批（Micro-batch）*的概念。在具體策略方面該技術可以將數據流視作一系列非常小的「批」，藉此即可通過批處理引擎的原生語義進行處理。
Spark Streaming會以亞秒級增量對流進行緩沖，隨後這些緩沖會作為小規模的固定數據集進行批處理。這種方式的實際效果非常好，但相比真正的流處理框架在性能方面依然存在不足。
優勢和局限
使用Spark而非Hadoop MapRece的主要原因是速度。在內存計算策略和先進的DAG調度等機制的幫助下，Spark可以用更快速度處理相同的數據集。
Spark的另一個重要優勢在於多樣性。該產品可作為獨立集群部署，或與現有Hadoop集群集成。該產品可運行批處理和流處理，運行一個集群即可處理不同類型的任務。
除了引擎自身的能力外，圍繞Spark還建立了包含各種庫的生態系統，可為機器學習、互動式查詢等任務提供更好的支持。相比MapRece，Spark任務更是「眾所周知」地易於編寫，因此可大幅提高生產力。
為流處理系統採用批處理的方法，需要對進入系統的數據進行緩沖。緩沖機制使得該技術可以處理非常大量的傳入數據，提高整體吞吐率，但等待緩沖區清空也會導致延遲增高。這意味著Spark Streaming可能不適合處理對延遲有較高要求的工作負載。
由於內存通常比磁碟空間更貴，因此相比基於磁碟的系統，Spark成本更高。然而處理速度的提升意味著可以更快速完成任務，在需要按照小時數為資源付費的環境中，這一特性通常可以抵消增加的成本。
Spark內存計算這一設計的另一個後果是，如果部署在共享的集群中可能會遇到資源不足的問題。相比HadoopMapRece，Spark的資源消耗更大，可能會對需要在同一時間使用集群的其他任務產生影響。從本質來看，Spark更不適合與Hadoop堆棧的其他組件共存一處。
總結
Spark是多樣化工作負載處理任務的最佳選擇。Spark批處理能力以更高內存佔用為代價提供了無與倫比的速度優勢。對於重視吞吐率而非延遲的工作負載，則比較適合使用Spark Streaming作為流處理解決方案。
Apache Flink
Apache Flink是一種可以處理批處理任務的流處理框架。該技術可將批處理數據視作具備有限邊界的數據流，藉此將批處理任務作為流處理的子集加以處理。為所有處理任務採取流處理為先的方法會產生一系列有趣的副作用。
這種流處理為先的方法也叫做Kappa架構，與之相對的是更加被廣為人知的Lambda架構（該架構中使用批處理作為主要處理方法，使用流作為補充並提供早期未經提煉的結果）。Kappa架構中會對一切進行流處理，藉此對模型進行簡化，而這一切是在最近流處理引擎逐漸成熟後才可行的。
流處理模型
Flink的流處理模型在處理傳入數據時會將每一項視作真正的數據流。Flink提供的DataStream API可用於處理無盡的數據流。Flink可配合使用的基本組件包括：
· Stream（流）是指在系統中流轉的，永恆不變的無邊界數據集
· Operator（操作方）是指針對數據流執行操作以產生其他數據流的功能
· Source（源）是指數據流進入系統的入口點
· Sink（槽）是指數據流離開Flink系統後進入到的位置，槽可以是資料庫或到其他系統的連接器
為了在計算過程中遇到問題後能夠恢復，流處理任務會在預定時間點創建快照。為了實現狀態存儲，Flink可配合多種狀態後端系統使用，具體取決於所需實現的復雜度和持久性級別。
此外Flink的流處理能力還可以理解「事件時間」這一概念，這是指事件實際發生的時間，此外該功能還可以處理會話。這意味著可以通過某種有趣的方式確保執行順序和分組。
批處理模型
Flink的批處理模型在很大程度上僅僅是對流處理模型的擴展。此時模型不再從持續流中讀取數據，而是從持久存儲中以流的形式讀取有邊界的數據集。Flink會對這些處理模型使用完全相同的運行時。
Flink可以對批處理工作負載實現一定的優化。例如由於批處理操作可通過持久存儲加以支持，Flink可以不對批處理工作負載創建快照。數據依然可以恢復，但常規處理操作可以執行得更快。
另一個優化是對批處理任務進行分解，這樣即可在需要的時候調用不同階段和組件。藉此Flink可以與集群的其他用戶更好地共存。對任務提前進行分析使得Flink可以查看需要執行的所有操作、數據集的大小，以及下游需要執行的操作步驟，藉此實現進一步的優化。
優勢和局限
Flink目前是處理框架領域一個獨特的技術。雖然Spark也可以執行批處理和流處理，但Spark的流處理採取的微批架構使其無法適用於很多用例。Flink流處理為先的方法可提供低延遲，高吞吐率，近乎逐項處理的能力。
Flink的很多組件是自行管理的。雖然這種做法較為罕見，但出於性能方面的原因，該技術可自行管理內存，無需依賴原生的Java垃圾回收機制。與Spark不同，待處理數據的特徵發生變化後Flink無需手工優化和調整，並且該技術也可以自行處理數據分區和自動緩存等操作。
Flink會通過多種方式對工作進行分許進而優化任務。這種分析在部分程度上類似於SQL查詢規劃器對關系型資料庫所做的優化，可針對特定任務確定最高效的實現方法。該技術還支持多階段並行執行，同時可將受阻任務的數據集合在一起。對於迭代式任務，出於性能方面的考慮，Flink會嘗試在存儲數據的節點上執行相應的計算任務。此外還可進行「增量迭代」，或僅對數據中有改動的部分進行迭代。
在用戶工具方面，Flink提供了基於Web的調度視圖，藉此可輕松管理任務並查看系統狀態。用戶也可以查看已提交任務的優化方案，藉此了解任務最終是如何在集群中實現的。對於分析類任務，Flink提供了類似SQL的查詢，圖形化處理，以及機器學習庫，此外還支持內存計算。
Flink能很好地與其他組件配合使用。如果配合Hadoop 堆棧使用，該技術可以很好地融入整個環境，在任何時候都只佔用必要的資源。該技術可輕松地與YARN、HDFS和Kafka 集成。在兼容包的幫助下，Flink還可以運行為其他處理框架，例如Hadoop和Storm編寫的任務。
目前Flink最大的局限之一在於這依然是一個非常「年幼」的項目。現實環境中該項目的大規模部署尚不如其他處理框架那麼常見，對於Flink在縮放能力方面的局限目前也沒有較為深入的研究。隨著快速開發周期的推進和兼容包等功能的完善，當越來越多的組織開始嘗試時，可能會出現越來越多的Flink部署
總結
Flink提供了低延遲流處理，同時可支持傳統的批處理任務。Flink也許最適合有極高流處理需求，並有少量批處理任務的組織。該技術可兼容原生Storm和Hadoop程序，可在YARN管理的集群上運行，因此可以很方便地進行評估。快速進展的開發工作使其值得被大家關注。
結論
大數據系統可使用多種處理技術。
對於僅需要批處理的工作負載，如果對時間不敏感，比其他解決方案實現成本更低的Hadoop將會是一個好選擇。
對於僅需要流處理的工作負載，Storm可支持更廣泛的語言並實現極低延遲的處理，但默認配置可能產生重復結果並且無法保證順序。Samza與YARN和Kafka緊密集成可提供更大靈活性，更易用的多團隊使用，以及更簡單的復制和狀態管理。
對於混合型工作負載，Spark可提供高速批處理和微批處理模式的流處理。該技術的支持更完善，具備各種集成庫和工具，可實現靈活的集成。Flink提供了真正的流處理並具備批處理能力，通過深度優化可運行針對其他平台編寫的任務，提供低延遲的處理，但實際應用方面還為時過早。
最適合的解決方案主要取決於待處理數據的狀態，對處理所需時間的需求，以及希望得到的結果。具體是使用全功能解決方案或主要側重於某種項目的解決方案，這個問題需要慎重權衡。隨著逐漸成熟並被廣泛接受，在評估任何新出現的創新型解決方案時都需要考慮類似的問題。

F. 大數據常用硬體設施需要怎樣的處理器

具體說的應該是CPU的內部結構了。486與386的最大區別在於「協助處理器」的增加。486由於內部集成了數字協助處理器80387，CPU的運行方式產生了很大的變化。80386數字處理器本身只能進行基本的數字計算，如加減乘除等等。進行函數運算的時候需要用基本的數字計算去推導函數結果，在使用協助處理器80387之後，一些諸如三角函數、積分、微分計算可以直接得到結果。顯然，增加了協助處理器可以令復雜運算的速度大大提升。此外，CPU內部集成緩存是486與386之間另外一個最大的區別，CPU的運算直接從緩存中取用數據要比從外部獲取數據的速度快得多，緩存容量越大，CPU就可以以更高的速度獲得更多的數據，從而提高性能。而這時，即使處於同樣主頻，486也會比386的性能有大幅度提升。開機的自檢畫面上有，注意看一下就行了。 386顯示為80386SX或80386DX，後者是真正的32位機。 486顯示為80486 最後，強烈建議不要刪除。刪除後電腦運行速度可能會差很多。。。

G. 數據中心為什麼要使用資產管理系統

資產管理系統能對‎數據中心進行基礎‎設施監控‎的集中‎維護‎，集中管理，及時預‎警‎，智‎能‎報警。‎動力‎、環境、安防、I‎T設備監控等。而定製化的資產管理系統還能實‎現更‎多功能‎，火鷹科技就是專門做資產管理系‎統定‎制的。有不清楚的，歡迎隨時提問

H. 大數據處理能力達到巔峰的最佳時機

大數據處理能力達到巔峰的最佳時機
大數據管理現在已經成為企業開發社區中的一大熱門話題。但為什麼大數據的討論成為一種現象會為這么晚？為什麼過去大數據處理沒有成為企業工具集的一部分，是不是現在的信息技術生態系統使得大數據解決方案變得如此的明智。
大數據管理如此流行的一個關鍵原因是，無需言明，多數組織不得不對處理日益增長的數據進行管理。從互聯網搜索引擎，到龐大信息量的檢索，再到基因科學或大氣科學的研究項目，人們關注並嘗試的數據量變得越來越龐大。曾經兆位元組數據的處理就是很驚人的期望，但與現在組織面臨的千萬兆位元組相比，就變得蒼白無力了。
處理能力是關鍵。一方面它要有能力存儲巨大量的數據；另一方面它要能夠進行處理。畢竟，如果它不能挖掘出來，但用什麼來存儲數據？談到數據挖掘，我們講的心比挖掘煤礦還快的速度處理數據。如果我們不能在合理的時間內，從數據中找到有意義信息，那麼它就是無用的。
現在，管理大數據非常可行，因為處理能力可以負擔得起。過去，財富500強公司需要稀釋他們的股份和發行更多普通股，為了能夠購買多元處理器，這樣就能夠存儲兆兆位元組的數據。但是現在一個小學生，用他的零用錢就可以買到等價處理能力的處理器。
另外，確實沒有和過去一樣的需求，需要出去從像Oracle和IBM那樣的公司中，購買大的硬體和令人印象深刻的工作站。而一個明智的IT部分可以從網上輕而易舉的購買到上百個主板和多核處理器，並以歷史上最低價從台灣直接裝運過來。改道開源軟體可以用來把各種各樣的主板、處理器編成組，而國產的處理能力可以以千兆位位元組吞噬掉非結構化的數據。
伴隨著處理能力，免費軟體也有能力強化了大數據運動。HBase之類的工具可以用把大數據存儲在單一資料庫表中，或海量資料庫表中，海量資料庫表可以擴展出數十億的行和數以百萬的列。從那裡，如果你有興趣挖掘你HBase數據，Hadoop可以幫助你處理那些海量數據集，並理解其不斷積累的信息。
"如果想得到特殊的東西，你可以訪問，你可以訪問HBase領域的數據；但如果想獲得關於分析的一些數據，比如說，你希望在數十億的記錄中，找到出某個星球的平均年齡，那麼你可以使用Hadoop."Java之父，James Gosling說。"它最終會非常快速並且非常高效。"
累積的大量數據池、處理能力的負擔能力和專業化軟體的可用性，這三大理由不僅使"大數據"成為互聯網的一個敏銳話題，也成為了管理信息的一個可行方法。結合了廉價的處理能力，並且能夠免費的下載，通過像Hadoop和HBase這樣的開源軟體解決方案，企業架構師們有更新，更有效的工具來處理在大數據了。隨著越來越多的公司從一系列不同的出入中，收集了更多的信息，使得大數據處理能力達到前所未有的巔峰。

I. 什麼是大數據存儲管理

1.分布式存儲

傳統化集中式存儲存在已有一段時間。但大數據並非真的適合集中式存儲架構。Hadoop設計用於將計算更接近數據節點，同時採用了HDFS文件系統的大規模橫向擴展功能。

雖然，通常解決Hadoop管理自身數據低效性的方案是將Hadoop 數據存儲在SAN上。但這也造成了它自身性能與規模的瓶頸。現在，如果你把所有的數據都通過集中式SAN處理器進行處理，與Hadoop的分布式和並行化特性相悖。你要麼針對不同的數據節點管理多個SAN，要麼將所有的數據節點都集中到一個SAN。

但Hadoop是一個分布式應用，就應該運行在分布式存儲上，這樣存儲就保留了與Hadoop本身同樣的靈活性，不過它也要求擁抱一個軟體定義存儲方案，並在商用伺服器上運行，這相比瓶頸化的Hadoop自然更為高效。

2.超融合VS分布式

注意，不要混淆超融合與分布式。某些超融合方案是分布式存儲，但通常這個術語意味著你的應用和存儲都保存在同一計算節點上。這是在試圖解決數據本地化的問題，但它會造成太多資源爭用。這個Hadoop應用和存儲平台會爭用相同的內存和CPU。Hadoop運行在專有應用層，分布式存儲運行在專有存儲層這樣會更好。之後，利用緩存和分層來解決數據本地化並補償網路性能損失。

3.避免控制器瓶頸(Controller Choke Point)

實現目標的一個重要方面就是——避免通過單個點例如一個傳統控制器來處理數據。反之，要確保存儲平台並行化，性能可以得到顯著提升。

此外，這個方案提供了增量擴展性。為數據湖添加功能跟往裡面扔x86伺服器一樣簡單。一個分布式存儲平台如有需要將自動添加功能並重新調整數據。

4.刪重和壓縮

掌握大數據的關鍵是刪重和壓縮技術。通常大數據集內會有70%到90%的數據簡化。以PB容量計，能節約數萬美元的磁碟成本。現代平台提供內聯(對比後期處理)刪重和壓縮，大大降低了存儲數據所需能力。

5.合並Hadoop發行版

很多大型企業擁有多個Hadoop發行版本。可能是開發者需要或是企業部門已經適應了不同版本。無論如何最終往往要對這些集群的維護與運營。一旦海量數據真正開始影響一家企業時，多個Hadoop發行版存儲就會導致低效性。我們可以通過創建一個單一，可刪重和壓縮的數據湖獲取數據效率

6.虛擬化Hadoop

虛擬化已經席捲企業級市場。很多地區超過80%的物理伺服器現在是虛擬化的。但也仍有很多企業因為性能和數據本地化問題對虛擬化Hadoop避而不談。

7.創建彈性數據湖

創建數據湖並不容易，但大數據存儲可能會有需求。我們有很多種方法來做這件事，但哪一種是正確的?這個正確的架構應該是一個動態，彈性的數據湖，可以以多種格式(架構化，非結構化，半結構化)存儲所有資源的數據。更重要的是，它必須支持應用不在遠程資源上而是在本地數據資源上執行。

不幸的是，傳統架構和應用(也就是非分布式)並不盡如人意。隨著數據集越來越大，將應用遷移到數據不可避免，而因為延遲太長也無法倒置。

理想的數據湖基礎架構會實現數據單一副本的存儲，而且有應用在單一數據資源上執行，無需遷移數據或製作副本

8.整合分析

分析並不是一個新功能，它已經在傳統RDBMS環境中存在多年。不同的是基於開源應用的出現，以及資料庫表單和社交媒體，非結構化數據資源(比如，維基網路)的整合能力。關鍵在於將多個數據類型和格式整合成一個標準的能力，有利於更輕松和一致地實現可視化與報告製作。合適的工具也對分析/商業智能項目的成功至關重要。

9. 大數據遇見大視頻

大數據存儲問題已經讓人有些焦頭爛額了，現在還出現了大視頻現象。比如，企業為了安全以及操作和工業效率逐漸趨於使用視頻監控，簡化流量管理，支持法規遵從性和幾個其它的使用案例。很短時間內這些資源將產生大量的內容，大量必須要處理的內容。如果沒有專業的存儲解決方案很可能會導致視頻丟失和質量降低的問題。

10.沒有絕對的贏家

Hadoop的確取得了一些進展。那麼隨著大數據存儲遍地開花，它是否會成為贏家，力壓其它方案，其實不然。

比如，基於SAN的傳統架構在短期內不可取代，因為它們擁有OLTP，100%可用性需求的內在優勢。所以最理想的辦法是將超融合平台與分布式文件系統和分析軟體整合在一起。而成功的最主要因素則是存儲的可擴展性因素。

J. 大數據的快速發展離不開存儲技術,CPU處理能力的提升,各種終端設備可以隨時隨

大數據時代，大數據分析與應用大肆盛行。越來越多的大公司大企業大集團，都越來越重視大數據的影響和作用。可以說，誰想搶得大數據的一手可靠資料，誰就在未來的業務發展和拓寬中占據優勢，誰就會在相關領域首先拔得頭籌。但是，大數據發展前景現在到底如何，大數據的可靠性由誰說了算，大數據的真實性有誰可以保證？甚至還可以再倒退一點點來問問，如今的大數據究竟發展到了什麼階段？

我想，應該很少人能夠清楚地知道這一點吧!畢竟在大數據分析與應用火爆的年代，一般人都只是了解大數據的皮毛和表面，而對於大數據發展前景、大數據背後的來源及處理分析等等精密的工作程序，肯定不了解，也不會感興趣。而且對於一般人，也不可能會去真正弄明白大數據分析與應用背後蘊藏的種種可靠性、客觀性、真實性的來源支撐與科學手段處理。下面，小編就用大白話的方式來跟大家講講，如今的大數據究竟發展到了什麼階段，由此來窺探一下大數據發展前景到底是怎麼個情況。

在日新月異且喜新厭舊的技術初創企業界，已有3年歷史的「大數據」聽起來似乎已經有點過氣。雖然 Hadoop 在 2006年已經出來，但「大數據」這個概念大概是在 2012 到 2015年左右才真正火起來的。也就是在這段時間里，至少是在媒體或者專家眼裡，「大數據」才開始慢慢成為了新的「金子」或者「石油」。然而，至少在我跟業界人士交談中，大家越來越感覺到這項技術已經在某種程度上陷入了停滯或迷惑期。2017年可能是數據領域的那些酷小子轉移興趣，開始沉迷於 AI 以及機器智能、深度學習等許多相關概念的年份。

拋開不可避免的炒作周期曲線態勢不管，我們的「大數據版圖」已經進入第 4 個年頭了，趁這個時候退一步來反思一下去年發生了什麼，思考一下這個行業的未來會怎樣是很有意義的，看看如今的大數據到底發展到了什麼階段。那麼 2019年大數據到底還有多大的發展和進步空間呢？我們不妨探討一下。

企業技術=艱苦工作

大數據有趣的一點在於，它不再像當初經歷過那樣有可能成為炒作的題材了。

經過炒作周期後仍能引起廣泛興趣的產品和服務往往那些大家能夠接觸、可以感知，或者與大眾相關聯的：比如移動應用、社交網路、可穿戴、虛擬現實等。

但大數據基本上就是管道設施的一種。當然，大數據為許多消費者或商業用戶體驗提供了動力，但它的核心是企業技術：資料庫、分析等，這些東西都是在後端運行的，沒幾個人能看得見。就像在那個世界工作的任何人都知道那樣，用一個晚上的時間就想適應企業端的新技術是不可能的。

大數據存儲處理器

與大數據存儲處理器相關的內容