bigdatanosql_大數據包括哪些

『壹』常見Nosql 資料庫的應用場景是怎麼樣的

文檔資料庫源起：受Lotus Notes啟發。數據模型：包含了key-value的文檔集合例子：CouchDB, MongoDB 優點：數據模型自然，編程友好，快速開發，web友好，CRUD。圖資料庫源起：歐拉和圖理論。數據模型：節點和關系，也可處理鍵值對。例子：AllegroGraph, InfoGrid, Neo4j 優點：解決復雜的圖問題。關系資料庫源起： E. F. Codd 在A Relational Model of Data for Large Shared Data Banks提出的數據模型：各種關系例子：VoltDB, Clustrix, MySQL 優點：高性能、可擴展的OLTP，支持SQL，物化視圖，支持事務，編程友好。對象資料庫源起：圖資料庫研究數據模型：對象例子：Objectivity, Gemstone 優點：復雜對象模型，快速鍵值訪問，鍵功能訪問，以及圖資料庫的優點。 Key-Value資料庫源起：Amazon的論文 Dynamo 和 Distributed HashTables。數據模型：鍵值對例子：Membase, Riak 優點：處理大量數據，快速處理大量讀寫請求。編程友好。 BigTable類型資料庫源起：Google的論文 BigTable。數據模型：列簇，每一行在理論上都是不同的例子：HBase, Hypertable, Cassandra 優點：處理大量數據，應對極高寫負載，高可用，支持跨數據中心， MapRece。數據結構服務源起： ? 數據模型：字典操作，lists, sets和字元串值例子：Redis 優點：不同於以前的任何資料庫網格資料庫源起：數據網格和元組空間研究。數據模型：基於空間的架構例子：GigaSpaces, Coherence 優點：適於事務處理的高性能和高擴展性

『貳』 nosql資料庫有哪些

Membase
Membase 是 NoSQL 家族的一個新的重量級的成員。Membase是開源項目，源代碼採用了Apache2.0的使用許可。該項目託管在GitHub.Source tarballs上，可以下載beta版本的Linux二進制包。該產品主要是由North Scale的memcached核心團隊成員開發完成，其中還包括Zynga和NHN這兩個主要貢獻者的工程師，這兩個組織都是很大的在線游戲和社區網路空間的供應商。
Membase容易安裝、操作，可以從單節點方便的擴展到集群，而且為memcached（有線協議的兼容性）實現了即插即用功能，在應用方面為開發者和經營者提供了一個比較低的門檻。做為緩存解決方案，Memcached已經在不同類型的領域（特別是大容量的Web應用）有了廣泛的使用，其中 Memcached的部分基礎代碼被直接應用到了Membase伺服器的前端。
通過兼容多種編程語言和框架，Membase具備了很好的復用性。在安裝和配置方面，Membase提供了有效的圖形化界面和編程介面，包括可配置的告警信息。
Membase的目標是提供對外的線性擴展能力，包括為了增加集群容量，可以針對統一的節點進行復制。另外，對存儲的數據進行再分配仍然是必要的。
這方面的一個有趣的特性是NoSQL解決方案所承諾的可預測的性能，類准確性的延遲和吞吐量。通過如下方式可以獲得上面提到的特性：
◆ 自動將在線數據遷移到低延遲的存儲介質的技術（內存，固態硬碟，磁碟）
◆ 可選的寫操作一一非同步，同步（基於復制，持久化）
◆ 反向通道再平衡[未來考慮支持]
◆ 多線程低鎖爭用
◆ 盡可能使用非同步處理
◆ 自動實現重復數據刪除
◆ 動態再平衡現有集群
◆ 通過把數據復制到多個集群單元和支持快速失敗轉移來提供系統的高可用性。
MongoDB
MongoDB是一個介於關系資料庫和非關系資料庫之間的產品，是非關系資料庫當中功能最豐富，最像關系資料庫的。他支持的數據結構非常鬆散，是類似json的bjson格式，因此可以存儲比較復雜的數據類型。Mongo最大的特點是他支持的查詢語言非常強大，其語法有點類似於面向對象的查詢語言，幾乎可以實現類似關系資料庫單表查詢的絕大部分功能，而且還支持對數據建立索引。它的特點是高性能、易部署、易使用，存儲數據非常方便。
主要功能特性：
◆ 面向集合存儲，易存儲對象類型的數據
「面向集合」（Collenction-Oriented），意思是數據被分組存儲在數據集中，被稱為一個集合（Collenction)。每個集合在資料庫中都有一個唯一的標識名，並且可以包含無限數目的文檔。集合的概念類似關系型資料庫（RDBMS）里的表（table），不同的是它不需要定義任何模式（schema)。
◆ 模式自由
模式自由（schema-free)，意味著對於存儲在mongodb資料庫中的文件，我們不需要知道它的任何結構定義。如果需要的話，你完全可以把不同結構的文件存儲在同一個資料庫里。
◆支持動態查詢
◆支持完全索引，包含內部對象
◆支持查詢
◆支持復制和故障恢復
◆使用高效的二進制數據存儲，包括大型對象（如視頻等）
◆自動處理碎片，以支持雲計算層次的擴展性
◆支持RUBY，PYTHON，JAVA，C++，PHP等多種語言
◆文件存儲格式為BSON（一種JSON的擴展）
BSON（Binary Serialized document Format）存儲形式是指：存儲在集合中的文檔，被存儲為鍵-值對的形式。鍵用於唯一標識一個文檔，為字元串類型，而值則可以是各種復雜的文件類型。
◆可通過網路訪問
MongoDB服務端可運行在Linux、Windows或OS X平台，支持32位和64位應用，默認埠為27017。推薦運行在64位平台，因為MongoDB在32位模式運行時支持的最大文件尺寸為2GB。
MongoDB把數據存儲在文件中（默認路徑為：/data/db），為提高效率使用內存映射文件進行管理。
Hypertable
Hypertable是一個開源、高性能、可伸縮的資料庫，它採用與Google的Bigtable相似的模型。在過去數年中，Google為在PC集群上運行的可伸縮計算基礎設施設計建造了三個關鍵部分。第一個關鍵的基礎設施是Google File System（GFS），這是一個高可用的文件系統，提供了一個全局的命名空間。它通過跨機器（和跨機架）的文件數據復制來達到高可用性，並因此免受傳統文件存儲系統無法避免的許多失敗的影響，比如電源、內存和網路埠等失敗。第二個基礎設施是名為Map-Rece的計算框架，它與GFS緊密協作，幫助處理收集到的海量數據。第三個基礎設施是Bigtable，它是傳統資料庫的替代。Bigtable讓你可以通過一些主鍵來組織海量數據，並實現高效的查詢。Hypertable是Bigtable的一個開源實現，並且根據我們的想法進行了一些改進。
Apache Cassandra
Apache Cassandra是一套開源分布式Key-Value存儲系統。它最初由Facebook開發，用於儲存特別大的數據。Facebook在使用此系統。
主要特性：
◆ 分布式
◆ 基於column的結構化
◆ 高伸展性
Cassandra的主要特點就是它不是一個資料庫，而是由一堆資料庫節點共同構成的一個分布式網路服務，對Cassandra 的一個寫操作，會被復制到其他節點上去，對Cassandra的讀操作，也會被路由到某個節點上面去讀取。對於一個Cassandra群集來說，擴展性能是比較簡單的事情，只管在群集裡面添加節點就可以了。
Cassandra是一個混合型的非關系的資料庫，類似於Google的BigTable。其主要功能比 Dynomite（分布式的Key-Value存儲系統）更豐富，但支持度卻不如文檔存儲MongoDB（介於關系資料庫和非關系資料庫之間的開源產品，是非關系資料庫當中功能最豐富，最像關系資料庫的。Cassandra最初由Facebook開發，後轉變成了開源項目。它是一個網路社交雲計算方面理想的資料庫。以Amazon專有的完全分布式的Dynamo為基礎，結合了Google BigTable基於列族（Column Family）的數據模型。P2P去中心化的存儲。很多方面都可以稱之為Dynamo 2.0。
CouchDB
所用語言： Erlang
特點：DB一致性，易於使用
使用許可： Apache
協議： HTTP/REST
雙向數據復制，持續進行或臨時處理，處理時帶沖突檢查，因此，採用的是master-master復制
MVCC – 寫操作不阻塞讀操作
可保存文件之前的版本
Crash-only（可靠的）設計
需要不時地進行數據壓縮
視圖：嵌入式映射/減少
格式化視圖：列表顯示
支持進行伺服器端文檔驗證
支持認證
根據變化實時更新
支持附件處理
因此， CouchApps（獨立的 js應用程序）
需要 jQuery程序庫
最佳應用場景：適用於數據變化較少，執行預定義查詢，進行數據統計的應用程序。適用於需要提供數據版本支持的應用程序。
例如：CRM、CMS系統。 master-master復制對於多站點部署是非常有用的。
和其他資料庫比較，其突出特點是：
◆ 模式靈活：使用Cassandra，像文檔存儲，你不必提前解決記錄中的欄位。你可以在系統運行時隨意的添加或移除欄位。這是一個驚人的效率提升，特別是在大型部署上。
◆ 真正的可擴展性：Cassandra是純粹意義上的水平擴展。為給集群添加更多容量，可以指向另一台電腦。你不必重啟任何進程，改變應用查詢，或手動遷移任何數據。
◆ 多數據中心識別：你可以調整你的節點布局來避免某一個數據中心起火，一個備用的數據中心將至少有每條記錄的完全復制。
◆ 范圍查詢：如果你不喜歡全部的鍵值查詢，則可以設置鍵的范圍來查詢。
◆ 列表數據結構：在混合模式可以將超級列添加到5維。對於每個用戶的索引，這是非常方便的。
◆ 分布式寫操作：有可以在任何地方任何時間集中讀或寫任何數據。並且不會有任何單點失敗。
問度娘，啥都有。

『叄』請問那個高手用過oracle nosql資料庫，求幫助急.........

下載NoSQL(社區版、企業版)：

http://www.oracle.com/technetwork/database/nosqldb/downloads/index.html

如果沒有還要下載JAVA：

http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html

把下載的kv-ce-2.1.3.zip解壓到kv-ce-2.1.3目錄里，
命令行窗口1：
cdkv-ce-2.1.3
java-jarlib/kvstore.jarkvlite
命令行窗口2：
cdkv-2.1.3
java-jarlib/kvstore.jarping-hostmyhost-port5000

編譯並運行實常式序：
javac-cpexamples:lib/kvclient.jarexamples/hello/HelloBigDataWorld.java
java-cpexamples:lib/kvclient.jarhello.HelloBigDataWorld

管理示例：
java-jarlib/kvstore.jarrunadmin-hosthost01-port5000
kv->configure-name"mystore"
kv->plandeploy-datacenter-nameMyDC-rf3-wait
kv->plandeploy-sn-dcnameMyDC-hosthost01-port5000-wait
kv->plandeploy-admin-snsn1-port5001
kv->poolcreate-nameMyPool
kv->pooljoin-nameMyPool-snsn1
kv->plandeploy-sn-dcnameMyDC-hosthost02-port5000-wait
kv->pooljoin-nameMyPool-snsn2
kv->plandeploy-sn-dcnameMyDC-hosthost03-port5000-wait
kv->pooljoin-nameMyPool-snsn3
kv->topologycreate-nameMyStoreLayout-poolMyPool-partitions100
kv->topologypreview-nameMyStoreLayout
kv->plandeploy-topology-nameMyStoreLayout-wait
kv->showplans
kv->showtopology
kv->verify
kv->quit

『肆』如何用好NoSQL

No SQL DB是一種和關系型資料庫相對應的對象資料庫。按照數據模型保存性質將當前NoSQL分為四種：

1.Key-value stores鍵值存儲, 保存keys+BLOBs

2.Table-oriented 面向表, 主要有Google的BigTable和Cassandra.

3.Document-oriented面向文本, 文本是一種類似XML文檔，MongoDB 和 CouchDB

4.Graph-oriented 面向圖論. 如Neo4J.

關系型資料庫的弊端：

關系型資料庫的歷史已經有30餘年了，因此，在某些情況下，關系型資料庫的弱點就會暴露出來：

1. 「對象-關系阻抗不匹配」。關系模型和面向對象模型在概念上存在天然的不匹配的地方，比如對象模型當中特有的「繼承」，「組合」，「聚合」，「依賴」的概念在關系模型當中是不存在的。

2. 「模式演進」。即隨著時間的推移，需要對資料庫模式進行調整以便適應新的需求，然而，對資料庫模式的調整是的成本很高的動作，因此很多設計師在系統設計之初會設計一個兼容性很強的資料庫模式，以應對將來可能出現的需求，然而在現在的web系統開發過程中，系統的變更更加頻繁，幾乎無法預先設計出一種「萬能」的資料庫模式以滿足所有的需求，因此模式演進的弊端就愈發凸顯。

3. 關系型資料庫處理稀疏表時的性能非常差。

4. networkoriented data 很適合處理人工智慧、社交網路中的一些需求。

所以，各種各樣的No SQL DB 出現了，這里只簡單介紹下Neo4J 的基本知識。

Neo 數據模型

Neo4J 是一個基於圖實現的No SQL DB, 其基本的數據類型有如下幾種：

Node, Relationship, Property.

Node 對應於圖中的節點，Relationship 對應圖中的邊，Node 和 Relationship 都可以擁有Property，

Property 的數據結構為。

數據遍歷

『伍』「大數據架構」用哪種框架更為合適

個完整的大數據平台應該提供離線計算、即席查詢、實時計算、實時查詢這幾個方面的功能。
hadoop、spark、storm 無論哪一個，單獨不可能完成上面的所有功能。

hadoop+spark+hive是一個很不錯的選擇.hadoop的HDFS毋庸置疑是分布式文件系統的解決方案，解決存儲問題；hadoop maprece、hive、spark application、sparkSQL解決的是離線計算和即席查詢的問題；spark streaming解決的是實時計算問題；另外，還需要HBase或者Redis等NOSQL技術來解決實時查詢的問題。

除了這些，大數據平台中必不可少的需要任務調度系統和數據交換工具；
任務調度系統解決所有大數據平台中的任務調度與監控；數據交換工具解決其他數據源與HDFS之間的數據傳輸，比如：資料庫到HDFS、HDFS到資料庫等等。關於大數據平台的架構技術文章，可搜索"lxw的大數據田地"，裡面有很多。

『陸』大數據時代發展歷程是什麼

大數據技術發展史：大數據的前世今生

今天我們常說的大數據技術，其實起源於Google在2004年前後發表的三篇論文，也就是我們經常聽到的「三駕馬車」，分別是分布式文件系統GFS、大數據分布式計算框架MapRece和NoSQL資料庫系統BigTable。

你知道，搜索引擎主要就做兩件事情，一個是網頁抓取，一個是索引構建，而在這個過程中，有大量的數據需要存儲和計算。這「三駕馬車」其實就是用來解決這個問題的，你從介紹中也能看出來，一個文件系統、一個計算框架、一個資料庫系統。

現在你聽到分布式、大數據之類的詞，肯定一點兒也不陌生。但你要知道，在2004年那會兒，整個互聯網還處於懵懂時代，Google發布的論文實在是讓業界為之一振，大家恍然大悟，原來還可以這么玩。

因為那個時間段，大多數公司的關注點其實還是聚焦在單機上，在思考如何提升單機的性能，尋找更貴更好的伺服器。而Google的思路是部署一個大規模的伺服器集群，通過分布式的方式將海量數據存儲在這個集群上，然後利用集群上的所有機器進行數據計算。這樣，Google其實不需要買很多很貴的伺服器，它只要把這些普通的機器組織到一起，就非常厲害了。

當時的天才程序員，也是Lucene開源項目的創始人Doug Cutting正在開發開源搜索引擎Nutch，閱讀了Google的論文後，他非常興奮，緊接著就根據論文原理初步實現了類似GFS和MapRece的功能。

兩年後的2006年，Doug Cutting將這些大數據相關的功能從Nutch中分離了出來，然後啟動了一個獨立的項目專門開發維護大數據技術，這就是後來赫赫有名的Hadoop，主要包括Hadoop分布式文件系統HDFS和大數據計算引擎MapRece。

當我們回顧軟體開發的歷史，包括我們自己開發的軟體，你會發現，有的軟體在開發出來以後無人問津或者寥寥數人使用，這樣的軟體其實在所有開發出來的軟體中佔大多數。而有的軟體則可能會開創一個行業，每年創造數百億美元的價值，創造百萬計的就業崗位，這些軟體曾經是Windows、Linux、Java，而現在這個名單要加上Hadoop的名字。

如果有時間，你可以簡單瀏覽下Hadoop的代碼，這個純用Java編寫的軟體其實並沒有什麼高深的技術難點，使用的也都是一些最基礎的編程技巧，也沒有什麼出奇之處，但是它卻給社會帶來巨大的影響，甚至帶動一場深刻的科技革命，推動了人工智慧的發展與進步。

我覺得，我們在做軟體開發的時候，也可以多思考一下，我們所開發軟體的價值點在哪裡？真正需要使用軟體實現價值的地方在哪裡？你應該關注業務、理解業務，有價值導向，用自己的技術為公司創造真正的價值，進而實現自己的人生價值。而不是整天埋頭在需求說明文檔里，做一個沒有思考的代碼機器人。

Hadoop發布之後，Yahoo很快就用了起來。大概又過了一年到了2007年，網路和阿里巴巴也開始使用Hadoop進行大數據存儲與計算。

2008年，Hadoop正式成為Apache的頂級項目，後來Doug Cutting本人也成為了Apache基金會的主席。自此，Hadoop作為軟體開發領域的一顆明星冉冉升起。

同年，專門運營Hadoop的商業公司Cloudera成立，Hadoop得到進一步的商業支持。

這個時候，Yahoo的一些人覺得用MapRece進行大數據編程太麻煩了，於是便開發了Pig。Pig是一種腳本語言，使用類SQL的語法，開發者可以用Pig腳本描述要對大數據集上進行的操作，Pig經過編譯後會生成MapRece程序，然後在Hadoop上運行。

編寫Pig腳本雖然比直接MapRece編程容易，但是依然需要學習新的腳本語法。於是Facebook又發布了Hive。Hive支持使用SQL語法來進行大數據計算，比如說你可以寫個Select語句進行數據查詢，然後Hive會把SQL語句轉化成MapRece的計算程序。

這樣，熟悉資料庫的數據分析師和工程師便可以無門檻地使用大數據進行數據分析和處理了。Hive出現後極大程度地降低了Hadoop的使用難度，迅速得到開發者和企業的追捧。據說，2011年的時候，Facebook大數據平台上運行的作業90%都來源於Hive。

隨後，眾多Hadoop周邊產品開始出現，大數據生態體系逐漸形成，其中包括：專門將關系資料庫中的數據導入導出到Hadoop平台的Sqoop；針對大規模日誌進行分布式收集、聚合和傳輸的Flume；MapRece工作流調度引擎Oozie等。

在Hadoop早期，MapRece既是一個執行引擎，又是一個資源調度框架，伺服器集群的資源調度管理由MapRece自己完成。但是這樣不利於資源復用，也使得MapRece非常臃腫。於是一個新項目啟動了，將MapRece執行引擎和資源調度分離開來，這就是Yarn。2012年，Yarn成為一個獨立的項目開始運營，隨後被各類大數據產品支持，成為大數據平台上最主流的資源調度系統。

同樣是在2012年，UC伯克利AMP實驗室（Algorithms、Machine和People的縮寫）開發的Spark開始嶄露頭角。當時AMP實驗室的馬鐵博士發現使用MapRece進行機器學習計算的時候性能非常差，因為機器學習演算法通常需要進行很多次的迭代計算，而MapRece每執行一次Map和Rece計算都需要重新啟動一次作業，帶來大量的無謂消耗。還有一點就是MapRece主要使用磁碟作為存儲介質，而2012年的時候，內存已經突破容量和成本限制，成為數據運行過程中主要的存儲介質。Spark一經推出，立即受到業界的追捧，並逐步替代MapRece在企業應用中的地位。

一般說來，像MapRece、Spark這類計算框架處理的業務場景都被稱作批處理計算，因為它們通常針對以「天」為單位產生的數據進行一次計算，然後得到需要的結果，這中間計算需要花費的時間大概是幾十分鍾甚至更長的時間。因為計算的數據是非在線得到的實時數據，而是歷史數據，所以這類計算也被稱為大數據離線計算。

而在大數據領域，還有另外一類應用場景，它們需要對實時產生的大量數據進行即時計算，比如對於遍布城市的監控攝像頭進行人臉識別和嫌犯追蹤。這類計算稱為大數據流計算，相應地，有Storm、Flink、Spark Streaming等流計算框架來滿足此類大數據應用的場景。流式計算要處理的數據是實時在線產生的數據，所以這類計算也被稱為大數據實時計算。

在典型的大數據的業務場景下，數據業務最通用的做法是，採用批處理的技術處理歷史全量數據，採用流式計算處理實時新增數據。而像Flink這樣的計算引擎，可以同時支持流式計算和批處理計算。

除了大數據批處理和流處理，NoSQL系統處理的主要也是大規模海量數據的存儲與訪問，所以也被歸為大數據技術。 NoSQL曾經在2011年左右非常火爆，涌現出HBase、Cassandra等許多優秀的產品，其中HBase是從Hadoop中分離出來的、基於HDFS的NoSQL系統。

我們回顧軟體發展的歷史會發現，差不多類似功能的軟體，它們出現的時間都非常接近，比如Linux和Windows都是在90年代初出現，Java開發中的各類MVC框架也基本都是同期出現，Android和iOS也是前腳後腳問世。2011年前後，各種NoSQL資料庫也是層出不群，我也是在那個時候參與開發了阿里巴巴自己的NoSQL系統。

事物發展有自己的潮流和規律，當你身處潮流之中的時候，要緊緊抓住潮流的機會，想辦法脫穎而出，即使沒有成功，也會更加洞悉時代的脈搏，收獲珍貴的知識和經驗。而如果潮流已經退去，這個時候再去往這個方向上努力，只會收獲迷茫與壓抑，對時代、對自己都沒有什麼幫助。

但是時代的浪潮猶如海灘上的浪花，總是一浪接著一浪，只要你站在海邊，身處這個行業之中，下一個浪潮很快又會到來。你需要敏感而又深刻地去觀察，略去那些浮躁的泡沫，抓住真正潮流的機會，奮力一搏，不管成敗，都不會遺憾。

正所謂在歷史前進的邏輯中前進，在時代發展的潮流中發展。通俗的說，就是要在風口中飛翔。

上面我講的這些基本上都可以歸類為大數據引擎或者大數據框架。而大數據處理的主要應用場景包括數據分析、數據挖掘與機器學習。數據分析主要使用Hive、Spark SQL等SQL引擎完成；數據挖掘與機器學習則有專門的機器學習框架TensorFlow、Mahout以及MLlib等，內置了主要的機器學習和數據挖掘演算法。

此外，大數據要存入分布式文件系統（HDFS），要有序調度MapRece和Spark作業執行，並能把執行結果寫入到各個應用系統的資料庫中，還需要有一個大數據平台整合所有這些大數據組件和企業應用系統。

圖中的所有這些框架、平台以及相關的演算法共同構成了大數據的技術體系，我將會在專欄後面逐個分析，幫你能夠對大數據技術原理和應用演算法構建起完整的知識體系，進可以專職從事大數據開發，退可以在自己的應用開發中更好地和大數據集成，掌控自己的項目。

希望對您有所幫助！~

『柒』大數據專業的發展前景怎麼樣

前景很不錯。一方面國家大力支持大數據行業的發展，已經上升為國際戰略的今天，大數據人才正在擁有更多的發展機會。另一方面許多的領域都是缺乏這方面的人才，騰訊阿里等互聯網大廠都是高薪招聘相關人才。

大數據的擇業崗位有：

1、大數據開發方向; 所涉及的職業崗位為：大數據工程師、大數據維護工程師、大數據研發工程師、大數據架構師等;

2、數據挖掘、數據分析和機器學習方向; 所涉及的職業崗位為：大數據分析師、大數據高級工程師、大數據分析師專家、大數據挖掘師、大數據演算法師等;

3、大數據運維和雲計算方向;對應崗位：大數據運維工程師。

大數據學習內容主要有：

①JavaSE核心技術；

②Hadoop平台核心技術、Hive開發、HBase開發；

③Spark相關技術、Scala基本編程；

④掌握Python基本使用、核心庫的使用、Python爬蟲、簡單數據分析；理解Python機器學習；

⑤大數據項目開發實戰，大數據系統管理優化等。

想要系統學習，你可以考察對比一下開設有IT專業的熱門學校，好的學校擁有根據當下企業需求自主研發課程的能，南京北大青鳥、中博軟體學院、南京課工場等都是不錯的選擇，建議實地考察對比一下。

祝你學有所成，望採納。

『捌』大數據包括哪些

簡單來說，從大數據的生命周期來看，無外乎四個方面：大數據採集、大數據預處理、大數據存儲、大數據分析，共同組成了大數據生命周期里最核心的技術，下面分開來說：

一、大數據採集

大數據採集，即對各種來源的結構化和非結構化海量數據，所進行的採集。

資料庫採集：流行的有Sqoop和ETL，傳統的關系型資料庫MySQL和Oracle 也依然充當著許多企業的數據存儲方式。當然了，目前對於開源的Kettle和Talend本身，也集成了大數據集成內容，可實現hdfs，hbase和主流Nosq資料庫之間的數據同步和集成。
網路數據採集：一種藉助網路爬蟲或網站公開API，從網頁獲取非結構化或半結構化數據，並將其統一結構化為本地數據的數據採集方式。
文件採集：包括實時文件採集和處理技術flume、基於ELK的日誌採集和增量採集等等。

二、大數據預處理

大數據預處理，指的是在進行數據分析之前，先對採集到的原始數據所進行的諸如「清洗、填補、平滑、合並、規格化、一致性檢驗」等一系列操作，旨在提高數據質量，為後期分析工作奠定基礎。數據預處理主要包括四個部分：數據清理、數據集成、數據轉換、數據規約。

數據清理：指利用ETL等清洗工具，對有遺漏數據(缺少感興趣的屬性)、噪音數據(數據中存在著錯誤、或偏離期望值的數據)、不一致數據進行處理。
數據集成：是指將不同數據源中的數據，合並存放到統一資料庫的，存儲方法，著重解決三個問題：模式匹配、數據冗餘、數據值沖突檢測與處理。
數據轉換：是指對所抽取出來的數據中存在的不一致，進行處理的過程。它同時包含了數據清洗的工作，即根據業務規則對異常數據進行清洗，以保證後續分析結果准確性。
數據規約：是指在最大限度保持數據原貌的基礎上，最大限度精簡數據量，以得到較小數據集的操作，包括：數據方聚集、維規約、數據壓縮、數值規約、概念分層等。

三、大數據存儲

大數據存儲，指用存儲器，以資料庫的形式，存儲採集到的數據的過程，包含三種典型路線：

1、基於MPP架構的新型資料庫集群

採用Shared Nothing架構，結合MPP架構的高效分布式計算模式，通過列存儲、粗粒度索引等多項大數據處理技術，重點面向行業大數據所展開的數據存儲方式。具有低成本、高性能、高擴展性等特點，在企業分析類應用領域有著廣泛的應用。

較之傳統資料庫，其基於MPP產品的PB級數據分析能力，有著顯著的優越性。自然，MPP資料庫，也成為了企業新一代數據倉庫的最佳選擇。

2、基於Hadoop的技術擴展和封裝

基於Hadoop的技術擴展和封裝，是針對傳統關系型資料庫難以處理的數據和場景（針對非結構化數據的存儲和計算等），利用Hadoop開源優勢及相關特性（善於處理非結構、半結構化數據、復雜的ETL流程、復雜的數據挖掘和計算模型等），衍生出相關大數據技術的過程。

伴隨著技術進步，其應用場景也將逐步擴大，目前最為典型的應用場景：通過擴展和封裝 Hadoop來實現對互聯網大數據存儲、分析的支撐，其中涉及了幾十種NoSQL技術。

3、大數據一體機

這是一種專為大數據的分析處理而設計的軟、硬體結合的產品。它由一組集成的伺服器、存儲設備、操作系統、資料庫管理系統，以及為數據查詢、處理、分析而預安裝和優化的軟體組成，具有良好的穩定性和縱向擴展性。

四、大數據分析挖掘

從可視化分析、數據挖掘演算法、預測性分析、語義引擎、數據質量管理等方面，對雜亂無章的數據，進行萃取、提煉和分析的過程。

1、可視化分析

可視化分析，指藉助圖形化手段，清晰並有效傳達與溝通信息的分析手段。主要應用於海量數據關聯分析，即藉助可視化數據分析平台，對分散異構數據進行關聯分析，並做出完整分析圖表的過程。
具有簡單明了、清晰直觀、易於接受的特點。

2、數據挖掘演算法

數據挖掘演算法，即通過創建數據挖掘模型，而對數據進行試探和計算的，數據分析手段。它是大數據分析的理論核心。

數據挖掘演算法多種多樣，且不同演算法因基於不同的數據類型和格式，會呈現出不同的數據特點。但一般來講，創建模型的過程卻是相似的，即首先分析用戶提供的數據，然後針對特定類型的模式和趨勢進行查找，並用分析結果定義創建挖掘模型的最佳參數，並將這些參數應用於整個數據集，以提取可行模式和詳細統計信息。

3、預測性分析

預測性分析，是大數據分析最重要的應用領域之一，通過結合多種高級分析功能（特別統計分析、預測建模、數據挖掘、文本分析、實體分析、優化、實時評分、機器學習等），達到預測不確定事件的目的。

幫助分用戶析結構化和非結構化數據中的趨勢、模式和關系，並運用這些指標來預測將來事件，為採取措施提供依據。

4、語義引擎

語義引擎，指通過為已有數據添加語義的操作，提高用戶互聯網搜索體驗。

5、數據質量管理

指對數據全生命周期的每個階段（計劃、獲取、存儲、共享、維護、應用、消亡等）中可能引發的各類數據質量問題，進行識別、度量、監控、預警等操作，以提高數據質量的一系列管理活動。

以上是從大的方面來講，具體來說大數據的框架技術有很多，這里列舉其中一些：

文件存儲：Hadoop HDFS、Tachyon、KFS

離線計算：Hadoop MapRece、Spark

流式、實時計算：Storm、Spark Streaming、S4、Heron

K-V、NOSQL資料庫：HBase、Redis、MongoDB

資源管理：YARN、Mesos

日誌收集：Flume、Scribe、Logstash、Kibana

消息系統：Kafka、StormMQ、ZeroMQ、RabbitMQ

查詢分析：Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid

分布式協調服務：Zookeeper

集群管理與監控：Ambari、Ganglia、Nagios、Cloudera Manager

數據挖掘、機器學習：Mahout、Spark MLLib

數據同步：Sqoop

任務調度：Oozie

······

想要學習更多關於大數據的知識可以加群和志同道合的人一起交流一下啊[https://sourl.cn/d9wRmb ]

『玖』大數據包括一些什麼

大數據技術包括數據收集、數據存取、基礎架構、數據處理、統計分析、數據挖掘、模型預測、結果呈現1、數據收集：在大數據的生命周期中，數據採集處於第一個環節。根據MapRece產生數據的應用系統分類，大數據的採集主要有4種來源：管理信息系統、Web信息系統、物理信息系統、科學實驗系統。2、數據存取：大數據的存去採用不同的技術路線，大致可以分為3類。第1類主要面對的是大規模的結構化數據。第2類主要面對的是半結構化和非結構化數據。第3類面對的是結構化和非結構化混合的大數據，3、基礎架構：雲存儲、分布式文件存儲等。4、數據處理：對於採集到的不同的數據集，可能存在不同的結構和模式，如文件、XML 樹、關系表等，表現為數據的異構性。對多個異構的數據集，需要做進一步集成處理或整合處理，將來自不同數據集的數據收集、整理、清洗、轉換後，生成到一個新的數據集，為後續查詢和分析處理提供統一的數據視圖。5、統計分析：假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。6、數據挖掘：目前，還需要改進已有數據挖掘和機器學習技術；開發數據網路挖掘、特異群組挖掘、圖挖掘等新型數據挖掘技術；突破基於對象的數據連接、相似性連接等大數據融合技術；突破用戶興趣分析、網路行為分析、情感語義分析等面向領域的大數據挖掘技術。7、模型預測：預測模型、機器學習、建模模擬。8、結果呈現：雲計算、標簽雲、關系圖等。

『拾』請問大數據的關鍵技術有哪些

分布式計算，非結構化資料庫，分類、聚類等演算法。

大數據包括結構化、半結構化和非結構化數據，非結構化數據越來越成為數據的主要部分。據IDC的調查報告顯示：企業中80%的數據都是非結構化數據，這些數據每年都按指數增長60%。

(10)bigdatanosql擴展閱讀：

大數據（Big data）通常用來形容一個公司創造的大量非結構化數據和半結構化數據，這些數據在下載到關系型資料庫用於分析時會花費過多時間和金錢。

大數據分析常和雲計算聯繫到一起，因為實時的大型數據集分析需要像MapRece一樣的框架來向數十、數百或甚至數千的電腦分配工作。

大數據需要特殊的技術，以有效地處理大量的容忍經過時間內的數據。適用於大數據的技術，包括大規模並行處理（MPP）資料庫、數據挖掘、分布式文件系統、分布式資料庫、雲計算平台、互聯網和可擴展的存儲系統。

bigdatanosql

與bigdatanosql相關的內容