特點:
它們可以處理超大量的數據。
它們運行在便宜的PC伺服器集群上。
PC集群擴充起來非常方便並且成本很低,避免了「sharding」操作的復雜性和成本。
它們擊碎了性能瓶頸。
NoSQL的支持者稱,通過NoSQL架構可以省去將Web或Java應用和數據轉換成SQL友好格式的時間,執行速度變得更快。
「SQL並非適用於所有的程序代碼,」 對於那些繁重的重復操作的數據,SQL值得花錢。但是當資料庫結構非常簡單時,SQL可能沒有太大用處。
沒有過多的操作。
雖然NoSQL的支持者也承認關系資料庫提供了無可比擬的功能集合,而且在數據完整性上也發揮絕對穩定,他們同時也表示,企業的具體需求可能沒有那麼多。
Bootstrap支持
因為NoSQL項目都是開源的,因此它們缺乏供應商提供的正式支持。這一點它們與大多數開源項目一樣,不得不從社區中尋求支持。
優點:
易擴展
NoSQL資料庫種類繁多,但是一個共同的特點都是去掉關系資料庫的關系型特性。數據之間無關系,這樣就非常容易擴展。也無形之間,在架構的層面上帶來了可擴展的能力。
大數據量,高性能
NoSQL資料庫都具有非常高的讀寫性能,尤其在大數據量下,同樣表現優秀。這得益於它的無關系性,資料庫的結構簡單。一般MySQL使用 Query Cache,每次表的更新Cache就失效,是一種大粒度的Cache,在針對web2.0的交互頻繁的應用,Cache性能不高。而NoSQL的 Cache是記錄級的,是一種細粒度的Cache,所以NoSQL在這個層面上來說就要性能高很多了。
靈活的數據模型
NoSQL無需事先為要存儲的數據建立欄位,隨時可以存儲自定義的數據格式。而在關系資料庫里,增刪欄位是一件非常麻煩的事情。如果是非常大數據量的表,增加欄位簡直就是一個噩夢。這點在大數據量的web2.0時代尤其明顯。
高可用
NoSQL在不太影響性能的情況,就可以方便的實現高可用的架構。比如Cassandra,HBase模型,通過復制模型也能實現高可用。
主要應用:
Apache HBase
這個大數據管理平台建立在谷歌強大的BigTable管理引擎基礎上。作為具有開源、Java編碼、分布式多個優勢的資料庫,Hbase最初被設計應用於Hadoop平台,而這一強大的數據管理工具,也被Facebook採用,用於管理消息平台的龐大數據。
Apache Storm
用於處理高速、大型數據流的分布式實時計算系統。Storm為Apache Hadoop添加了可靠的實時數據處理功能,同時還增加了低延遲的儀錶板、安全警報,改進了原有的操作方式,幫助企業更有效率地捕獲商業機會、發展新業務。
Apache Spark
該技術採用內存計算,從多迭代批量處理出發,允許將數據載入內存做反復查詢,此外還融合數據倉庫、流處理和圖計算等多種計算範式,Spark用Scala語言實現,構建在HDFS上,能與Hadoop很好的結合,而且運行速度比MapRece快100倍。
Apache Hadoop
該技術迅速成為了大數據管理標准之一。當它被用來管理大型數據集時,對於復雜的分布式應用,Hadoop體現出了非常好的性能,平台的靈活性使它可以運行在商用硬體系統,它還可以輕松地集成結構化、半結構化和甚至非結構化數據集。
Apache Drill
你有多大的數據集?其實無論你有多大的數據集,Drill都能輕松應對。通過支持HBase、Cassandra和MongoDB,Drill建立了互動式分析平台,允許大規模數據吞吐,而且能很快得出結果。
Apache Sqoop
也許你的數據現在還被鎖定於舊系統中,Sqoop可以幫你解決這個問題。這一平台採用並發連接,可以將數據從關系資料庫系統方便地轉移到Hadoop中,可以自定義數據類型以及元數據傳播的映射。事實上,你還可以將數據(如新的數據)導入到HDFS、Hive和Hbase中。
Apache Giraph
這是功能強大的圖形處理平台,具有很好可擴展性和可用性。該技術已經被Facebook採用,Giraph可以運行在Hadoop環境中,可以將它直接部署到現有的Hadoop系統中。通過這種方式,你可以得到強大的分布式作圖能力,同時還能利用上現有的大數據處理引擎。
Cloudera Impala
Impala模型也可以部署在你現有的Hadoop群集上,監視所有的查詢。該技術和MapRece一樣,具有強大的批處理能力,而且Impala對於實時的SQL查詢也有很好的效果,通過高效的SQL查詢,你可以很快的了解到大數據平台上的數據。
Gephi
它可以用來對信息進行關聯和量化處理,通過為數據創建功能強大的可視化效果,你可以從數據中得到不一樣的洞察力。Gephi已經支持多個圖表類型,而且可以在具有上百萬個節點的大型網路上運行。Gephi具有活躍的用戶社區,Gephi還提供了大量的插件,可以和現有系統完美的集成到一起,它還可以對復雜的IT連接、分布式系統中各個節點、數據流等信息進行可視化分析。
MongoDB
這個堅實的平台一直被很多組織推崇,它在大數據管理上有極好的性能。MongoDB最初是由DoubleClick公司的員工創建,現在該技術已經被廣泛的應用於大數據管理。MongoDB是一個應用開源技術開發的NoSQL資料庫,可以用於在JSON這樣的平台上存儲和處理數據。目前,紐約時報、Craigslist以及眾多企業都採用了MongoDB,幫助他們管理大型數據集。(Couchbase伺服器也作為一個參考)。
十大頂尖公司:
Amazon Web Services
Forrester將AWS稱為「雲霸主」,談到雲計算領域的大數據,那就不得不提到亞馬遜。該公司的Hadoop產品被稱為EMR(Elastic Map Rece),AWS解釋這款產品採用了Hadoop技術來提供大數據管理服務,但它不是純開源Hadoop,經過修改後現在被專門用在AWS雲上。
Forrester稱EMR有很好的市場前景。很多公司基於EMR為客戶提供服務,有一些公司將EMR應用於數據查詢、建模、集成和管理。而且AWS還在創新,Forrester稱未來EMR可以基於工作量的需要自動縮放調整大小。亞馬遜計劃為其產品和服務提供更強大的EMR支持,包括它的RedShift數據倉庫、新公布的Kenesis實時處理引擎以及計劃中的NoSQL資料庫和商業智能工具。不過AWS還沒有自己的Hadoop發行版。
Cloudera
Cloudera有開源Hadoop的發行版,這個發行版採用了Apache Hadoop開源項目的很多技術,不過基於這些技術的發行版也有很大的進步。Cloudera為它的Hadoop發行版開發了很多功能,包括Cloudera管理器,用於管理和監控,以及名為Impala的SQL引擎等。Cloudera的Hadoop發行版基於開源Hadoop,但也不是純開源的產品。當Cloudera的客戶需要Hadoop不具備的某些功能時,Cloudera的工程師們就會實現這些功能,或者找一個擁有這項技術的合作夥伴。Forrester表示:「Cloudera的創新方法忠於核心Hadoop,但因為其可實現快速創新並積極滿足客戶需求,這一點使它不同於其他那些供應商。」目前,Cloudera的平台已經擁有200多個付費客戶,一些客戶在Cloudera的技術支持下已經可以跨1000多個節點實現對PB級數據的有效管理。
Hortonworks
和Cloudera一樣,Hortonworks是一個純粹的Hadoop技術公司。與Cloudera不同的是,Hortonworks堅信開源Hadoop比任何其他供應商的Hadoop發行版都要強大。Hortonworks的目標是建立Hadoop生態圈和Hadoop用戶社區,推進開源項目的發展。Hortonworks平台和開源Hadoop聯系緊密,公司管理人員表示這會給用戶帶來好處,因為它可以防止被供應商套牢(如果Hortonworks的客戶想要離開這個平台,他們可以輕松轉向其他開源平台)。這並不是說Hortonworks完全依賴開源Hadoop技術,而是因為該公司將其所有開發的成果回報給了開源社區,比如Ambari,這個工具就是由Hortonworks開發而成,用來填充集群管理項目漏洞。Hortonworks的方案已經得到了Teradata、Microsoft、Red Hat和SAP這些供應商的支持。
IBM
當企業考慮一些大的IT項目時,很多人首先會想到IBM。IBM是Hadoop項目的主要參與者之一,Forrester稱IBM已有100多個Hadoop部署,它的很多客戶都有PB級的數據。IBM在網格計算、全球數據中心和企業大數據項目實施等眾多領域有著豐富的經驗。「IBM計劃繼續整合SPSS分析、高性能計算、BI工具、數據管理和建模、應對高性能計算的工作負載管理等眾多技術。」
Intel
和AWS類似,英特爾不斷改進和優化Hadoop使其運行在自己的硬體上,具體來說,就是讓Hadoop運行在其至強晶元上,幫助用戶打破Hadoop系統的一些限制,使軟體和硬體結合的更好,英特爾的Hadoop發行版在上述方面做得比較好。Forrester指出英特爾在最近才推出這個產品,所以公司在未來還有很多改進的可能,英特爾和微軟都被認為是Hadoop市場上的潛力股。
MapR Technologies
MapR的Hadoop發行版目前為止也許是最好的了,不過很多人可能都沒有聽說過。Forrester對Hadoop用戶的調查顯示,MapR的評級最高,其發行版在架構和數據處理能力上都獲得了最高分。MapR已將一套特殊功能融入其Hadoop發行版中。例如網路文件系統(NFS)、災難恢復以及高可用性功能。Forrester說MapR在Hadoop市場上沒有Cloudera和Hortonworks那樣的知名度,MapR要成為一個真正的大企業,還需要加強夥伴關系和市場營銷。
Microsoft
微軟在開源軟體問題上一直很低調,但在大數據形勢下,它不得不考慮讓Windows也兼容Hadoop,它還積極投入到開源項目中,以更廣泛地推動Hadoop生態圈的發展。我們可以在微軟的公共雲Windows Azure HDInsight產品中看到其成果。微軟的Hadoop服務基於Hortonworks的發行版,而且是為Azure量身定製的。
微軟也有一些其他的項目,包括名為Polybase的項目,讓Hadoop查詢實現了SQLServer查詢的一些功能。Forrester說:「微軟在資料庫、數據倉庫、雲、OLAP、BI、電子表格(包括PowerPivot)、協作和開發工具市場上有很大優勢,而且微軟擁有龐大的用戶群,但要在Hadoop這個領域成為行業領導者還有很遠的路要走。」
Pivotal Software
EMC和Vmware部分大數據業務分拆組合產生了Pivotal。Pivotal一直努力構建一個性能優越的Hadoop發行版,為此,Pivotal在開源Hadoop的基礎上又添加了一些新的工具,包括一個名為HAWQ的SQL引擎以及一個專門解決大數據問題的Hadoop應用。Forrester稱Pivotal Hadoop平台的優勢在於它整合了Pivotal、EMC、Vmware的眾多技術,Pivotal的真正優勢實際上等於EMC和Vmware兩大公司為其撐腰。到目前為止,Pivotal的用戶還不到100個,而且大多是中小型客戶。
Teradata
對於Teradata來說,Hadoop既是一種威脅也是一種機遇。數據管理,特別是關於SQL和關系資料庫這一領域是Teradata的專長。所以像Hadoop這樣的NoSQL平台崛起可能會威脅到Teradata。相反,Teradata接受了Hadoop,通過與Hortonworks合作,Teradata在Hadoop平台集成了SQL技術,這使Teradata的客戶可以在Hadoop平台上方便地使用存儲在Teradata數據倉庫中的數據。
AMPLab
通過將數據轉變為信息,我們才可以理解世界,而這也正是AMPLab所做的。AMPLab致力於機器學習、數據挖掘、資料庫、信息檢索、自然語言處理和語音識別等多個領域,努力改進對信息包括不透明數據集內信息的甄別技術。除了Spark,開源分布式SQL查詢引擎Shark也源於AMPLab,Shark具有極高的查詢效率,具有良好的兼容性和可擴展性。近幾年的發展使計算機科學進入到全新的時代,而AMPLab為我們設想一個運用大數據、雲計算、通信等各種資源和技術靈活解決難題的方案,以應對越來越復雜的各種難題。
2. 類似QQ好友關系資料庫應該怎麼設計
同時在線人數最高時超過一億人。
不要告訴我是一對好友關系一條記錄,那樣豈不是幾十億條記錄。我想肯定不是這樣的。
------解決方案--------------------------------------------------------
userid, frientid,groupid
------解決方案--------------------------------------------------------
1、使用冗餘,每個人的好友信息都在資料庫中有存儲,就是你說的記錄一對一關系
2、數據緩存到內存,數據訪問很快
3、狀態信息修改非同步,比如一個人登陸了,他的好友不是馬上就知道,中間間隔幾秒也沒有關系
4、數據可能不放在關系資料庫中,可能使用nosql資料庫,比如mongodb,bigtable,cassandra等
5、facebook,twitter就是用類似的思想
嚴格按照範式理論就OK。
3. 如何看待yandex開源clickhouse這個列式文檔資料庫
Yandex在2016年6月15日開源了一個數據分析的資料庫,名字叫做ClickHouse,這對保守俄羅斯人來說是個特大事。更讓人驚訝的是,這個列式存儲資料庫的跑分要超過很多流行的商業MPP資料庫軟體,例如Vertica。如果你沒有聽過Vertica,那你一定聽過 Michael Stonebraker,2014年圖靈獎的獲得者,PostgreSQL和Ingres發明者(Sybase和SQL Server都是繼承 Ingres而來的), Paradigm4和SciDB的創辦者。Michael Stonebraker於2005年創辦Vertica公司,後來該公司被HP收購,HP Vertica成為MPP列式存儲商業資料庫的高性能代表,Facebook就購買了Vertica數據用於用戶行為分析。
簡單的說,ClickHouse作為分析型資料庫,有三大特點:一是跑分快, 二是功能多 ,三是文藝范
1. 跑分快: ClickHouse跑分是Vertica的5倍快:
ClickHouse性能超過了市面上大部分的列式存儲資料庫,相比傳統的數據ClickHouse要快100-1000X,ClickHouse還是有非常大的優勢:
100Million 數據集:
ClickHouse比Vertica約快5倍,比Hive快279倍,比My SQL快801倍
1Billion 數據集:
ClickHouse比Vertica約快5倍,MySQL和Hive已經無法完成任務了
2. 功能多:ClickHouse支持數據統計分析各種場景
- 支持類SQL查詢,
- 支持繁多庫函數(例如IP轉化,URL分析等,預估計算/HyperLoglog等)
- 支持數組(Array)和嵌套數據結構(Nested Data Structure)
- 支持資料庫異地復制部署
3.文藝范:目前ClickHouse的限制很多,生來就是為小資服務的
- 目前只支持Ubuntu系統
- 不提供設計和架構文檔,設計很神秘的樣子,只有開源的C++源碼
- 不理睬Hadoop生態,走自己的路
4. 為什麼很多大公司用mysql資料庫
MySQL是一種開放源代碼的關系型資料庫管理系統(RDBMS),MySQL資料庫系統使用最常用的資料庫管理語言--結構化查詢語言(SQL)進行資料庫管理。
由於MySQL是開放源代碼的,因此任何人都可以在General Public License的許可下下載並根據個性化的需要對其進行修改。MySQL因為其速度、可靠性和適應性而備受關注。大多數人都認為在不需要事務化處理的情況下,MySQL是管理內容最好的選擇。
MySQL關系型資料庫使用系統核心提供的多線程機制提供完全的多線程運行模式,提供了面向C、C++、Eiffel、Java、Perl、PHP、Python以及Tcl等編程語言的編程介面(APIs),支持多種欄位類型並且提供了完整的操作符支持查詢中的SELECT和WHERE操作。
時至今日 mysql 和 php 的結合絕對是完美.很多大型的網站也用到mysql資料庫.mysql的發展前景是非常光明的!
5. 教育數據硬幣的另一面,nosql資料庫有哪些
Membase
Membase 是 NoSQL 家族的一個新的重量級的成員。Membase是開源項目,源代碼採用了Apache2.0的使用許可。該項目託管在GitHub.Source tarballs上,可以beta版本的Linux二進制包。該產品主要是由North Scale的memcached核心團隊成員開發完成,其中還包括Zynga和NHN這兩個主要貢獻者的工程師,這兩個組織都是很大的在線游戲和社區網路空間的供應商。
Membase容易安裝、操作,可以從單節點方便的擴展到集群,而且為memcached(有線協議的兼容性)實現了即插即用功能,在應用方面為開發者和經營者提供了一個比較低的門檻。做為緩存解決方案,Memcached已經在不同類型的領域(特別是大容量的Web應用)有了廣泛的使用,其中 Memcached的部分基礎代碼被直接應用到了Membase伺服器的前端。
通過兼容多種編程語言和框架,Membase具備了很好的復用性。在安裝和配置方面,Membase提供了有效的圖形化界面和編程介面,包括可配置 的告警信息。
Membase的目標是提供對外的線性擴展能力,包括為了增加集群容量,可以針對統一的節點進行復制。 另外,對存儲的數據進行再分配仍然是必要的。
這方面的一個有趣的特性是NoSQL解決方案所承諾的可預測的性能,類准確性的延遲和吞吐量。通過如下方式可以獲得上面提到的特性:
◆ 自動將在線數據遷移到低延遲的存儲介質的技術(內存,固態硬碟,磁碟)
◆ 可選的寫操作一一非同步,同步(基於復制,持久化)
◆ 反向通道再平衡[未來考慮支持]
◆ 多線程低鎖爭用
◆ 盡可能使用非同步處理
◆ 自動實現重復數據刪除
◆ 動態再平衡現有集群
◆ 通過把數據復制到多個集群單元和支持快速失敗轉移來提供系統的高可用性。
MongoDB
MongoDB是一個介於關系資料庫和非關系資料庫之間的產品,是非關系資料庫當中功能最豐富,最像關系資料庫的。他支持的數據結構非常鬆散,是類似json的bjson格式,因此可以存儲比較復雜的數據類型。Mongo最大的特點是他支持的查詢語言非常強大,其語法有點類似於面向對象的查詢語言,幾乎可以實現類似關系資料庫單表查詢的絕大部分功能,而且還支持對數據建立索引。它的特點是高性能、易部署、易使用,存儲數據非常方便。
主要功能特性:
◆ 面向集合存儲,易存儲對象類型的數據
「面向集合」(Collenction-Oriented),意思是數據被分組存儲在數據集中,被稱為一個集合(Collenction)。每個 集合在資料庫中都有一個唯一的標識名,並且可以包含無限數目的文檔。集合的概念類似關系型資料庫(RDBMS)里的表(table),不同的是它不需要定 義任何模式(schema)。
◆ 模式自由
模式自由(schema-free),意味著對於存儲在mongodb資料庫中的文件,我們不需要知道它的任何結構定義。如果需要的話,你完全可以把不同結構的文件存儲在同一個資料庫里。
◆支持動態查詢
◆支持完全索引,包含內部對象
◆支持查詢
◆支持復制和故障恢復
◆使用高效的二進制數據存儲,包括大型對象(如等)
◆自動處理碎片,以支持雲計算層次的擴展性
◆支持RUBY,PYTHON,JAVA,C++,PHP等多種語言
◆文件存儲格式為BSON(一種JSON的擴展)
BSON(Binary Serialized document Format)存儲形式是指:存儲在集合中的文檔,被存儲為鍵-值對的形式。鍵用於唯一標識一個文檔,為字元串類型,而值則可以是各種復雜的文件類型。
◆可通過網路訪問
MongoDB服務端可運行在Linux、Windows或OS X,支持32位和64位應用,默認埠為27017。運行在64位,因為MongoDB在32位模式運行時支持的最大文件尺寸為2GB。
MongoDB把數據存儲在文件中(默認路徑為:/data/db),為提高效率使用內存映射文件進行管理。
Hypertable
Hypertable是一個開源、高性能、可伸縮的資料庫,它採用與Google的Bigtable相似的模型。在過去數年中,Google為在PC集群 上運行的可伸縮計算基礎設施設計建造了三個關鍵部分。第一個關鍵的基礎設施是Google File System(GFS),這是一個高可用的文件系統,提供了一個全局的命名空間。它通過跨機器(和跨機架)的文件數據復制來達到高可用性,並因此免受傳統 文件存儲系統無法避免的許多失敗的影響,比如電源、內存和網路埠等失敗。第二個基礎設施是名為Map-Rece的計算框架,它與GFS緊密協作,幫 助處理收集到的海量數據。第三個基礎設施是Bigtable,它是傳統資料庫的替代。Bigtable讓你可以通過一些主鍵來組織海量數據,並實現高效的 查詢。Hypertable是Bigtable的一個開源實現,並且根據我們的想法進行了一些改進。
Apache Cassandra
Apache Cassandra是一套開源分布式Key-Value存儲系統。它最初由Facebook開發,用於儲存特別大的數據。Facebook在使用此系統。
主要特性:
◆ 分布式
◆ 基於column的結構化
◆ 高伸展性
Cassandra的主要特點就是它不是一個資料庫,而是由一堆資料庫節點共同構成的一個分布式網路服務,對Cassandra 的一個寫操作,會被復制到其他節點上去,對Cassandra的讀操作,也會被路由到某個節點上面去讀取。對於一個Cassandra群集來說,擴展性能 是比較簡單的事情,只管在群集裡面添加節點就可以了。
Cassandra是一個混合型的非關系的資料庫,類似於Google的BigTable。其主要功能比 Dynomite(分布式的Key-Value存 儲系統)更豐富,但支持度卻不如文檔存儲MongoDB(介於關系資料庫和非關系資料庫之間的開源產品,是非關系資料庫當中功能最豐富,最像關系資料庫 的。Cassandra最初由Facebook開發,後轉變成了開源項目。它是一個網路社交雲計算方面理想的資料庫。以Amazon專有的完全分布式的Dynamo為基礎,結合了Google BigTable基於列族(Column Family)的數據模型。P2P去中心化的存儲。很多方面都可以稱之為Dynamo 2.0。
CouchDB
所用語言: Erlang
特點:DB一致性,易於使用
使用許可: Apache
協議: HTTP/REST
雙向數據復制,持續進行或臨時處理,處理時帶沖突檢查,因此,採用的是master-master復制
MVCC – 寫操作不阻塞讀操作
可保存文件之前的版本
Crash-only(可靠的)設計
需要不時地進行數據壓縮
視圖:嵌入式 映射/減少
格式化視圖:列表顯示
支持進行伺服器端文檔驗證
支持認證
根據變化實時更新
支持附件處理
因此, CouchApps(獨立的 js應用程序)
需要 jQuery程序庫
最佳應用場景:適用於數據變化較少,執行預定義查詢,進行數據統計的應用程序。適用於需要提供數據版本支持的應用程序。
例如:CRM、CMS系統。 master-master復制對於多站點部署是非常有用的。
和其他資料庫比較,其突出特點是:
◆ 模式靈活 :使用Cassandra,像文檔存儲,你不必提前解決記錄中的欄位。你可以在系統運行時隨意的添加或移除欄位。這是一個驚人的效率提升,特別是在大型部 署上。
◆ 真正的可擴展性 :Cassandra是純粹意義上的水平擴展。為給集群添加更多容量,可以指向另一台電腦。你不必重啟任何進程,改變應用查詢,或手動遷移任何數據。
◆ 多數據中心識別 :你可以調整你的節點布局來避免某一個數據中心起火,一個備用的數據中心將至少有每條記錄的完全復制。
◆ 范圍查詢 :如果你不喜歡全部的鍵值查詢,則可以設置鍵的范圍來查詢。
◆ 列表數據結構 :在混合模式可以將超級列添加到5維。對於每個用戶的索引,這是非常方便的。
◆ 分布式寫操作 :有可以在任何地方任何時間集中讀或寫任何數據。並且不會有任何單點失敗。
問度娘,啥都有。
6. 資料庫的問題
資料庫,簡而言之可視為電子化的文件櫃——存儲電子文件的處所,用戶可以對文件中的數據進行新增、截取、更新、刪除等操作。
所謂「資料庫」系以一定方式儲存在一起、能予多個用戶共享、具有盡可能小的冗餘度、與應用程序彼此獨立的數據集合。[1]
資料庫管理系統
主條目:資料庫管理系統
資料庫管理系統(英語:Database Management System,簡稱DBMS)是為管理資料庫而設計的電腦軟體系統,一般具有存儲、截取、安全保障、備份等基礎功能。資料庫管理系統可以依據它所支持的資料庫模型來作分類,例如關系式、XML;或依據所支持的計算機類型來作分類,例如伺服器群集、行動電話;或依據所用查詢語言來作分類,例如SQL、XQuery;或依據性能沖量重點來作分類,例如最大規模、最高運行速度;亦或其他的分類方式。不論使用哪種分類方式,一些DBMS能夠跨類別,例如,同時支持多種查詢語言。[1]
類型
關系資料庫
MySQL
MariaDB(MySQL的代替品,英文維基網路從MySQL轉向MariaDB)
Percona Server(MySQL的代替品·)
PostgreSQL
Microsoft Access
Microsoft SQL Server
Google Fusion Tables
FileMaker
Oracle資料庫
Sybase
dBASE
Clipper
FoxPro
foshub
幾乎所有的資料庫管理系統都配備了一個開放式資料庫連接(ODBC)驅動程序,令各個資料庫之間得以互相集成。
非關系型資料庫(NoSQL)
主條目:NoSQL
BigTable(Google)
Cassandra
MongoDB
CouchDB
鍵值(key-value)資料庫
Apache Cassandra(為Facebook所使用):高度可擴展
Dynamo
LevelDB(Google)[1]
資料庫模型
對象模型
層次模型(輕量級數據訪問協議)
網狀模型(大型數據儲存)
關系模型
面向對象模型
半結構化模型
平面模型(表格模型,一般在形式上是一個二維數組。如表格模型數據Excel)
架構
資料庫的架構可以大致區分為三個概括層次:內層、概念層和外層。
內層:最接近實際存儲體,亦即有關數據的實際存儲方式。
外層:最接近用戶,即有關個別用戶觀看數據的方式。
概念層:介於兩者之間的間接層。
資料庫索引
主條目:資料庫索引
數據索引的觀念由來已久,像是一本書前面幾頁都有目錄,目錄也算是索引的一種,只是它的分類較廣,例如車牌、身份證字型大小、條碼等,都是一個索引的號碼,當我們看到號碼時,可以從號碼中看出其中的端倪,若是要找的人、車或物品,也只要提供相關的號碼,即可迅速查到正確的人事物。
另外,索引跟欄位有著相應的關系,索引即是由欄位而來,其中欄位有所謂的關鍵欄位(Key Field),該欄位具有唯一性,即其值不可重復,且不可為"空值(null)"。例如:在合並數據時,索引便是扮演欲附加欄位數據之指向性用途的角色。故此索引為不可重復性且不可為空。
資料庫操作:事務
主條目:資料庫事務
事務(transaction)是用戶定義的一個資料庫操作序列,這些操作要麼全做,要麼全不做,是一個不可分割的工作單位。 事務的ACID特性:
基元性(atomicity)
一致性(consistency)
隔離性(isolation)
持續性(rability)
事務的並發性是指多個事務的並行操作輪流交叉運行,事務的並發可能會訪問和存儲不正確的數據,破壞交易的隔離性和資料庫的一致性。
網狀數據模型的數據結構 網狀模型 滿足下面兩個條件的基本層次聯系的集合為網狀模型。 1. 允許一個以上的結點無雙親; 2. 一個結點可以有多於一個的雙親。[2]
參見
資料庫理論
信息技術審核
LDAP(輕量級數據訪問協議)
SQL(結構化查詢語言)
7. 資料庫有哪幾種
一、關系資料庫
關系型資料庫,存儲的格式可以直觀地反映實體間的關系。關系型資料庫和常見的表格比較相似,關系型資料庫中表與表之間是有很多復雜的關聯關系的。
常見的關系型資料庫有Mysql,SqlServer等。在輕量或者小型的應用中,使用不同的關系型資料庫對系統的性能影響不大,但是在構建大型應用時,則需要根據應用的業務需求和性能需求,選擇合適的關系型資料庫。
雖然關系型資料庫有很多,但是大多數都遵循SQL(結構化查詢語言,Structured Query Language)標准。 常見的操作有查詢,新增,更新,刪除,求和,排序等。
查詢語句:SELECT param FROM table WHERE condition 該語句可以理解為從 table 中查詢出滿足 condition 條件的欄位 param。
新增語句:INSERT INTO table (param1,param2,param3) VALUES (value1,value2,value3) 該語句可以理解為向table中的param1,param2,param3欄位中分別插入value1,value2,value3。
更新語句:UPDATE table SET param=new_value WHERE condition 該語句可以理解為將滿足condition條件的欄位param更新為 new_value 值。
刪除語句:DELETE FROM table WHERE condition 該語句可以理解為將滿足condition條件的數據全部刪除。
去重查詢:SELECT DISTINCT param FROM table WHERE condition 該語句可以理解為從表table中查詢出滿足條件condition的欄位param,但是param中重復的值只能出現一次。
排序查詢:SELECT param FROM table WHERE condition ORDER BY param1該語句可以理解為從表table 中查詢出滿足condition條件的param,並且要按照param1升序的順序進行排序。
總體來說, 資料庫的SELECT,INSERT,UPDATE,DELETE對應了我們常用的增刪改查四種操作。
關系型資料庫對於結構化數據的處理更合適,如學生成績、地址等,這樣的數據一般情況下需要使用結構化的查詢,例如join,這樣的情況下,關系型資料庫就會比NoSQL資料庫性能更優,而且精確度更高。
由於結構化數據的規模不算太大,數據規模的增長通常也是可預期的,所以針對結構化數據使用關系型資料庫更好。關系型資料庫十分注意數據操作的事務性、一致性,如果對這方面的要求關系型資料庫無疑可以很好的滿足。
二、非關系型資料庫(NoSQL)
隨著近些年技術方向的不斷拓展,大量的NoSql資料庫如MongoDB、Redis、Memcache出於簡化資料庫結構、避免冗餘、影響性能的表連接、摒棄復雜分布式的目的被設計。
指的是分布式的、非關系型的、不保證遵循ACID原則的數據存儲系統。NoSQL資料庫技術與CAP理論、一致性哈希演算法有密切關系。所謂CAP理論,簡單來說就是一個分布式系統不可能滿足可用性、一致性與分區容錯性這三個要求,一次性滿足兩種要求是該系統的上限。
而一致性哈希演算法則指的是NoSQL資料庫在應用過程中,為滿足工作需求而在通常情況下產生的一種數據演算法,該演算法能有效解決工作方面的諸多問題但也存在弊端,即工作完成質量會隨著節點的變化而產生波動,當節點過多時,相關工作結果就無法那麼准確。
這一問題使整個系統的工作效率受到影響,導致整個資料庫系統的數據亂碼與出錯率大大提高,甚至會出現數據節點的內容遷移,產生錯誤的代碼信息。
但盡管如此,NoSQL資料庫技術還是具有非常明顯的應用優勢,如資料庫結構相對簡單,在大數據量下的讀寫性能好;能滿足隨時存儲自定義數據格式需求,非常適用於大數據處理工作。
NoSQL資料庫適合追求速度和可擴展性、業務多變的應用場景。
對於非結構化數據的處理更合適,如文章、評論,這些數據如全文搜索、機器學習通常只用於模糊處理,並不需要像結構化數據一樣,進行精確查詢,而且這類數據的數據規模往往是海量的,數據規模的增長往往也是不可能預期的;
而NoSQL資料庫的擴展能力幾乎也是無限的,所以NoSQL資料庫可以很好的滿足這一類數據的存儲。
NoSQL資料庫利用key-value可以大量的獲取大量的非結構化數據,並且數據的獲取效率很高,但用它查詢結構化數據效果就比較差。
目前NoSQL資料庫仍然沒有一個統一的標准,它現在有四種大的分類:
1、鍵值對存儲(key-value):代表軟體Redis,它的優點能夠進行數據的快速查詢,而缺點是需要存儲數據之間的關系。
2、列存儲:代表軟體Hbase,它的優點是對數據能快速查詢,數據存儲的擴展性強。而缺點是資料庫的功能有局限性。
3、文檔資料庫存儲:代表軟體MongoDB,它的優點是對數據結構要求不特別的嚴格。而缺點是查詢性的性能不好,同時缺少一種統一查詢語言。
4、圖形資料庫存儲:代表軟體InfoGrid,它的優點可以方便的利用圖結構相關演算法進行計算。而缺點是要想得到結果必須進行整個圖的計算,而且遇到不適合的數據模型時,圖形資料庫很難使用。
安全
資料庫安全涉及保護資料庫內容、其所有者和用戶的所有各個方面。它的范圍從防止有意的未經授權的資料庫使用到未經授權的實體(例如,個人或計算機程序)無意的資料庫訪問。
資料庫訪問控制涉及控制誰(一個人或某個計算機程序)可以訪問資料庫中的哪些信息。該信息可以包括特定的資料庫對象(例如,記錄類型、特定記錄、數據結構);
對特定對象的特定計算(例如,查詢類型或特定查詢),或者使用到前者的特定訪問路徑(例如,使用特定索引)或其他數據結構來訪問信息)。
資料庫訪問控制由使用專用受保護安全 DBMS 介面的特別授權(由資料庫所有者)人員設置。
這可以在個人基礎上直接管理,或者通過將個人和特權分配給組,或者(在最復雜的模型中)通過將個人和組分配給角色,然後授予權利。數據安全可防止未經授權的用戶查看或更新資料庫。使用密碼,用戶可以訪問整個資料庫或它的子集,稱為「子模式」。
例如,員工資料庫可以包含有關單個員工的所有數據,但一組用戶可能僅被授權查看工資數據,而其他用戶僅被允許訪問工作歷史和醫療數據。如果 DBMS 提供了一種互動式輸入和更新資料庫以及查詢資料庫的方法,則此功能允許管理個人資料庫。
數據安全通常涉及保護特定的數據塊,包括物理保護(即免受損壞、破壞或移除;例如,參見物理安全),或將它們或它們的一部分解釋為有意義的信息(例如,通過查看它們組成的位串,得出特定的有效信用卡號;例如,參見數據加密)。
更改和訪問日誌記錄誰訪問了哪些屬性、更改了什麼以及何時更改。日誌服務通過保留訪問發生和更改的記錄,允許以後進行取證資料庫審計。有時應用程序級代碼用於記錄更改而不是將其留給資料庫。可以設置監控以嘗試檢測安全漏洞。
以上內容參考網路-資料庫
8. 大數據和大數據開發有什麼區別
大數據指純粹的大量數據;大數據開發指從大量數據中找到有用的信息加以開發利用。