開源實時資料庫redis_大數據方面核心技術有哪些

1. 大數據方面核心技術有哪些

簡單來說，從大數據的生命周期來看，無外乎四個方面：大數據採集、大數據預處理、大數據存儲、大數據分析，共同組成了大數據生命周期里最核心的技術，下面分開來說：

大數據採集

大數據採集，即對各種來源的結構化和非結構化海量數據，所進行的採集。

資料庫採集：流行的有Sqoop和ETL，傳統的關系型資料庫Mysql和Oracle 也依然充當著許多企業的數據存儲方式。當然了，目前對於開源的Kettle和Talend本身，也集成了大數據集成內容，可實現hdfs，hbase和主流Nosq資料庫之間的數據同步和集成。
網路數據採集：一種藉助網路爬蟲或網站公開API，從網頁獲取非結構化或半結構化數據，並將其統一結構化為本地數據的數據採集方式。
文件採集：包括實時文件採集和處理技術flume、基於ELK的日誌採集和增量採集等等。
大數據預處理

大數據預處理，指的是在進行數據分析之前，先對採集到的原始數據所進行的諸如「清洗、填補、平滑、合並、規格化、一致性檢驗」等一系列操作，旨在提高數據質量，為後期分析工作奠定基礎。數據預處理主要包括四個部分：數據清理、數據集成、數據轉換、數據規約。

數據清理：指利用ETL等清洗工具，對有遺漏數據(缺少感興趣的屬性)、噪音數據(數據中存在著錯誤、或偏離期望值的數據)、不一致數據進行處理。
數據集成：是指將不同數據源中的數據，合並存放到統一資料庫的，存儲方法，著重解決三個問題：模式匹配、數據冗餘、數據值沖突檢測與處理。
數據轉換：是指對所抽取出來的數據中存在的不一致，進行處理的過程。它同時包含了數據清洗的工作，即根據業務規則對異常數據進行清洗，以保證後續分析結果准確性。
數據規約：是指在最大限度保持數據原貌的基礎上，最大限度精簡數據量，以得到較小數據集的操作，包括：數據方聚集、維規約、數據壓縮、數值規約、概念分層等。
大數據存儲，指用存儲器，以資料庫的形式，存儲採集到的數據的過程，包含三種典型路線：

1、基於MPP架構的新型資料庫集群

採用Shared Nothing架構，結合MPP架構的高效分布式計算模式，通過列存儲、粗粒度索引等多項大數據處理技術，重點面向行業大數據所展開的數據存儲方式。具有低成本、高性能、高擴展性等特點，在企業分析類應用領域有著廣泛的應用。

較之傳統資料庫，其基於MPP產品的PB級數據分析能力，有著顯著的優越性。自然，MPP資料庫，也成為了企業新一代數據倉庫的最佳選擇。

2、基於Hadoop的技術擴展和封裝

基於Hadoop的技術擴展和封裝，是針對傳統關系型資料庫難以處理的數據和場景（針對非結構化數據的存儲和計算等），利用Hadoop開源優勢及相關特性（善於處理非結構、半結構化數據、復雜的ETL流程、復雜的數據挖掘和計算模型等），衍生出相關大數據技術的過程。

伴隨著技術進步，其應用場景也將逐步擴大，目前最為典型的應用場景：通過擴展和封裝 Hadoop來實現對互聯網大數據存儲、分析的支撐，其中涉及了幾十種NoSQL技術。

3、大數據一體機

這是一種專為大數據的分析處理而設計的軟、硬體結合的產品。它由一組集成的伺服器、存儲設備、操作系統、資料庫管理系統，以及為數據查詢、處理、分析而預安裝和優化的軟體組成，具有良好的穩定性和縱向擴展性。

四、大數據分析挖掘

從可視化分析、數據挖掘演算法、預測性分析、語義引擎、數據質量管理等方面，對雜亂無章的數據，進行萃取、提煉和分析的過程。

1、可視化分析

可視化分析，指藉助圖形化手段，清晰並有效傳達與溝通信息的分析手段。主要應用於海量數據關聯分析，即藉助可視化數據分析平台，對分散異構數據進行關聯分析，並做出完整分析圖表的過程。

具有簡單明了、清晰直觀、易於接受的特點。

2、數據挖掘演算法

數據挖掘演算法，即通過創建數據挖掘模型，而對數據進行試探和計算的，數據分析手段。它是大數據分析的理論核心。

數據挖掘演算法多種多樣，且不同演算法因基於不同的數據類型和格式，會呈現出不同的數據特點。但一般來講，創建模型的過程卻是相似的，即首先分析用戶提供的數據，然後針對特定類型的模式和趨勢進行查找，並用分析結果定義創建挖掘模型的最佳參數，並將這些參數應用於整個數據集，以提取可行模式和詳細統計信息。

3、預測性分析

預測性分析，是大數據分析最重要的應用領域之一，通過結合多種高級分析功能（特別統計分析、預測建模、數據挖掘、文本分析、實體分析、優化、實時評分、機器學習等），達到預測不確定事件的目的。

幫助分用戶析結構化和非結構化數據中的趨勢、模式和關系，並運用這些指標來預測將來事件，為採取措施提供依據。

4、語義引擎

語義引擎，指通過為已有數據添加語義的操作，提高用戶互聯網搜索體驗。

5、數據質量管理

指對數據全生命周期的每個階段（計劃、獲取、存儲、共享、維護、應用、消亡等）中可能引發的各類數據質量問題，進行識別、度量、監控、預警等操作，以提高數據質量的一系列管理活動。

以上是從大的方面來講，具體來說大數據的框架技術有很多，這里列舉其中一些：

文件存儲：Hadoop HDFS、Tachyon、KFS

離線計算：Hadoop MapRece、Spark

流式、實時計算：Storm、Spark Streaming、S4、Heron

K-V、NOSQL資料庫：HBase、Redis、MongoDB

資源管理：YARN、Mesos

日誌收集：Flume、Scribe、Logstash、Kibana

消息系統：Kafka、StormMQ、ZeroMQ、RabbitMQ

查詢分析：Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid

分布式協調服務：Zookeeper

集群管理與監控：Ambari、Ganglia、Nagios、Cloudera Manager

數據挖掘、機器學習：Mahout、Spark MLLib

數據同步：Sqoop

任務調度：Oozie

2. Redis、Kafka或RabbitMQ：哪個作為微服務消息代理最合適

將非同步通信用於微服務的場合，通常使用消息代理(Message Broker)。消息代理確保不同微服務之間的通信可靠穩定，保證消息在系統內得到管理和監視，並且消息不會被丟失。

開發者可以選擇的一些消息代理有很多，它們的規模和數據功能各不相同。本篇文章將比較三種最受歡迎的消息代理：RabbitMQ，Kafka與Redis。

首先讓我們了解微服務通信。

在微服務之間有常見的兩種通信方式：同步與非同步。

在同步通信中，調用方在發送下一條消息之前等待響應，並且它作為HTTP之上的REST協議運行。相反，在非同步通信中，無需等待響應即可發送消息。這適用於分布式系統，通常需要消息代理來管理消息。

你選擇的通信類型應考慮不同的參數，例如微服務的結構方式，適當的基礎架構，延遲，規模，依賴關系以及通信目的。非同步通信的建立可能會更加復雜，並且需要添加更多組件才能堆疊，但是將非同步通信用於微服務的好處遠大於缺點。

首先根據定義，非同步通信是非阻塞的；第二，它也比同步操作支持更好的縮放；第三，在微服務崩潰的情況下，非同步通信機制提供了各種恢復技術，通常更擅長處理與崩潰有關的錯誤。

另外，當使用代理而不是REST協議時，接收通信的服務實際上並不需要彼此了解。在舊的服務運行了很長時間之後，甚至可以引入新的服務，即能做到更好的解耦服務。

最後，在選擇非同步操作時，您將增強將來創建集中發現，監視，負載平衡甚至策略執行器的能力。這將為您提供在代碼和系統構建中具有靈活性，可伸縮性和更多功能的功能。

非同步通信通常通過消息代理進行管理。也有其他方法，例如aysncio，但它們更加稀少和有限。

在選擇代理執行非同步操作時，應考慮以下幾點：

一對一

一對多

我們檢查了那裡最新和最出色的服務，以找出這三個類別中最強的提供商。

RabbitMQ（AMQP）

規模：根據配置和資源，這里的運行速度約為每秒50K msg。

持久性：支持持久性消息和瞬時消息。

一對一與一對多的消費者：兩者都有。

RabbitMQ於2007年發布，是最早創建的常見消息代理之一。它是一個開放源代碼，通過實現高級消息隊列協議（AMQP）通過點對點和pub-sub方法傳遞消息。它旨在支持復雜的路由邏輯。

有一些託管服務可讓您將其用作SaaS，但它不是本機主要雲提供商堆棧的一部分。RabbitMQ支持所有主要語言，包括Python，Java，.NET，PHP，Ruby，JavaScript，Go，Swift等。

在持久模式下，可能會遇到一些性能問題。

kafka

規模：每秒最多可以發送一百萬條消息。

持久性：是的。

一對一vs一對多的消費者：只有一對多（乍一看似乎很奇怪，對吧？！）。

Kafka曾在Azure，AWS和Confluent上管理SaaS。他們都是Kafka項目的創建者和主要貢獻者。Kafka支持所有主要語言，包括Python，Java，C C ++，Clojure，.NET，PHP，Ruby，JavaScript，Go，Swift等。

Redis

規模：每秒最多可以發送一百萬條消息。

持久性：基本上不是，它是內存中的數據存儲。

一對一與一對多的消費者：兩者都有。

Redis與其他消息代理有點不同。Redis的核心是一個內存中的數據存儲，可以用作高性能鍵值存儲或消息代理。另一個區別是Redis沒有持久性，而是將其內存轉儲到Disk DB中。它還非常適合實時數據處理。

最初，Redis不是一對一和一對多的。但是，由於Redis 5.0引入了pub-sub，因此功能得到了增強，一對多成為真正的選擇。

我們介紹了RabbitMQ，Kafka和Redis的一些特徵。這三種動物都是它們的類別，但是如上所述，它們的運行方式大不相同。這是我們建議正確的消息代理根據不同用例使用的建議。

短命消息：Redis

Redis的內存資料庫幾乎適用於不需要持久性的消息短暫的用例。因為Redis提供了非常快速的服務和內存功能，所以它是短保留消息的理想選擇，在這些消息中持久性不是很重要，您可以容忍一些丟失。隨著5.0中Redis流的發布，它也成為了一對多用例的候選者，由於局限性和舊的pub-sub功能，絕對需要使用它。

大量數據：Kafka

Kafka是一個高吞吐量的分布式隊列，用於長時間存儲大量數據。對於需要持久性的一對多用例，Kafka是理想的選擇。

復雜路由：RabbitMQ

RabbitMQ是一個較老但很成熟的代理，具有許多支持復雜路由的功能。當所需速率不高（超過數萬msg sec）時，它甚至將支持復雜的路由通信。

考慮您的軟體堆棧

當然，最後要考慮的是你當前的軟體堆棧。如果你正在尋找一個相對簡單的集成過程，並且不想在堆棧中維護其他代理，那麼你可能更傾向於使用已由堆棧支持的代理。

例如，如果你在RabbitMQ之上的系統中使用Celery for Task Queue，那麼您會獲得與RabbitMQ或Redis一起使用的動力，而不是不支持Kafka且需要進行一些重寫的Kafka。

我們通過平台的發展和壯大使用了以上所有內容，然後再進行一些使用！重要的是要記住，每種工具都有自己的優點和缺點，這與了解它們並為工作以及特定的時機，情況和要求選擇合適的工具有關。

3. 學習Java應該了解的大數據和框架

很多人都在知道，計算機行業的發展是非常迅速的，軟體開發人員想要跟上時代的發展，最重要的就是不斷挑戰自己。在學習軟體開發的過程，前期學習的知識是遠遠不夠的，需要了解更多的知識，並且挑戰更多的復雜性。

現在學習Java語言不能忽略工具和框架的使用，工具和框架的構建越來越復雜。很多人不知道學習工具和框架有什麼用？下面昆明電腦培訓為大傢具體了解Java開發應該了解的大數據工具和框架。

一、MongoDB

這是一種最受歡迎的，跨平台的，面向文檔的資料庫。

MongoDB的核心優勢是靈活的文檔模型，高可用性復制集和可擴展的碎片集群。雲南java培訓建議可以嘗試以多種方式了解MongoDB，例如MongoDB工具的實時監控，內存使用和頁面錯誤，連接，資料庫操作，復制集等。

二、Elasticsearch

主要是能夠為雲構建的分布式RESTful搜索引擎。

Elasticsearch主要是使用在Lucene之中的伺服器，能夠進行分布式多用戶能力的全文搜索引擎，並且還是使用在Java的開發中，這是現在很多企業中使用最流行的搜索引擎。ElasticSearch不僅是一個全文搜索引擎，而且是一個分布式實時文檔存儲，每個欄位都能夠被索引並且可以被搜索。它也是一個具有實時分析功能的分布式搜索引擎，java課程發現它還可以擴展到數百個伺服器存儲和處理數PB的數據。

三、Cassandra

這是一個開源的分布式資料庫管理系統，最初由Facebook開發，用於處理許多商用伺服器上的大量數據，提供高可用性而無單點故障。

ApacheCassandra是一套開源分布式NoSQL資料庫系統。集GoogleBigTable的數據模型與AmazonDynamo的完全分布式架構於一身。於2008開源，此後，由於Cassandra良好的可擴展性，被Digg、Twitter等Web2.0網站所採納，成為了一種流行的分布式結構化數據存儲方案。

四、Redis

開源（BSD許可證）內存數據結構存儲，用作資料庫，緩存和消息代理。

Redis是一個開源的，基於日誌的Key-Value資料庫，用ANSIC編寫，支持網路，可以基於內存持久化，並提供多種語言的API。Redis有三個主要功能，雲南IT培訓認為可以將它與許多其他競爭對手區分開來：Redis是一個將數據完全存儲在內存中的資料庫，僅使用磁碟用於持久性目的。

4. 資料庫表結構設計，常見的資料庫管理系統

一、數據場景 1、表結構簡介任何工具類的東西都是為了解決某個場景下的問題，比如Redis緩存系統熱點數據，ClickHouse解決海量數據的實時分析，MySQL關系型資料庫存儲結構化數據。數據的存儲則需要設計對應的表結構，清楚的表結構，有助於快速開發業務，和理解系統。表結構的設計通常從下面幾個方面考慮：業務場景、設計規范、表結構、欄位屬性、數據管理。
2、用戶場景
例如存儲用戶基礎信息數據，通常都會下面幾個相關表結構：用戶信息表、單點登錄表、狀態管理表、支付賬戶表等。
用戶信息表
存儲用戶三要素相關信息：姓名，手機號，身份證，登錄密碼，郵箱等。
CREATE TABLE `ms_user_center` ( `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '用戶ID', `user_name` varchar(20) NOT NULL COMMENT '用戶名', `real_name` varchar(20) DEFAULT NULL COMMENT '真實姓名', `pass_word` varchar(32) NOT NULL COMMENT '密碼', `phone` varchar(20) NOT NULL COMMENT '手機號', `email` varchar(32) DEFAULT NULL COMMENT '郵箱', `head_url` varchar(100) DEFAULT NULL COMMENT '用戶頭像URL', `card_id` varchar(32) DEFAULT NULL COMMENT '身份證號', `user_sex` int(1) DEFAULT '1' COMMENT '用戶性別:0-女,1-男', `create_time` datetime DEFAULT NULL COMMENT '創建時間', `update_time` datetime DEFAULT NULL COMMENT '更新時間', `state` int(1) DEFAULT '1' COMMENT '是否可用,0-不可用,1-可用', PRIMARY KEY (`id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='用戶表'; 單點登錄表
用意是在多個業務系統中，用戶登錄一次就可以訪問所有相互信任的業務子系統，是聚合業務平台常用的解決方案。
CREATE TABLE `ms_user_sso` ( `user_id` int(11) NOT NULL COMMENT '用戶ID', `sso_id` varchar(32) NOT NULL COMMENT '單點信息編號ID', `sso_code` varchar(32) NOT NULL COMMENT '單點登錄碼,唯一核心標識', `log_ip` varchar(32) DEFAULT NULL COMMENT '登錄IP地址', `create_time` datetime DEFAULT NULL COMMENT '創建時間', `update_time` datetime DEFAULT NULL COMMENT '更新時間', `state` int(1) DEFAULT '1' COMMENT '是否可用,0-不可用,1-可用', PRIMARY KEY (`user_id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='用戶單點登錄表'; 狀態管理表
系統用戶在使用時候可能出現多個狀態，例如賬戶凍結、密碼鎖定等，把狀態聚合到一起，可以更加方便的管理和驗證。
CREATE TABLE `ms_user_status` ( `user_id` int(11) NOT NULL COMMENT '用戶ID', `account_status` int(1) DEFAULT '1' COMMENT '賬戶狀態：0-凍結,1-未凍結', `real_name_status` int(1) DEFAULT '0' COMMENT '實名認證狀態：0-未實名,1-已實名', `pay_pass_status` int(1) DEFAULT '0' COMMENT '支付密碼是否設置：0-未設置,1-設置', `wallet_pass_status` int(1) DEFAULT '0' COMMENT '錢包密碼是否設置：0-未設置,1-設置', `wallet_status` int(1) DEFAULT '1' COMMENT '錢包是否凍結:0-凍結,1-未凍結', `email_status` int(1) DEFAULT '0' COMMENT '郵箱狀態:0-未激活,1-激活', `message_status` int(1) DEFAULT '1' COMMENT '簡訊提醒開啟：0-未開啟,1-開啟', `letter_status` int(1) DEFAULT '1' COMMENT '站內信提醒開啟：0-未開啟,1-開啟', `emailmsg_status` int(1) DEFAULT '0' COMMENT '郵件提醒開啟：0-未開啟,1-開啟', `create_time` datetime DEFAULT NULL COMMENT '創建時間', `update_time` datetime DEFAULT NULL COMMENT '更新時間', `state` int(1) DEFAULT '1' COMMENT '是否可用,0-不可用,1-可用', PRIMARY KEY (`user_id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='用戶狀態表'; 支付賬戶表
用戶交易的核心表，存儲用戶相關的賬戶資金信息。
CREATE TABLE `ms_user_wallet` ( `wallet_id` int(11) NOT NULL AUTO_INCREMENT COMMENT '錢包ID', `user_id` int(11) NOT NULL COMMENT '用戶ID', `wallet_pwd` varchar(32) DEFAULT NULL COMMENT '錢包密碼', `total_account` decimal(20,2) DEFAULT '0.00' COMMENT '賬戶總額', `usable_money` decimal(20,2) DEFAULT '0.00' COMMENT '可用余額', `freeze_money` decimal(20,2) DEFAULT '0.00' COMMENT '凍結金額', `freeze_time` datetime DEFAULT NULL COMMENT '凍結時間', `thaw_time` datetime DEFAULT NULL COMMENT '解凍時間', `create_time` datetime DEFAULT NULL COMMENT '創建時間', `update_time` datetime DEFAULT NULL COMMENT '更新時間', `state` int(1) DEFAULT '1' COMMENT '是否可用,0-不可用,1-可用', PRIMARY KEY (`wallet_id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='用戶錢包'; 二、設計規范 1、涉及模塊
通過上面幾個表設計的案例，可以看到表設計關聯到資料庫的各個方面知識：數據類型，索引，編碼，存儲引擎等。表設計是一個很大的命題，不過也遵循一個基本規范：三範式。
2、三範式基礎概念
一範式

表的列的具有原子性,不可再分解，即列的信息，不能分解,關系型資料庫MySQL、Oracle等自動的滿足。

二範式

每個事實的數據記錄只會出現一次, 不會冗餘, 通常設計一個主鍵來實現。

三範式

要求一個表中不包含已經存在於其它表的非主鍵信息，例如部門和員工的信息，員工表包含部門表的主鍵ID，則可以關聯獲取相關信息，沒必要在員工表保存相關信息。
優缺點對比
範式化設計

範式化結構設計通常更新快，因為冗餘數據較少，表結構輕巧，也更好的寫入內存中。但是查詢起來涉及到關聯，代價非常高，非常損耗查詢性能。

反範式化設計

所有的數據都在一張表中，避免關聯查詢，索引的有效性更高，但是數據的冗餘性極高。
建議結論
上述的兩種設計方式在實際開發中都是不存在的，在實際開發中都是混合使用。比如匯總統計，緩存數據，都會基於反範式化的設計。
三、欄位屬性
合適的欄位類型對於高性能來說非常重要，基本原則如下：簡單的類型佔用資源更少；在可以正確存儲數據的情況下，選最小的數據類型。
1、數據類型選擇整數類型
TINYINT、SMALLINT、MEDIUMINT、INT、BIGINT，根據數據類型範圍合理選擇即可。
實數類型
FLOAT、DOUBLE、DECIMAL，建議資金貨幣相關類型使用高精度DECIMAL存儲，或者把數據成倍擴大為整數，採用BIGINT存儲，不過處理相對麻煩。
字元類型
CHAR、VARCHAR，長度不確定建議採用VARCHAR存儲，不過VARCHAR類型需要額外開銷記錄字元串長度。CHAR適合存儲短字元，或者定長字元串，例如MD5的加密結構。
時間類型
DATETIME、TIMESTAMP，DATETIME保存大范圍的值，精度秒。TIMESTAMP以時間戳的格式，范圍相對較小，效率也相對較高，所以通常情況建議使用。

MySQL的欄位類型有很多種，可以根據數據特性選擇合適的，這里只描述常見的幾種類型。
2、基礎用法操作數據類型
修改欄位類型
ALTER TABLE ms_user_sso MODIFY state CHAR(1) DEFAULT '0' ; ALTER TABLE ms_user_sso MODIFY state INT(1) DEFAULT '1' COMMENT '狀態：0不可用,1可用';
修改名稱位置
ALTER TABLE ms_user_sso CHANGE log_ip login_ip VARCHAR(32) AFTER update_time ; 索引使用
索引類型：主鍵索引，普通索引，唯一索引，組合索引，全文索引。這里演示普通索引的操作。MySQL的核心模塊，後續詳說。

添加索引
ALTER TABLE ms_user_wallet ADD INDEX user_id_index(user_id) ; CREATE INDEX state_index ON ms_user_wallet(state) ;
查看索引
SHOW INDEX FROM ms_user_wallet;
刪除索引
DROP INDEX state_index ON ms_user_wallet ;
修改索引

不具有真正意義上的修改，可以把原有的索引刪除之後，再次添加索引。
外鍵關聯
用處：外鍵關聯的作用保證多個數據表的數據一致性和完整性，建表時先有主表，後有從表；刪除數據表，需要先刪從表，再刪主表。復雜場景不建議使用，實際開發中用的也不多。

添加外鍵
ALTER TABLE ms_user_wallet ADD CONSTRAINT user_id_out_key FOREIGN KEY(user_id) REFERENCES ms_user_center(id) ;
刪除外鍵
ALTER TABLE ms_user_wallet DROP FOREIGN KEY user_id_out_key ; 四、表結構管理 1、查看結構 DESC ms_user_status ; SHOW CREATE TABLE ms_user_status ; 2、欄位結構添加欄位 ALTER TABLE ms_user_status ADD `delete_time` datetime DEFAULT NULL COMMENT '刪除時間' ; 刪除欄位 ALTER TABLE ms_user_status DROP COLUMN delete_time ; 3、修改表名 ALTER TABLE ms_user_center RENAME ms_user_info ; 4、存儲引擎存儲引擎 SELECT VERSION() ; SHOW ENGINES ;
MySQL 5.6 支持的存儲引擎有InnoDB、MyISAM、Memory、Archive、CSV、BLACKHOLE等。一般默認使用InnoDB，支持事務管理。該模塊MySQL核心，後續詳解。
修改引擎
數據量大的場景下，存儲引擎修改是一個難度極大的操作，容易會導致表的特性變動，引起各種後續反應，後續會詳說。
ALTER TABLE ms_user_sso ENGINE = MyISAM ; 5、修改編碼
表字元集默認使用utf8，通用，無亂碼風險，漢字3位元組，英文1位元組，utf8mb4是utf8的超集，有存儲4位元組例如表情符號時使用。
查看編碼 SHOW VARIABLES LIKE 'character%'; 修改編碼 ALTER TABLE ms_user_sso DEFAULT CHARACTER SET utf8mb4; 五、數據管理 1、增刪改查
添加數據
INSERT INTO ms_user_sso ( user_id,sso_id,sso_code,create_time,update_time,login_ip,state ) VALUES ( '1','SSO7637267','SSO78631273612', '2019-12-24 11:56:57','2019-12-24 11:57:01','127.0.0.1','1' );
更新數據
UPDATE ms_user_sso SET user_id = '1',sso_id = 'SSO20191224',sso_code = 'SSO20191224', create_time = '2019-11-24 11:56:57',update_time = '2019-11-24 11:57:01', login_ip = '127.0.0.1',state = '1' WHERE user_id = '1';
查詢數據

一般情況下都是禁止使用 select* 操作。
SELECT user_id,sso_id,sso_code,create_time,update_time,login_ip,state FROM ms_user_sso WHERE user_id = '1';
刪除數據
DELETE FROM ms_user_sso WHERE user_id = '2' ;
不帶where條件，就是刪除全部數據。原則上不允許該操作，優化篇會詳解。TRUNCATE TABLE也是清空表數據，但是佔用的資源相對較少。
2、數據安全不可逆加密
這類加密演算法，多用來做數據驗證操作，比如常見的密碼驗證。
SELECT MD5('cicada')='' ; SELECT SHA('cicada')=''; SELECT PASSWORD('smile')='*' ; 可逆加密
安全性要求高的系統，需要做三級等保，對數據的安全性極高，數據在存儲時必須加密入庫，取出時候需要解密，這些就需要可逆加密。
SELECT DECODE(ENCODE('123456','key_salt'),'key_salt') ; SELECT AES_DECRYPT(AES_ENCRYPT('cicada','salt123'),'salt123');
上述數據安全的管理，也可以基於應用系統的服務(代碼)層進行處理，相對專業的流程是從數據生成源頭處理，規避數據傳遞過程泄露，造成不必要的風險。

5. 大數據核心技術有哪些

大數據技術的體系龐大且復雜，基礎的技術包含數據的採集、數據預處理、分布式存儲、NoSQL資料庫、數據倉庫、機器學習、並行計算、可視化等各種技術范疇和不同的技術層面。首先給出一個通用化的大數據處理框架，主要分為下面幾個方面：數據採集與預處理、數據存儲、數據清洗、數據查詢分析和數據可視化。

一、數據採集與預處理

對於各種來源的數據，包括移動互聯網數據、社交網路的數據等，這些結構化和非結構化的海量數據是零散的，也就是所謂的數據孤島，此時的這些數據並沒有什麼意義，數據採集就是將這些數據寫入數據倉庫中，把零散的數據整合在一起，對這些數據綜合起來進行分析。數據採集包括文件日誌的採集、資料庫日誌的採集、關系型資料庫的接入和應用程序的接入等。在數據量比較小的時候，可以寫個定時的腳本將日誌寫入存儲系統，但隨著數據量的增長，這些方法無法提供數據安全保障，並且運維困難，需要更強壯的解決方案。

Flume NG作為實時日誌收集系統，支持在日誌系統中定製各類數據發送方，用於收集數據，同時，對數據進行簡單處理，並寫到各種數據接收方(比如文本，HDFS，Hbase等)。Flume NG採用的是三層架構：Agent層，Collector層和Store層，每一層均可水平拓展。其中Agent包含Source，Channel和 Sink，source用來消費（收集）數據源到channel組件中，channel作為中間臨時存儲，保存所有source的組件信息，sink從channel中讀取數據，讀取成功之後會刪除channel中的信息。

NDC，Netease Data Canal，直譯為網易數據運河系統，是網易針對結構化資料庫的數據實時遷移、同步和訂閱的平台化解決方案。它整合了網易過去在數據傳輸領域的各種工具和經驗，將單機資料庫、分布式資料庫、OLAP系統以及下游應用通過數據鏈路串在一起。除了保障高效的數據傳輸外，NDC的設計遵循了單元化和平台化的設計哲學。

Logstash是開源的伺服器端數據處理管道，能夠同時從多個來源採集數據、轉換數據，然後將數據發送到您最喜歡的「存儲庫」中。一般常用的存儲庫是Elasticsearch。Logstash 支持各種輸入選擇，可以在同一時間從眾多常用的數據來源捕捉事件，能夠以連續的流式傳輸方式，輕松地從您的日誌、指標、Web 應用、數據存儲以及各種 AWS 服務採集數據。

Sqoop，用來將關系型資料庫和Hadoop中的數據進行相互轉移的工具，可以將一個關系型資料庫(例如Mysql、Oracle)中的數據導入到Hadoop(例如HDFS、Hive、Hbase)中，也可以將Hadoop(例如HDFS、Hive、Hbase)中的數據導入到關系型資料庫(例如Mysql、Oracle)中。Sqoop 啟用了一個 MapRece 作業（極其容錯的分布式並行計算）來執行任務。Sqoop 的另一大優勢是其傳輸大量結構化或半結構化數據的過程是完全自動化的。

流式計算是行業研究的一個熱點，流式計算對多個高吞吐量的數據源進行實時的清洗、聚合和分析，可以對存在於社交網站、新聞等的數據信息流進行快速的處理並反饋，目前大數據流分析工具有很多，比如開源的strom，spark streaming等。

Strom集群結構是有一個主節點（nimbus）和多個工作節點（supervisor）組成的主從結構，主節點通過配置靜態指定或者在運行時動態選舉，nimbus與supervisor都是Storm提供的後台守護進程，之間的通信是結合Zookeeper的狀態變更通知和監控通知來處理。nimbus進程的主要職責是管理、協調和監控集群上運行的topology（包括topology的發布、任務指派、事件處理時重新指派任務等）。supervisor進程等待nimbus分配任務後生成並監控worker（jvm進程）執行任務。supervisor與worker運行在不同的jvm上，如果由supervisor啟動的某個worker因為錯誤異常退出（或被kill掉），supervisor會嘗試重新生成新的worker進程。

當使用上游模塊的數據進行計算、統計、分析時，就可以使用消息系統，尤其是分布式消息系統。Kafka使用Scala進行編寫，是一種分布式的、基於發布/訂閱的消息系統。Kafka的設計理念之一就是同時提供離線處理和實時處理,以及將數據實時備份到另一個數據中心，Kafka可以有許多的生產者和消費者分享多個主題，將消息以topic為單位進行歸納；Kafka發布消息的程序稱為procer，也叫生產者，預訂topics並消費消息的程序稱為consumer，也叫消費者；當Kafka以集群的方式運行時，可以由一個服務或者多個服務組成，每個服務叫做一個broker，運行過程中procer通過網路將消息發送到Kafka集群，集群向消費者提供消息。Kafka通過Zookeeper管理集群配置，選舉leader，以及在Consumer Group發生變化時進行rebalance。Procer使用push模式將消息發布到broker，Consumer使用pull模式從broker訂閱並消費消息。Kafka可以和Flume一起工作，如果需要將流式數據從Kafka轉移到hadoop，可以使用Flume代理agent，將Kafka當做一個來源source，這樣可以從Kafka讀取數據到Hadoop。

Zookeeper是一個分布式的，開放源碼的分布式應用程序協調服務，提供數據同步服務。它的作用主要有配置管理、名字服務、分布式鎖和集群管理。配置管理指的是在一個地方修改了配置，那麼對這個地方的配置感興趣的所有的都可以獲得變更，省去了手動拷貝配置的繁瑣，還很好的保證了數據的可靠和一致性，同時它可以通過名字來獲取資源或者服務的地址等信息，可以監控集群中機器的變化，實現了類似於心跳機制的功能。

二、數據存儲

Hadoop作為一個開源的框架，專為離線和大規模數據分析而設計，HDFS作為其核心的存儲引擎，已被廣泛用於數據存儲。

HBase，是一個分布式的、面向列的開源資料庫，可以認為是hdfs的封裝，本質是數據存儲、NoSQL資料庫。HBase是一種Key/Value系統，部署在hdfs上，克服了hdfs在隨機讀寫這個方面的缺點，與hadoop一樣，Hbase目標主要依靠橫向擴展，通過不斷增加廉價的商用伺服器，來增加計算和存儲能力。

Phoenix，相當於一個Java中間件，幫助開發工程師能夠像使用JDBC訪問關系型資料庫一樣訪問NoSQL資料庫HBase。

Yarn是一種Hadoop資源管理器，可為上層應用提供統一的資源管理和調度，它的引入為集群在利用率、資源統一管理和數據共享等方面帶來了巨大好處。Yarn由下面的幾大組件構成：一個全局的資源管理器ResourceManager、ResourceManager的每個節點代理NodeManager、表示每個應用的Application以及每一個ApplicationMaster擁有多個Container在NodeManager上運行。

Mesos是一款開源的集群管理軟體，支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等應用架構。

Redis是一種速度非常快的非關系資料庫，可以存儲鍵與5種不同類型的值之間的映射，可以將存儲在內存的鍵值對數據持久化到硬碟中，使用復制特性來擴展性能，還可以使用客戶端分片來擴展寫性能。

Atlas是一個位於應用程序與MySQL之間的中間件。在後端DB看來，Atlas相當於連接它的客戶端，在前端應用看來，Atlas相當於一個DB。Atlas作為服務端與應用程序通訊，它實現了MySQL的客戶端和服務端協議，同時作為客戶端與MySQL通訊。它對應用程序屏蔽了DB的細節，同時為了降低MySQL負擔，它還維護了連接池。Atlas啟動後會創建多個線程，其中一個為主線程，其餘為工作線程。主線程負責監聽所有的客戶端連接請求，工作線程只監聽主線程的命令請求。

Ku是圍繞Hadoop生態圈建立的存儲引擎，Ku擁有和Hadoop生態圈共同的設計理念，它運行在普通的伺服器上、可分布式規模化部署、並且滿足工業界的高可用要求。其設計理念為fast analytics on fast data。作為一個開源的存儲引擎，可以同時提供低延遲的隨機讀寫和高效的數據分析能力。Ku不但提供了行級的插入、更新、刪除API，同時也提供了接近Parquet性能的批量掃描操作。使用同一份存儲，既可以進行隨機讀寫，也可以滿足數據分析的要求。Ku的應用場景很廣泛，比如可以進行實時的數據分析，用於數據可能會存在變化的時序數據應用等。

在數據存儲過程中，涉及到的數據表都是成千上百列，包含各種復雜的Query，推薦使用列式存儲方法，比如parquent,ORC等對數據進行壓縮。Parquet 可以支持靈活的壓縮選項，顯著減少磁碟上的存儲。

三、數據清洗

MapRece作為Hadoop的查詢引擎，用於大規模數據集的並行計算，」Map（映射）」和」Rece（歸約）」，是它的主要思想。它極大的方便了編程人員在不會分布式並行編程的情況下，將自己的程序運行在分布式系統中。

隨著業務數據量的增多，需要進行訓練和清洗的數據會變得越來越復雜，這個時候就需要任務調度系統，比如oozie或者azkaban，對關鍵任務進行調度和監控。

Oozie是用於Hadoop平台的一種工作流調度引擎，提供了RESTful API介面來接受用戶的提交請求(提交工作流作業)，當提交了workflow後，由工作流引擎負責workflow的執行以及狀態的轉換。用戶在HDFS上部署好作業(MR作業)，然後向Oozie提交Workflow，Oozie以非同步方式將作業(MR作業)提交給Hadoop。這也是為什麼當調用Oozie 的RESTful介面提交作業之後能立即返回一個JobId的原因，用戶程序不必等待作業執行完成（因為有些大作業可能會執行很久(幾個小時甚至幾天)）。Oozie在後台以非同步方式，再將workflow對應的Action提交給hadoop執行。

Azkaban也是一種工作流的控制引擎，可以用來解決有多個hadoop或者spark等離線計算任務之間的依賴關系問題。azkaban主要是由三部分構成：Relational Database，Azkaban Web Server和Azkaban Executor Server。azkaban將大多數的狀態信息都保存在MySQL中，Azkaban Web Server提供了Web UI，是azkaban主要的管理者，包括project的管理、認證、調度以及對工作流執行過程中的監控等；Azkaban Executor Server用來調度工作流和任務，記錄工作流或者任務的日誌。

流計算任務的處理平台Sloth，是網易首個自研流計算平台，旨在解決公司內各產品日益增長的流計算需求。作為一個計算服務平台，其特點是易用、實時、可靠，為用戶節省技術方面（開發、運維）的投入，幫助用戶專注於解決產品本身的流計算需求。

四、數據查詢分析

Hive的核心工作就是把SQL語句翻譯成MR程序，可以將結構化的數據映射為一張資料庫表，並提供 HQL(Hive SQL)查詢功能。Hive本身不存儲和計算數據，它完全依賴於HDFS和MapRece。可以將Hive理解為一個客戶端工具，將SQL操作轉換為相應的MapRece jobs，然後在hadoop上面運行。Hive支持標準的SQL語法，免去了用戶編寫MapRece程序的過程，它的出現可以讓那些精通SQL技能、但是不熟悉MapRece 、編程能力較弱與不擅長Java語言的用戶能夠在HDFS大規模數據集上很方便地利用SQL 語言查詢、匯總、分析數據。

Hive是為大數據批量處理而生的，Hive的出現解決了傳統的關系型資料庫(MySql、Oracle)在大數據處理上的瓶頸。Hive 將執行計劃分成map->shuffle->rece->map->shuffle->rece…的模型。如果一個Query會被編譯成多輪MapRece，則會有更多的寫中間結果。由於MapRece執行框架本身的特點，過多的中間過程會增加整個Query的執行時間。在Hive的運行過程中，用戶只需要創建表，導入數據，編寫SQL分析語句即可。剩下的過程由Hive框架自動的完成。

Impala是對Hive的一個補充，可以實現高效的SQL查詢。使用Impala來實現SQL on Hadoop，用來進行大數據實時查詢分析。通過熟悉的傳統關系型資料庫的SQL風格來操作大數據，同時數據也是可以存儲到HDFS和HBase中的。Impala沒有再使用緩慢的Hive+MapRece批處理，而是通過使用與商用並行關系資料庫中類似的分布式查詢引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分組成），可以直接從HDFS或HBase中用SELECT、JOIN和統計函數查詢數據，從而大大降低了延遲。Impala將整個查詢分成一執行計劃樹，而不是一連串的MapRece任務，相比Hive沒了MapRece啟動時間。

Hive 適合於長時間的批處理查詢分析，而Impala適合於實時互動式SQL查詢，Impala給數據人員提供了快速實驗，驗證想法的大數據分析工具，可以先使用Hive進行數據轉換處理，之後使用Impala在Hive處理好後的數據集上進行快速的數據分析。總的來說：Impala把執行計劃表現為一棵完整的執行計劃樹，可以更自然地分發執行計劃到各個Impalad執行查詢，而不用像Hive那樣把它組合成管道型的map->rece模式，以此保證Impala有更好的並發性和避免不必要的中間sort與shuffle。但是Impala不支持UDF，能處理的問題有一定的限制。

Spark擁有Hadoop MapRece所具有的特點，它將Job中間輸出結果保存在內存中，從而不需要讀取HDFS。Spark 啟用了內存分布數據集，除了能夠提供互動式查詢外，它還可以優化迭代工作負載。Spark 是在 Scala 語言中實現的，它將 Scala 用作其應用程序框架。與 Hadoop 不同，Spark 和 Scala 能夠緊密集成，其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數據集。

Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具，包括全文搜索和Web爬蟲。

Solr用Java編寫、運行在Servlet容器（如Apache Tomcat或Jetty）的一個獨立的企業級搜索應用的全文搜索伺服器。它對外提供類似於Web-service的API介面，用戶可以通過http請求，向搜索引擎伺服器提交一定格式的XML文件，生成索引；也可以通過Http Get操作提出查找請求，並得到XML格式的返回結果。

Elasticsearch是一個開源的全文搜索引擎，基於Lucene的搜索伺服器，可以快速的儲存、搜索和分析海量的數據。設計用於雲計算中，能夠達到實時搜索，穩定，可靠，快速，安裝使用方便。

還涉及到一些機器學習語言，比如，Mahout主要目標是創建一些可伸縮的機器學習演算法，供開發人員在Apache的許可下免費使用；深度學習框架Caffe以及使用數據流圖進行數值計算的開源軟體庫TensorFlow等，常用的機器學習演算法比如，貝葉斯、邏輯回歸、決策樹、神經網路、協同過濾等。

五、數據可視化

對接一些BI平台，將分析得到的數據進行可視化，用於指導決策服務。主流的BI平台比如，國外的敏捷BI Tableau、Qlikview、PowrerBI等，國內的SmallBI和新興的網易有數（可點擊這里免費試用）等。

在上面的每一個階段，保障數據的安全是不可忽視的問題。

基於網路身份認證的協議Kerberos，用來在非安全網路中，對個人通信以安全的手段進行身份認證，它允許某實體在非安全網路環境下通信，向另一個實體以一種安全的方式證明自己的身份。

控制許可權的ranger是一個Hadoop集群許可權框架，提供操作、監控、管理復雜的數據許可權，它提供一個集中的管理機制，管理基於yarn的Hadoop生態圈的所有數據許可權。可以對Hadoop生態的組件如Hive，Hbase進行細粒度的數據訪問控制。通過操作Ranger控制台，管理員可以輕松的通過配置策略來控制用戶訪問HDFS文件夾、HDFS文件、資料庫、表、欄位許可權。這些策略可以為不同的用戶和組來設置，同時許可權可與hadoop無縫對接。

6. 北大青鳥java培訓：學習Java應該了解的大數據和框架

很多人都在知道，計算機行業的發展是非常迅速的，軟體開發人員想要跟上時代的發展，最重要的就是不斷挑戰自己。
在學習軟體開發的過程，前期學習的知識是遠遠不夠的，需要了解更多的知識，並且挑戰更多的復雜性。
現在學習Java語言不能忽略工具和框架的使用，工具和框架的構建越來越復雜。
很多人不知道學習工具和框架有什麼用？下面安徽電腦培訓為大傢具體了解Java開發應該了解的大數據工具和框架。
一、MongoDB這是一種最受歡迎的，跨平台的，面向文檔的資料庫。
MongoDB的核心優勢是靈活的文檔模型，高可用性復制集和可擴展的碎片集群。
安徽java培訓建議可以嘗試以多種方式了解MongoDB，例如MongoDB工具的實時監控，內存使用和頁面錯誤，連接，資料庫操作，復制集等。
二、Elasticsearch主要是能夠為雲構建的分布式RESTful搜索引擎。
Elasticsearch主要是使用在Lucene之中的伺服器，能夠進行分布式多用戶能力的全文搜索引擎，並且還是使用在Java的開發中，這是現在很多企業中使用最流行的搜索引擎。
ElasticSearch不僅是一個全文搜索引擎，而且是一個分布式實時文檔存儲，每個欄位都能夠被索引並且可以被搜索。
它也是一個具有實時分析功能的分布式搜索引擎，java課程發現它還可以擴展到數百個伺服器存儲和處理數PB的數據。
三、Cassandra這是一個開源的分布式資料庫管理系統，最初由Facebook開發，用於處理許多商用伺服器上的大量數據，提供高可用性而無單點故障。
ApacheCassandra是一套開源分布式NoSQL資料庫系統。
集GoogleBigTable的數據模型與AmazonDynamo的完全分布式架構於一身。
於2008開源，此後，由於Cassandra良好的可擴展性，被Digg、Twitter等Web2.0網站所採納，成為了一種流行的分布式結構化數據存儲方案。
四、Redis開源（BSD許可證）內存數據結構存儲，用作資料庫，緩存和消息代理。
Redis是一個開源的，基於日誌的Key-Value資料庫，用ANSIC編寫，支持網路，可以基於內存持久化，並提供多種語言的API。
Redis有三個主要功能，安徽IT培訓認為可以將它與許多其他競爭對手區分開來：Redis是一個將數據完全存儲在內存中的資料庫，僅使用磁碟用於持久性目的。

7. 有哪些輕型的非關系型資料庫

常見的非關系型資料庫有：1、mongodb；2、cassandra；3、redis；4、hbase；5、neo4j。其中mongodb是非常著名的NoSQL資料庫，它是一個面向文檔的開源資料庫。
常見的幾種非關系型資料庫：
1、MongoDB
MongoDB是最著名的NoSQL資料庫。它是一個面向文檔的開源資料庫。MongoDB是一個可伸縮和可訪問的資料庫。它在c++中。MongoDB同樣可以用作文件系統。在MongoDB中，JavaScript可以作為查詢語言使用。通過使用sharding MongoDB水平伸縮。它在流行的JavaScript框架中非常有用。
人們真的很享受分片、高級文本搜索、gridFS和map-rece功能。驚人的性能和新特性使這個NoSQL資料庫在我們的列表中名列第一。
特點：提供高性能；自動分片；運行在多個伺服器上；支持主從復制；數據以JSON樣式文檔的形式存儲；索引文檔中的任何欄位；由於數據被放置在碎片中，所以它具有自動負載平衡配置；支持正則表達式搜索；在失敗的情況下易於管理。
優點：易於安裝MongoDB；MongoDB Inc.為客戶提供專業支持；支持臨時查詢；高速資料庫；無模式資料庫；橫向擴展資料庫；性能非常高。
缺點：不支持連接；數據量大；嵌套文檔是有限的；增加不必要的內存使用。
2、Cassandra
Cassandra是Facebook為收件箱搜索開發的。Cassandra是一個用於處理大量結構化數據的分布式數據存儲系統。通常，這些數據分布在許多普通伺服器上。您還可以添加數據存儲容量，使您的服務保持在線，您可以輕松地完成這項任務。由於集群中的所有節點都是相同的，因此不需要處理復雜的配置。
Cassandra是用Java編寫的。Cassandra查詢語言(CQL)是查詢Cassandra資料庫的一種類似sql的語言。因此，Cassandra在最佳開源資料庫中排名第二。Facebook、Twitter、思科(Cisco)、Rackspace、eBay、Twitter、Netflix等一些最大的公司都在使用Cassandra。
特點：線性可伸縮；；保持快速響應時間；支持原子性、一致性、隔離性和耐久性(ACID)等屬性；使用Apache Hadoop支持MapRece；分配數據的最大靈活性；高度可伸縮；點對點架構。
優點：高度可伸縮；無單點故障；Multi-DC復制；與其他基於JVM的應用程序緊密集成；更適合多數據中心部署、冗餘、故障轉移和災難恢復。
缺點：對聚合的有限支持；不可預知的性能；不支持特別查詢。
3、Redis
Redis是一個鍵值存儲。此外，它是最著名的鍵值存儲。Redis支持一些c++、PHP、Ruby、Python、Perl、Scala等等。Redis是用C語言編寫的。此外，它是根據BSD授權的。
特點：自動故障轉移；將其資料庫完全保存在內存中；事務；Lua腳本；將數據復制到任意數量的從屬伺服器；鑰匙的壽命有限；LRU驅逐鑰匙；支持發布/訂閱。
優點：支持多種數據類型；很容易安裝；非常快（每秒執行約11萬組，每秒執行約81000次）；操作都是原子的；多用途工具（在許多用例中使用）。
缺點：不支持連接；存儲過程所需的Lua知識；數據集必須很好地適應內存。
4、HBase
HBase是一個分布式的、面向列的開源資料庫，該技術來源於 Fay Chang 所撰寫的Google論文「Bigtable：一個結構化數據的分布式存儲系統」。就像Bigtable利用了Google文件系統（File System）所提供的分布式數據存儲一樣，HBase在Hadoop之上提供了類似於Bigtable的能力。
HBase是Apache的Hadoop項目的子項目。HBase不同於一般的關系資料庫，它是一個適合於非結構化數據存儲的資料庫。另一個不同的是HBase基於列的而不是基於行的模式。
5、neo4j
Neo4j被稱為原生圖資料庫，因為它有效地實現了屬性圖模型，一直到存儲層。這意味著數據完全按照白板的方式存儲，資料庫使用指針導航和遍歷圖。Neo4j有資料庫的社區版和企業版。企業版包括Community Edition必須提供的所有功能，以及額外的企業需求，如備份、集群和故障轉移功能。
特點：它支持唯一的約束；Neo4j支持完整的ACID(原子性、一致性、隔離性和持久性)規則；Java API: Cypher API和本機Java API；使用Apache Lucence索引；簡單查詢語言Neo4j CQL；包含用於執行CQL命令的UI: Neo4j Data Browser。
優點：容易檢索其相鄰節點或關系細節，無需連接或索引；易於學習Neo4j CQL查詢語言命令；不需要復雜的連接來檢索數據；非常容易地表示半結構化數據；大型企業實時應用程序的高可用性；簡化的調優。
缺點：不支持分片

8. redis 和 mongodb 比起來優缺點是什麼

一、優點：

1、支持多種數據結構，如 string（字元串）、 list(雙向鏈表)、dict(hash表)、set(集合）、zset(排序set)、hyperloglog（基數估算）

2、支持持久化操作，可以進行aof及rdb數據持久化到磁碟，從而進行數據備份或數據恢復等操作，較好的防止數據丟失的手段。

3、支持通過Replication進行數據復制，通過master-slave機制，可以實時進行數據的同步復制，支持多級復制和增量復制，master-slave機制是Redis進行HA的重要手段。

二、缺點：

1、Redis只能使用單線程，性能受限於CPU性能，故單實例CPU最高才可能達到5-6wQPS每秒（取決於數據結構，數據大小以及伺服器硬體性能，日常環境中QPS高峰大約在1-2w左右）。

2、支持簡單的事務需求，但業界使用場景很少，並不成熟，既是優點也是缺點。

3、Redis在string類型上會消耗較多內存，可以使用dict（hash表）壓縮存儲以降低內存耗用。

(8)開源實時資料庫redis擴展閱讀：

redis使用注意事項：

1、注意垃圾回收：Redis是一個提供持久化功能的內存資料庫，如果不指定上面值的過期時間，並且也不進行定期的清理工作，那麼Redis內存佔用會越來越大，當有一天超過了系統可用內存，那麼swap上場，離性能陡降的時間就不遠了。

2、使用key值前綴來作命名空間：雖然說Redis支持多個資料庫（默認32個，可以配置更多），但是除了默認的0號庫以外，其它的都需要通過一個額外請求才能使用。所以用前綴作為命名空間可能會更明智一點。

3、Redis並不支持Sharding，但是當數據量超過單機內存時，不得不考慮Sharding的事（注意Slave不是用來做Sharding操作的，只是數據的一個備份和讀寫分離而已）。

9. 北大青鳥java培訓：Java語言中有哪些必備的開發工具

想要成為Java技術大牛並不容易，技術大牛不僅需要具備扎實的開發技能，還需要掌握開發工具和框架的使用，在開發中，工具的選擇和使用是非常重要的，工具的功能不同使用的情況也不同。
下面電腦培訓為大傢具體介紹Java軟體開發必備的開發工具。
1、MongoDBMongoDB是使用非常廣泛的工具，具有跨平台和面向文檔資料庫等優勢，是現在使用最多的一種資料庫。
在使用過程中，有靈活的文檔模型、高可用復制集、可擴展分片集群，還能進行實時監控等相關操作。
IT培訓認為內存使用和頁面錯誤，復制集等與MongoDB的陰影是密不可分。
2、ElasticsearchElasticsearch主要是雲構建分布式RESTful的搜索引擎，但是Elasticsearch不僅僅是一個全文本的搜索引擎，還是一個具有分布式實時文檔存儲，裡面的每個數據都可以被搜索。
在使用過程中，還具有分布式搜索引擎、分析引擎等實時分析功能。
3、CassandraCassandra屬於開源分布式資料庫管理系統，Cassandra主要是使用Java編程語言進行編寫的，所以在JDK6以上的版本都是可以進行使用的，使用的操作命令和平時使用的一些資料庫相似。
貴陽北大青鳥認為只要是熟悉其他資料庫的知識，使用Cassandra是非常容易的。
4、RedisRedis可以進行內存數據結構存儲，Redis有很多其他工具所不具備的優勢，不僅可以在內存中保存資料庫內容，並且所使用的磁碟具有持久性。
Redis的數據類型比許多鍵值數據存儲系統更豐富，另一個優點是Redis可以將數據復制到任何數字。
5、HadoopHadoop是進行Java編寫的軟體框架，主要使用在分布式存儲。
對於非常大的數據，用戶可以在不知道分布式基礎的情況下進行開發分布式程序，並且能夠使用集群實現高速計算和存儲。
在使用過程中，北大青鳥貴陽計算機學院認為Hadoop還能實現分布式文件系統，能夠對大量的數據進行存儲。

開源實時資料庫redis

與開源實時資料庫redis相關的內容