ucube資料庫_選擇什麼樣的數據倉庫架構比較好如何選擇呢

㈠一桶原油到底能煉多少升汽油

一桶原油159升，平均可煉出約80升汽油，售價約560元即約80美元。原油一桶=0.1576千公升（立方米）一噸=7.3桶一公斤=0.3055加侖（美）0.2545加侖（英）要看精煉的水平。好的地方可以達到50%以上剩下的大多就是提煉出來做其他用處。

(1)ucube資料庫擴展閱讀：

1丶在英國，開采1桶原油的成本為52.50美元，而現在1桶原油的交易價格只有約42美元;在巴西，開采1桶原油的成本將近49美元;在加拿大，開采1桶原油的成本約為41美元;在美國，開采1桶原油的成本為36美元，成本當前仍低於交易價。

2丶上述數據來源於挪威雷斯塔能源公司(Rystad Energy)的UCube資料庫。該資料庫收錄了全球大約65000座油氣田的信息。

3丶如果原油的開采成本高於售價，那麼原油開采企業當然無利潤可圖。許多能源大公司已經宣布，在生產成本高昂的國家採取一系列削減成本的措施，這在行業內已不是什麼秘密。

4丶另一方面，沙烏地阿拉伯和科威特的原油開采成本很低，平均每桶低於10美元。伊拉克原油開采成本為每桶約10.70美元。

5丶斯塔能源公司的分析主管馬格努斯向CNNMoney提供了原油開采成本數據，並表示該數據清晰地反映出海灣國家因為低廉的生產成本而更占優勢。

㈡有哪個資料庫審計系統支持基線管理呀

集線管理功能就是通過對審計到的資料庫行為進行自動分析，建立資料庫訪問行為的特徵庫和基線，可分析出不同時間段與基線行為的差異。上訊InforCube資料庫審計系統就有此功能。

㈢ cube軟體無法更新會影響代碼生成嗎

不會。Cube的更新是指將資料庫中的數據同步到cube當中，保持證數據的一致性。代碼生成以源程序的中間表示形式作為輸入，並把它映射到目標語言。所以，cube軟體無法更新不會影響代碼生成。

㈣大數據BI裡面大家都有提到Cube，有的提倡打Cube，有的說不打Cube，到底哪個才是最好的

首先要理解什麼CUBE，通俗點講你可以把理解成一個立方體，在立方體的不同位置放著數據。

CUBE的好處就是按照你設計好的維度，把事實表的數據進行直接聚合得到結果，然後存放在CUBE裡面，需要的時候用維度去切CUBE。

如果你資料庫事實表的數據量不大的話，可以考慮不打CUBE ，如果數據量很大的，在進行數據展示的時候經常需要group by ，那還是打CUBE比較好。

=============
不打的CUBE的好處就是，可以直接用Tsql 查詢數據表信息，不需要設計CUBE，另查詢CUBE需要使用MDX語言，如果對CUBE不熟悉，這些都需要花時間去了解

㈤選擇什麼樣的數據倉庫架構比較好如何選擇呢

一直想整理一下這塊內容，既然是漫談，就想起什麼說什麼吧。我一直是在互聯網行業，就以互聯網行業來說。
先大概列一下互聯網行業數據倉庫、數據平台的用途：

整合公司所有業務數據，建立統一的數據中心；
提供各種報表，有給高層的，有給各個業務的；
為網站運營提供運營上的數據支持，就是通過數據，讓運營及時了解網站和產品的運營效果；
為各個業務提供線上或線下的數據支持，成為公司統一的數據交換與提供平台；
分析用戶行為數據，通過數據挖掘來降低投入成本，提高投入效果；比如廣告定向精準投放、用戶個性化推薦等；
開發數據產品，直接或間接為公司盈利；
建設開放數據平台，開放公司數據；
。。。。。。

上面列出的內容看上去和傳統行業數據倉庫用途差不多，並且都要求數據倉庫/數據平台有很好的穩定性、可靠性；但在互聯網行業，除了數據量大之外，越來越多的業務要求時效性，甚至很多是要求實時的，另外，互聯網行業的業務變化非常快，不可能像傳統行業一樣，可以使用自頂向下的方法建立數據倉庫，一勞永逸，它要求新的業務很快能融入數據倉庫中來，老的下線的業務，能很方便的從現有的數據倉庫中下線；

其實，互聯網行業的數據倉庫就是所謂的敏捷數據倉庫，不但要求能快速的響應數據，也要求能快速的響應業務；

建設敏捷數據倉庫，除了對架構技術上的要求之外，還有一個很重要的方面，就是數據建模，如果一上來就想著建立一套能兼容所有數據和業務的數據模型，那就又回到傳統數據倉庫的建設上了，很難滿足對業務變化的快速響應。應對這種情況，一般是先將核心的持久化的業務進行深度建模（比如：基於網站日誌建立的網站統計分析模型和用戶瀏覽軌跡模型；基於公司核心用戶數據建立的用戶模型），其它的業務一般都採用維度+寬表的方式來建立數據模型。這塊是後話。

整體架構下面的圖是我們目前使用的數據平台架構圖，其實大多公司應該都差不多：

邏輯上，一般都有數據採集層、數據存儲與分析層、數據共享層、數據應用層。可能叫法有所不同，本質上的角色都大同小異。

我們從下往上看：

數據採集數據採集層的任務就是把數據從各種數據源中採集和存儲到數據存儲上，期間有可能會做一些簡單的清洗。

數據源的種類比較多：

網站日誌：

作為互聯網行業，網站日誌占的份額最大，網站日誌存儲在多台網站日誌伺服器上，

一般是在每台網站日誌伺服器上部署flume agent，實時的收集網站日誌並存儲到HDFS上；

業務資料庫：

業務資料庫的種類也是多種多樣，有Mysql、Oracle、SqlServer等，這時候，我們迫切的需要一種能從各種資料庫中將數據同步到HDFS上的工具，Sqoop是一種，但是Sqoop太過繁重，而且不管數據量大小，都需要啟動MapRece來執行，而且需要Hadoop集群的每台機器都能訪問業務資料庫；應對此場景，淘寶開源的DataX，是一個很好的解決方案（可參考文章《異構數據源海量數據交換工具-Taobao DataX 下載和使用》），有資源的話，可以基於DataX之上做二次開發，就能非常好的解決，我們目前使用的DataHub也是。

當然，Flume通過配置與開發，也可以實時的從資料庫中同步數據到HDFS。

來自於Ftp/Http的數據源：

有可能一些合作夥伴提供的數據，需要通過Ftp/Http等定時獲取，DataX也可以滿足該需求；

其他數據源：

比如一些手工錄入的數據，只需要提供一個介面或小程序，即可完成；

數據存儲與分析毋庸置疑，HDFS是大數據環境下數據倉庫/數據平台最完美的數據存儲解決方案。

離線數據分析與計算，也就是對實時性要求不高的部分，在我看來，Hive還是首當其沖的選擇，豐富的數據類型、內置函數；壓縮比非常高的ORC文件存儲格式；非常方便的SQL支持，使得Hive在基於結構化數據上的統計分析遠遠比MapRece要高效的多，一句SQL可以完成的需求，開發MR可能需要上百行代碼；

當然，使用Hadoop框架自然而然也提供了MapRece介面，如果真的很樂意開發Java，或者對SQL不熟，那麼也可以使用MapRece來做分析與計算；Spark是這兩年非常火的，經過實踐，它的性能的確比MapRece要好很多，而且和Hive、Yarn結合的越來越好，因此，必須支持使用Spark和SparkSQL來做分析和計算。因為已經有Hadoop Yarn，使用Spark其實是非常容易的，不用單獨部署Spark集群，關於Spark On Yarn的相關文章，可參考：《Spark On Yarn系列文章》

實時計算部分，後面單獨說。

數據共享這里的數據共享，其實指的是前面數據分析與計算後的結果存放的地方，其實就是關系型資料庫和NOSQL資料庫；

前面使用Hive、MR、Spark、SparkSQL分析和計算的結果，還是在HDFS上，但大多業務和應用不可能直接從HDFS上獲取數據，那麼就需要一個數據共享的地方，使得各業務和產品能方便的獲取數據；和數據採集層到HDFS剛好相反，這里需要一個從HDFS將數據同步至其他目標數據源的工具，同樣，DataX也可以滿足。

另外，一些實時計算的結果數據可能由實時計算模塊直接寫入數據共享。

數據應用
業務產品

業務產品所使用的數據，已經存在於數據共享層，他們直接從數據共享層訪問即可；

報表

同業務產品，報表所使用的數據，一般也是已經統計匯總好的，存放於數據共享層；

即席查詢

即席查詢的用戶有很多，有可能是數據開發人員、網站和產品運營人員、數據分析人員、甚至是部門老大，他們都有即席查詢數據的需求；

這種即席查詢通常是現有的報表和數據共享層的數據並不能滿足他們的需求，需要從數據存儲層直接查詢。

即席查詢一般是通過SQL完成，最大的難度在於響應速度上，使用Hive有點慢，目前我的解決方案是SparkSQL，它的響應速度較Hive快很多，而且能很好的與Hive兼容。

當然，你也可以使用Impala，如果不在乎平台中再多一個框架的話。

OLAP

目前，很多的OLAP工具不能很好的支持從HDFS上直接獲取數據，都是通過將需要的數據同步到關系型資料庫中做OLAP，但如果數據量巨大的話，關系型資料庫顯然不行；

這時候，需要做相應的開發，從HDFS或者HBase中獲取數據，完成OLAP的功能；

比如：根據用戶在界面上選擇的不定的維度和指標，通過開發介面，從HBase中獲取數據來展示。

其它數據介面

這種介面有通用的，有定製的。比如：一個從Redis中獲取用戶屬性的介面是通用的，所有的業務都可以調用這個介面來獲取用戶屬性。

實時計算現在業務對數據倉庫實時性的需求越來越多，比如：實時的了解網站的整體流量；實時的獲取一個廣告的曝光和點擊；在海量數據下，依靠傳統資料庫和傳統實現方法基本完成不了，需要的是一種分布式的、高吞吐量的、延時低的、高可靠的實時計算框架；Storm在這塊是比較成熟了，但我選擇Spark Streaming，原因很簡單，不想多引入一個框架到平台中，另外，Spark Streaming比Storm延時性高那麼一點點，那對於我們的需要可以忽略。

我們目前使用Spark Streaming實現了實時的網站流量統計、實時的廣告效果統計兩塊功能。

做法也很簡單，由Flume在前端日誌伺服器上收集網站日誌和廣告日誌，實時的發送給Spark Streaming，由Spark Streaming完成統計，將數據存儲至Redis，業務通過訪問Redis實時獲取。

任務調度與監控在數據倉庫/數據平台中，有各種各樣非常多的程序和任務，比如：數據採集任務、數據同步任務、數據分析任務等；

這些任務除了定時調度，還存在非常復雜的任務依賴關系，比如：數據分析任務必須等相應的數據採集任務完成後才能開始；數據同步任務需要等數據分析任務完成後才能開始；這就需要一個非常完善的任務調度與監控系統，它作為數據倉庫/數據平台的中樞，負責調度和監控所有任務的分配與運行。

前面有寫過文章，《大數據平台中的任務調度與監控》,這里不再累贅。

總結在我看來架構並不是技術越多越新越好，而是在可以滿足需求的情況下，越簡單越穩定越好。目前在我們的數據平台中，開發更多的是關注業務，而不是技術，他們把業務和需求搞清楚了，基本上只需要做簡單的SQL開發，然後配置到調度系統就可以了，如果任務異常，會收到告警。這樣，可以使更多的資源專注於業務之上。

㈥ Cube是什麼意思

虛擬cube實際上就是cube視圖，有些像資料庫中的視圖的概念。也就是很多不同的cube在同一個cube group中，這寫cube之間是存在一些關系的。
比如：
我要建立一個cube，cube中有時間維度，我可以將這個cube按照時間維度中的月層次來進行劃分，這樣就將一個cube分割成12個子cube（一年有12個月）。
但是用戶看這個cube的時候根本不知道這個cube是有12個子cube組成的。對用戶是透明的。

㈦ 1桶原油的開采成本究竟有多少

國際原油價格下跌總是會令能源行業遭受磨難。但是國際原油價格的這一次下跌卻令一些原油生產國備受打擊。
在英國，開采1桶原油的成本為52.50美元，而現在1桶原油的交易價格只有約42美元；在巴西，開采1桶原油的成本將近49美元；在加拿大，開采1桶原油的成本約為41美元；在美國，開采1桶原油的成本為36美元，成本當前仍低於交易價。
上述數據來源於挪威雷斯塔能源公司(Rystad Energy)的UCube資料庫。該資料庫收錄了全球大約65000座油氣田的信息。
如果原油的開采成本高於售價，那麼原油開采企業當然無利潤可圖。
許多能源大公司已經宣布，在生產成本高昂的國家採取一系列削減成本的措施，這在行業內已不是什麼秘密。
另一方面，沙烏地阿拉伯和科威特的原油開采成本很低，平均每桶低於10美元。伊拉克原油開采成本為每桶約10.70美元。
斯塔能源公司的分析主管馬格努斯向CNNMoney提供了原油開采成本數據，並表示該數據清晰地反映出海灣國家因為低廉的生產成本而更占優勢。

㈧什麼是cube資料庫

cube的全稱是多維立方體，就是在不同位置存放數據的立方體，主要是用於支持聯機分析應用（OLAP）。Cube的使用就是在處理數據時，把所需要的數據進行打包，尤其針對要處理的數據很大的時候，比如FineBI的FineCube，可以避免建模，數據處理起來會很快。希望可以幫到你。

㈨資料庫cube軟體有哪些

首先要理解什麼CUBE，通俗點講你可以把理解成一個立方體，在立方體的不同位置放著數據。
CUBE的好處就是按照你設計好的維度，把事實表的數據進行直接聚合得到結果，然後存放在CUBE裡面，需要的時候用維度去切CUBE。
finebi在cube取數方面的表現就相當優異。

ucube資料庫

與ucube資料庫相關的內容