cbir是資料庫嗎_國內外的Hadoop應用現狀

㈠關於CBIR系統的學習：

用lire，基於lucene的cbir很簡單

㈡百度識圖的核心技術是什麼

網路識圖的核心技術原理:

對於這種網路，谷歌的圖像搜索一般由演算法實現，一般是三個步驟：
1. 將目標圖片進行特徵提取，描述圖像的演算法很多，用的比較多的是：SIFT描述子，指紋演算法函數，bundling features演算法，hash function(散列函數)等。也可以根據不同的圖像，設計不同的演算法，比如圖像局部N階矩的方法提取圖像特徵。
2. 將圖像特徵信息進行編碼，並將海量圖像編碼做查找表。對於目標圖像，可以對解析度較大的圖像進行降采樣，減少運算量後在進行圖像特徵提取和編碼處理。
3. 相似度匹配運算：利用目標圖像的編碼值，在圖像搜索引擎中的圖像資料庫進行全局或是局部的相似度計算;根據所需要的魯棒性，設定閾值，然後將相似度高的圖片預保留下來;最後應該還有一步篩選最佳匹配圖片，這個應該還是用到特徵檢測演算法。
其中每個步驟都有很多演算法研究，圍繞數學，統計學，圖像編碼，信號處理等理論進行研究。

㈢圖書館綜合信息檢索問題。

檢索課題：多媒體信息檢索系統
檢索系統及資料庫：QBIC COLOUR SEARCH ，QBIC LAYOUT SEARCH
-------------------------------------------------------

1.課題內容分析
近年來隨著計算機網路的全面普及，多媒體信息檢索發展很快。基於內容的圖像檢索根據圖像、圖像的內容語義以及上下文聯系進行查找，以圖像語義特徵為線索從圖像資料庫中檢出具有相似特性的其它圖像。因為圖像的規模一般要大於純粹的文本信息，因此，基於內容的圖像檢索在檢索的速度和效率上要求更高。目前已有不少應用於實踐環境的基於內容圖像檢索系統，如由IBM公司開發的最早商業化QBIC系統，以及由哥倫比亞大學研發的WebSeek系統、麻省理工學院研發的Photobook系統等。通過基於內容的技術檢索Web圖像，首先需要從Web中剝離圖像，組成圖像集，對圖像集中的各個對象進行基於內容的特徵分析、相似度匹配。本課題通過對以IBM公司開發的QBIC系統為代表的基於內容的多媒體信息檢索系統的分析與評價，學習和掌握目前互聯網上可以使用的最先進的圖像、影像檢索工具，進而深入地理解多媒體信息處理技術和檢索技術的內容。
2．系統調查分析
IBM公司數字圖書館方案將物理信息轉化為數字多媒體形式，通過網路安全地發送給世界各地的用戶。IBM Almaden 研究中心推出了QBIC系統。該系統開創了圖像信息查詢的全新領域。圖像可以按照顏色，灰度，紋理和位置進行查詢。查詢要求將以圖形方式表達，如從顏色表中選取顏色，或從例圖中選擇圖像的紋理。查詢結果可以按照相關的序列指導子序列查詢的進行。這種方法能夠使用戶更為快速和簡便地對可視化信息進行篩選和確定。基於內容的圖像檢索系統一般包括圖像處理模塊、查詢模塊、對象庫和特徵庫和知識庫。
2.1 圖像處理模塊：圖像處理模塊包括輸入圖像和圖像特徵的提取過程。
圖像輸入過程將圖像輸入到系統當中，類似於文本檢索系統中文本內容的錄入過程。CBIR系統一般允許用戶以全自動或者半自動（需要用戶干預）的方式對圖像進行分割，標識出需要的對象或內容關鍵點，以便有針對性地對目標進行特徵提取。如用戶界面常常提供一組示例供用戶選擇，或者由用戶親自繪制草圖輸入系統。
特徵提取對用戶或系統標明的圖像對象進行特徵提取處理。特徵提取可由人完成，例如人工給出一些描述特徵的關鍵詞，也可以通過對應的圖像處理程序完成，自動提取出檢索用戶可能關心的一些圖像特徵。提取的特徵既可以是全局性的，如整幅圖像的顏色分布，也可以是針對某個內部的局部對象，如圖像中的子區域。特徵表示方法有許多，如顏色表示法中就有顏色直方圖、顏色矩、顏色集等，紋理表示法中有Tramura紋理特徵、基於小波變換的紋理特徵表示法。不過，涉及圖像高級抽象的特徵時，會受到知識領域和檢索任務的限制，因此往往需要外界知識提供輔助。
2.2查詢模塊：查詢模塊主要實現檢索匹配過程，根據相關度計算方法，實現提問與記錄的匹配和篩選，最終得到符合要求的結果反饋給用戶。CBIR採用示例查詢的方式向用戶提供檢索介面，將用戶的檢索請求轉化為可以對資料庫進行操作的提問。檢索允許針對全局對象，如整幅圖像，也允許針對其中的子對象以及任意組合形式來進行。檢索返回的結果按照相似程度進行排列輸出，如果有必要可以基於得到的檢索結果進行進一步的查詢。與基於內容檢索一樣，CBIR實現的是相似性檢索，模仿人類的認知過程進行，因此，往往需要在與檢索用戶不斷地交互中提煉檢索結果。
2.3 對象庫與特徵庫：CBIR中的對象庫存儲了輸入的圖像資源，特徵庫包含了用戶輸入圖像特徵以及在預處理過程中自動提取的特徵。對象庫和特徵庫通過組織與圖像相匹配的索引來實現快速搜索，從而可以應用到大規模圖像資料庫檢索的過程當中。
2.4 知識庫：在CBIR系統中，知識庫的目的是為了將檢索限定在一定的任何領域范圍內，避免不同的檢索要求以及不同的領域背景可能會導致對媒體內容語義產生的不同要求。因此，檢索需要一定的領域知識加以輔助來提高檢索的准確性。
3. 檢索使用
QBIC(Query By Image Content)是IBM公司於20世紀90年代研製的圖像和動態影像檢索系統，英文含意是"根據圖像的內容進行查詢"。
QBIC在檢索過程中用戶無須提供文字檢索詞（當然它也提供關鍵詞檢索），只要輸入以圖像形式表達的檢索要求即可檢索出一系列相似的圖像。
QBIC系統提供多種查詢方式，包括：利用標准范圖進行檢索、繪制簡圖或掃瞄圖像進行檢索、選擇色彩或結構進行檢索、輸入動態影像片斷和前景對象進行檢索等。
3.1 QBIC COLOUR SEARCH(圖像顏色檢索)
The QBIC Colour Search locates two-dimensional artwork in the Digital Collection that match the colours you specify. You select colours from a spectrum, define proportions, then execute the search. It really is that simple. Go to the QBIC COLOUR SEARCH demo to view a step by step demonstration of this search.
3.1.1 使用步驟
①使用滑鼠選擇一種顏色從調色板。
②單擊箭頭按鈕添加色彩。
③幻燈片三角處理對桶形調整的百分比，這顏色。
④您可能會重復這一過程，直到斗是爆滿。當您准備好，單擊搜索。
3.1.2 搜索界面(圖略)
3.1.3 檢索示例
【檢索內容】：RGB = {128，255，252}，斗中填滿該顏色。
【檢索結果】：(圖片略)
1) Plan of Three Burial Caves in Mount Bingemma on Malta
Houel, Jean-Pierre-Laurent Late 1770s
2) Plan of the Saltern on the Island of Gozo (The Saltern of a Watchmaker)
Houel, Jean-Pierre-Laurent Late 1770s
3) Portrait of Yakov Kniazhnin
Galaktionov, Stepan Philippovich Circa 1825
4) Design of the Coucert Hall in the Catherine Park of Tsarskoye Selo. Vertical Section
Quarenghi, Giacomo 1780s
5) Portrait of Vasily Plavilshchikov
Afanasyev, Konstantin Yakovlevich First third of the 19th century
6) Marble Architectural Fragments Found in Citta Vecchia and Rabbato on Malta
Houel, Jean-Pierre-Laurent Late 1770s
7) Tableau Vivant: Recollection
Schoppe, Julius, I 1829
8) Design of a Cup
UNKNOWN 1900s
9) Title-Page for the Poem 'Blancheflour' by K.F. Scherenberg
Graeb, Carl Georg Anton and Schutze, Ernst Friedrich Gotthold, II 1854
10) Portrait of Count Ludwig Cobenzl, Ambassador of Austria in Russia
UNKNOWN Late 18th century
11) Design of a Dipper Showing Warriors of Ancient Russia
UNKNOWN 1910s
12) Design of a Crystal Ink-Pot in a Silver Setting
UNKNOWN 1910s
3.2 QBIC LAYOUT SEARCH(圖像布局檢索)
With the QBIC Layout Search, you become the artist. Using geometric shapes, you can arrange areas of colour on a virtual canvas to approximate the visual organisation of the work of art for which you are searching. Go to the QBIC Layout Search Demo to view a step by step demonstration of this search.
3.2.1 使用步驟
①使用滑鼠選擇一個顏色從調色板。
②選擇圓形工具或廣場的工具。
③按住滑鼠按鈕並拖動十字架的畫布創建一個顏色的形狀。
④重復這一過程，直至完成，您的自定義布局。當您准備就緒，單擊搜索。
3.2.2 搜索界面(圖略)
3.2.3 檢索示例
【檢索內容】：RGB = {128，255，252}，繪制一個圓。
【檢索結果】：(圖片略)
1) Interior View of the Crater of Volcanello
Houel, Jean-Pierre-Laurent Late 1770s
2) Demonstration in Wedding
Ehmsen, Heinrich 1931
3) View of the English Embankment and Galerny (Gallery) Dvor from Vasilyevsky Island (3rd section)
Paterssen, Benjamin 1799
4) Plan of the Foundations of Buildings in Gurginti on Malta
Houel, Jean-Pierre-Laurent Late 1770s
5) Eighth Sheet of the Poem 'Blancheflour' by K.F. Scherenberg
Graeb, Carl Georg Anton and Schutze, Ernst Friedrich Gotthold, II 1854
6) View of the Theatre in Taormina
Houel, Jean-Pierre-Laurent Between 1776 and 1779
7) Top of Etna from the East. View from San Leonardo
Houel, Jean-Pierre-Laurent Between 1776 and 1779
8) View of the English Embankment from Vasilyevsky Island (2nd section)
Paterssen, Benjamin 1799
9) Terrace with Fountains in the Boulevard. Facade and Plan
Quarenghi, Giacomo Early 1800s
10) Neva Embankment by the Summer Garden
UNKNOWN 1827
11) Landscape with Pines at a Moonlit Night
Auburtin, Jean-Francis 1890s
12) View of the Summer Palace of Empress Elizabeth Petrovna
Grekov, Alexei Angiliyevich 1753
3.3 格式說明
Landscape with Pines at a Moonlit Night ------ 圖像名稱
Auburtin, Jean-Francis 1890s ------ 作者，創作時間
4. 分析和評價
QBIC(Query By Image Content)圖像檢索系統是 IBM 公司 90年代開發製作的圖像和動態景象檢索系統，是第一個基於內容的商業化的圖像檢索系統。QBIC 系統提供了多種的查詢方式，包括：利用標准范圖（系統自身提供）檢索，用戶繪制簡圖或掃描輸入圖像進行檢索，選擇色彩或結構查詢方式，用戶輸入動態影象片段和前景中運動的對象檢索。在用戶輸入圖像、簡圖或影象片段時，QBIC 對輸入的查詢圖像進行顏色、紋理、形狀等特徵進行分析和抽取，然後根據用戶選擇的查詢方式分別進行不同的處理。QBIC 中使用的顏色特徵有色彩百分比、色彩位置分布等；使用的紋理特徵是根據Tamura 提出的紋理表示的一種改進，即結合了粗糙度、對比度和方向性的特性；使用的形狀特徵有面積、圓形度、偏心度、主軸偏向和一組代數矩不變數。QBIC 還是少數幾個考慮了高維特徵索引的系統之一。
QBIC除了上面的基於內容特性的檢索，還輔以文本查詢手段。例如為舊金山現代藝術博物館的每幅作品給予標准描述信息：作者、標題、日期，許多作品還有內容的自然描述。

㈣基於內容的圖像檢索的工作流程

基於CBIR 技術的圖像檢索系統，在建立圖像資料庫時，系統對輸入的圖像進行分析並分類統一建模，然後根據各種圖像模型提取圖像特徵存入特徵庫，同時對特徵庫建立索引以提高查找效率。而用戶在通過用戶介面設置查詢條件時，可以採用一種或幾種的特徵組合來表示，然後系統採用相似性匹配演算法計算關鍵圖像特徵與特徵庫中圖像特徵的相似度，然後按照相似度從大到小的順序將匹配圖像反饋給用戶。用戶可根據自己的滿意程度，選擇是否修改查詢條件，繼續查詢，以達到令人滿意的查詢結果。

㈤國內外的Hadoop應用現狀

文 | 翟周偉
本文節選自《Hadoop核心技術》一書。
Hadoop是一個開源的高效雲計算基礎架構平台，其不僅僅在雲計算領域用途廣泛，還可以支撐搜索引擎服務，作為搜索引擎底層的基礎架構系統，同時在海量數據處理、數據挖掘、機器學習、科學計算等領域都越來越受到青睞。本文將講述國內外的hadoop應用現狀。
國外Hadoop的應用現狀
1.Yahoo
Yahoo是Hadoop的最大支持者，截至2012年，Yahoo的Hadoop機器總節點數目超過42?000個，有超過10萬的核心CPU在運行Hadoop。最大的一個單Master節點集群有4500個節點(每個節點雙路4核心CPUboxesw，4×1TB磁碟，16GBRAM)。總的集群存儲容量大於350PB，每月提交的作業數目超過1000萬個，在Pig中超過60%的Hadoop作業是使用Pig編寫提交的。
Yahoo的Hadoop應用主要包括以下幾個方面：
支持廣告系統
用戶行為分析
支持Web搜索
反垃圾郵件系統
會員反濫用
內容敏捷
個性化推薦
同時Pig研究並測試支持超大規模節點集群的Hadoop系統。
2.Facebook
Facebook使用Hadoop存儲內部日誌與多維數據，並以此作為報告、分析和機器學習的數據源。目前Hadoop集群的機器節點超過1400台，共計11?200個核心CPU，超過15PB原始存儲容量，每個商用機器節點配置了8核CPU，12TB數據存儲，主要使用StreamingAPI和JavaAPI編程介面。Facebook同時在Hadoop基礎上建立了一個名為Hive的高級數據倉庫框架，Hive已經正式成為基於Hadoop的Apache一級項目。此外，還開發了HDFS上的FUSE實現。
3.A9.com
A9.com為Amazon使用Hadoop構建了商品搜索索引，主要使用StreamingAPI以及C++、Perl和Python工具，同時使用Java和StreamingAPI分析處理每日數以百萬計的會話。A9.com為Amazon構建的索引服務運行在100節點左右的Hadoop集群上。
4.Adobe
Adobe主要使用Hadoop及HBase，同於支撐社會服務計算，以及結構化的數據存儲和處理。大約有超過30個節點的Hadoop-HBase生產集群。Adobe將數據直接持續地存儲在HBase中，並以HBase作為數據源運行MapRece作業處理，然後將其運行結果直接存到HBase或外部系統。Adobe在2008年10月就已經將Hadoop和HBase應用於生產集群。
5.CbIR
自2008年4月以來，日本的CbIR(Content-basedInformationRetrieval)公司在AmazonEC2上使用Hadoop來構建圖像處理環境，用於圖像產品推薦系統。使用Hadoop環境生成源資料庫，便於Web應用對其快速訪問，同時使用Hadoop分析用戶行為的相似性。
6.Datagraph
Datagraph主要使用Hadoop批量處理大量的RDF數據集，尤其是利用Hadoop對RDF數據建立索引。Datagraph也使用Hadoop為客戶執行長時間運行的離線SPARQL查詢。Datagraph是使用AmazonS3和Cassandra存儲RDF數據輸入和輸出文件的，並已經開發了一個基於MapRece處理RDF數據的Ruby框架——RDFgrid。
Datagraph主要使用Ruby、RDF.rb以及自己開發的RDFgrid框架來處理RDF數據，主要使用HadoopStreaming介面。
7.EBay
單集群超過532節點集群，單節點8核心CPU，容量超過5.3PB存儲。大量使用的MapRece的Java介面、Pig、Hive來處理大規模的數據，還使用HBase進行搜索優化和研究。
8.IBM
IBM藍雲也利用Hadoop來構建雲基礎設施。IBM藍雲使用的技術包括：Xen和PowerVM虛擬化的Linux操作系統映像及Hadoop並行工作量調度，並發布了自己的Hadoop發行版及大數據解決方案。
9.Last.Fm
Last.Fm主要用於圖表計算、專利申報、日誌分析、A/B測試、數據集合並等，也使用Hadoop對超過百萬的曲目進行大規模的音頻特徵分析。
節點超過100台機器，集群節點配置雙四核[email protected]@2.13GHz，24GB內存，8TB(4×2TB)存儲。
10.LinkedIn
LinkedIn有多種硬體配置的Hadoop集群，主要集群配置如下：
800節點集群，基於Westmere的惠普SL170X與2×4的核心，24GB內存，6×2TBSATA。
1900節點集群，基於Westmere的超微-HX8DTT，與2×6的核心，24GB內存，6×2TBSATA。
1400節點集群，基於SandyBridge超微與2×6的核心，32GB內存，6×2TBSATA。
使用的軟體如下：
操作系統使用RHEL6.3。
JDK使用SUNJDK1.6.0_32。
Apache的Hadoop0.20.2的補丁和ApacheHadoop的1.0.4補丁。
Azkaban和Azkaban用於作業調度。
Hive、Avro、Kafka等。
11.MobileAnalytic.TV
主要使用Hadoop應用在並行化演算法領域，涉及的MapRece應用演算法如下。
信息檢索和分析。
機器生成的內容——文檔、文本、音頻、視頻。
自然語言處理。
項目組合包括：
移動社交網路。
網路爬蟲。
文本到語音轉化。
音頻和視頻自動生成。
12.Openstat
主要利用Hadoop定製一個網路日誌分析並生成報告，其生產環境下超過50個節點集群(雙路四核Xeon處理器，16GB的RAM，4～6硬碟驅動器)，還有兩個相對小的集群用於個性化分析，每天處理約500萬的事件，每月15億美元的交易數據，集群每天產生大約25GB的報告。
使用的技術主要包括：CDH、Cascading、Janino。
13.Quantcast
3000個CPU核心，3500TB存儲，每日處理1PB以上的數據，使用完全自定義的數據路徑和排序器的Hadoop調度器，對KFS文件系統有突出貢獻。
14.Rapleaf
超過80個節點的集群(每個節點有2個雙核CPU，2TB×8存儲，16GBRAM內存);主要使用Hadoop、Hive處理Web上關聯到個人的數據，並引入Cascading簡化數據流穿過各種處理階段。
15.WorldLingo
硬體上超過44台伺服器(每台有2個雙核CPU，2TB存儲，8GB內存)，每台伺服器均運行Xen，啟動一個虛擬機實例運行Hadoop/HBase，再啟動一個虛擬機實例運行Web或應用程序伺服器，即有88台可用的虛擬機;運行兩套獨立的Hadoop/HBase機群，它們各自擁有22個節點。Hadoop主要用於運行HBase和MapRece作業，掃描HBase的數據表，執行特定的任務。HBase作為一種可擴展的、快速的存儲後端，用於保存數以百萬的文檔。目前存儲了1200萬篇文檔，近期的目標是存儲4.5億篇文檔。
16.格拉斯哥大學的TerrierTeam
超過30個節點的實驗集群(每節點配置XeonQuadCore2.4GHz，4GB內存，1TB存儲)。使用Hadoop促進信息檢索研究和試驗，特別是用於TREC，用於TerrierIR平台。Terrier的開源發行版中包含了基於HadoopMapRece的大規模分布式索引。
17.內布拉斯加大學的HollandComputingCenter
運行一個中等規模的Hadoop機群(共計1.6PB存儲)用於存儲和提供物理數據，以支持緊湊型μ子螺旋型磁譜儀(CompactMuonSolenoid，CMS)實驗的計算。這需要一類能夠以幾Gbps的速度下載數據，並以更高的速度處理數據的文件系統的支持。
18.VisibleMeasures
將Hadoop作為可擴展數據流水線的一個組件，最終用於VisibleSuite等產品。使用Hadoop匯總、存儲和分析與網路視頻觀眾收看行為相關的數據流。目前的網格包括超過128個CPU核心，超過100TB的存儲，並計劃大幅擴容。
國內Hadoop的應用現狀
Hadoop在國內的應用主要以互聯網公司為主，下面主要介紹大規模使用Hadoop或研究Hadoop的公司。
1.網路
網路在2006年就開始關注Hadoop並開始調研和使用，在2012年其總的集群規模達到近十個，單集群超過2800台機器節點，Hadoop機器總數有上萬台機器，總的存儲容量超過100PB，已經使用的超過74PB，每天提交的作業數目有數千個之多，每天的輸入數據量已經超過7500TB，輸出超過1700TB。
網路的Hadoop集群為整個公司的數據團隊、大搜索團隊、社區產品團隊、廣告團隊，以及LBS團體提供統一的計算和存儲服務，主要應用包括：
數據挖掘與分析。
日誌分析平台。
數據倉庫系統。
推薦引擎系統。
用戶行為分析系統。
同時網路在Hadoop的基礎上還開發了自己的日誌分析平台、數據倉庫系統，以及統一的C++編程介面，並對Hadoop進行深度改造，開發了HadoopC++擴展HCE系統。
2.阿里巴巴
阿里巴巴的Hadoop集群截至2012年大約有3200台伺服器，大約30?000物理CPU核心，總內存100TB，總的存儲容量超過60PB，每天的作業數目超過150?000個，每天hivequery查詢大於6000個，每天掃描數據量約為7.5PB，每天掃描文件數約為4億，存儲利用率大約為80%，CPU利用率平均為65%，峰值可以達到80%。阿里巴巴的Hadoop集群擁有150個用戶組、4500個集群用戶，為淘寶、天貓、一淘、聚劃算、CBU、支付寶提供底層的基礎計算和存儲服務，主要應用包括：
數據平台系統。
搜索支撐。
廣告系統。
數據魔方。
量子統計。
淘數據。
推薦引擎系統。
搜索排行榜。
為了便於開發，其還開發了WebIDE繼承開發環境，使用的相關系統包括：Hive、Pig、Mahout、Hbase等。
3.騰訊
騰訊也是使用Hadoop最早的中國互聯網公司之一，截至2012年年底，騰訊的Hadoop集群機器總量超過5000台，最大單集群約為2000個節點，並利用Hadoop-Hive構建了自己的數據倉庫系統TDW，同時還開發了自己的TDW-IDE基礎開發環境。騰訊的Hadoop為騰訊各個產品線提供基礎雲計算和雲存儲服務，其支持以下產品：
騰訊社交廣告平台。
搜搜(SOSO)。
拍拍網。
騰訊微博。
騰訊羅盤。
QQ會員。
騰訊游戲支撐。
QQ空間。
朋友網。
騰訊開放平台。
財付通。
手機QQ。
QQ音樂。
4.奇虎360
奇虎360主要使用Hadoop-HBase作為其搜索引擎so.com的底層網頁存儲架構系統，360搜索的網頁可到千億記錄，數據量在PB級別。截至2012年年底，其HBase集群規模超過300節點，region個數大於10萬個，使用的平台版本如下。
HBase版本：facebook0.89-fb。
HDFS版本：facebookHadoop-20。
奇虎360在Hadoop-HBase方面的工作主要為了優化減少HBase集群的啟停時間，並優化減少RS異常退出後的恢復時間。
5.華為
華為公司也是Hadoop主要做出貢獻的公司之一，排在Google和Cisco的前面，華為對Hadoop的HA方案，以及HBase領域有深入研究，並已經向業界推出了自己的基於Hadoop的大數據解決方案。
6.中國移動
中國移動於2010年5月正式推出大雲BigCloud1.0，集群節點達到了1024。中國移動的大雲基於Hadoop的MapRece實現了分布式計算，並利用了HDFS來實現分布式存儲，並開發了基於Hadoop的數據倉庫系統HugeTable，並行數據挖掘工具集BC-PDM，以及並行數據抽取轉化BC-ETL，對象存儲系統BC-ONestd等系統，並開源了自己的BC-Hadoop版本。
中國移動主要在電信領域應用Hadoop，其規劃的應用領域包括：
經分KPI集中運算。
經分系統ETL/DM。
結算系統。
信令系統。
雲計算資源池系統。
物聯網應用系統。
E-mail。
IDC服務等。
7.盤古搜索
盤古搜索(目前已和即刻搜索合並為中國搜索)主要使用Hadoop集群作為搜索引擎的基礎架構支撐系統，截至2013年年初，集群中機器數量總計超過380台，存儲總量總計3.66PB，主要包括的應用如下。
網頁存儲。
網頁解析。
建索引。
Pagerank計算。
日誌統計分析。
推薦引擎等。
即刻搜索(人民搜索)
即刻搜索(目前已與盤古搜索合並為中國搜索)也使用Hadoop作為其搜索引擎的支撐系統，截至2013年，其Hadoop集群規模總計超過500台節點，配置為雙路6核心CPU，48G內存，11×2T存儲，集群總容量超過10PB，使用率在78%左右，每天處理讀取的數據量約為500TB，峰值大於1P，平均約為300TB。
即刻搜索在搜索引擎中使用sstable格式存儲網頁並直接將sstable文件存儲在HDFS上面，主要使用HadoopPipes編程介面進行後續處理，也使用Streaming介面處理數據，主要的應用包括：
網頁存儲。
解析。
建索引。
推薦引擎。
end

㈥我想查一張照片看是不是網路圖片怎麼查

想查找照片是否出自網路，可以用「網路識圖」功能，具體操作方法如下：

一、在網路上搜索「網路識圖」，如圖：

(6)cbir是資料庫嗎擴展閱讀：

「世界很復雜，網路更懂你」，常規的圖片搜索，是通過輸入關鍵詞的形式搜索到互聯網上相關的圖片資源，而網路識圖則能實現用戶通過上傳圖片或輸入圖片的url地址，從而搜索到互聯網上與這張圖片相似的其他圖片資源，同時也能找到這張圖片相關的信息。

㈦嵌入式資料庫的發展趨勢在哪裡

隨著嵌入式系統廣泛應用，其數據管理日益成為需要解決的重要問題。計算和數據技術向微型化、網路化、移動化方向的發展趨勢使得集中式的數據管理方式越來越無法滿足需求，這些都是嵌入式資料庫應用的潛在市場。不同於大型通用的後台資料庫，嵌入式資料庫可以應用在各種網路設備(路由器、交換機等)，移動通信、數字媒體設備(MID、PDP、STB、DTV等)，數據採集控制系統，數字家庭智能家電產品，交通、建築、智能醫療設備等領域。有關嵌入式資料庫的研究和軟體實現已經很多，比如Oracle TimesTen/Berkeley DB，SQLite，Entier……針對嵌入式資料庫的應用場景和本身特性，個人覺得如下兩個方面問題還未很好的解決或是值得未來關注
1）更為豐富的查詢介面
嵌入式資料庫處理的數據不限於傳統的結構化的關系數據，也包括大量的半結構化和非結構化的數據。例如語音、圖像等媒體數據的管理，空間地理數據的管理，XML數據的管理。這就需要研究native或是hybrid的CBIR和XML引擎
2）容易忽視的安全問題
另外一個就是嵌入式資料庫安全方面的技術研究，由於嵌入式平台的開放性和智能化，其面臨的安全威脅也日益增長。嵌入式資料庫或者保存了個人隱私信息或是駐留了業務處理的關鍵數據，因此對於數據安全的要求很高。為此需要在防止非授權數據訪問、數據加密、防範黑客攻擊等數據安全威脅上需要提供充分的安全性保證。

㈧基於內容的圖像檢索的技術概述

CBIR的核心是使用圖像的可視特徵對圖像進行檢索。本質上講，它是一種近似匹配技術，融合了計算機視覺、圖像處理、圖像理解和資料庫等多個領域的技術成果，其中的特徵提取和索引的建立可由計算機自動完成，避免了人工描述的主觀性。用戶檢索的過程一般是提供一個樣例圖像(Queryby Example) 或描繪一幅草圖(Queryby Sketch) ，系統抽取該查詢圖像的特徵，然後與資料庫中的特徵進行比較，並將與查詢特徵相似的圖像返回給用戶。
CBIR 的實現依賴於兩個關鍵技術的解決:圖像特徵提取和匹配。
圖像特徵提取分為兩類:①低層視覺，其內容主要包括顏色、形狀、紋理等；②語義內容，它包含高層的概念級反應(如「海上升明月」)，需要對物體進行識別和解釋，往往要藉助人類的知識推理。由於目前計算機視覺和圖像理解的發展水平所限，使得CBIR還無法真正支持基於語義的圖像檢索，所以目前研究得較多也比較成熟的檢索演算法大部分是基於圖像的低層特徵的，即利用圖像的顏色、紋理、形狀等特徵來檢索。提取後的圖像特徵數據需要經過索引、降維等處理。首先，圖像由特徵向量表示，而這些特徵向量一般都是高維向量，在龐大的圖像資料庫中，對高維向量進行順序比較的過程是相當費時的。在實際應用過程中，為了讓基於CBIR的圖像檢索系統能夠真正適合大型的圖像資料庫，提高檢索效率，盡可能減少查詢時的特徵矢量比較時間，往往將降維技術和多維索引技術結合起來。
圖像相似度是指人類對圖像內容認識上（即語義）的差異，導致通過計算查詢樣圖和候選圖像之間在視覺特徵上存在距離。如果這個距離滿足一定條件，我們則可以說這兩圖像相似度匹配。當然，如果能將語義特徵和視覺特徵結合起來，相似度匹配程度會更高，檢索結果會更讓人滿意，但這是目前研究的一大難題。

㈨基於內容的圖像檢索的介紹

基於內容的圖像檢索，即CBIR(Content-based image retrieval)，是計算機視覺領域中關注大規模數字圖像內容檢索的研究分支。典型的CBIR系統，允許用戶輸入一張圖片，以查找具有相同或相似內容的其他圖片。而傳統的圖像檢索是基於文本的，即通過圖片的名稱、文字信息和索引關系來實現查詢功能。這一概念於1992年由T.Kato提出的。他在論文中構建了一個基於色彩與形狀的圖像資料庫，並提供了一定的檢索功能進行實驗。此後，基於圖像特徵提取以實現圖像檢索的過程以及CBIR這一概念，被廣泛應用於各種研究領域，如統計學、模式識別、信號處理和計算機視覺。目前相關研究已發展近20年，傳統的搜索引擎公司包括Google、網路、Bing都已提供一定的基於內容的圖像搜索產品。如：Google Similar Images，網路識圖。

㈩圖像檢索的基本概述

在檢索原理上，無論是基於文本的圖像檢索還是基於內容的圖像檢索，主要包括三方面：一方面對用戶需求的分析和轉化，形成可以檢索索引資料庫的提問；另一方面，收集和加工圖像資源，提取特徵，分析並進行標引，建立圖像的索引資料庫；最後一方面是根據相似度演算法，計算用戶提問與索引資料庫中記錄的相似度大小，提取出滿足閾值的記錄作為結果，按照相似度降序的方式輸出。
為了進一步提高檢索的准確性，許多系統結合相關反饋技術來收集用戶對檢索結果的反饋信息，這在CBIR中顯得更為突出，因為CBIR實現的是逐步求精的圖像檢索過程，在同一次檢索過程中需要不斷地與用戶進行交互。

cbir是資料庫嗎

與cbir是資料庫嗎相關的內容