用戶行為存儲數據_用戶行為數據分析有哪三個層次

『壹』如何利用用戶行為分析數據

關於用戶行為分析的意義以及在什麼樣的環境中使用這些數據，許多運營表示收獲頗豐，但是對於一些具體的操作和運營方法也有一些不是太清楚，希望我們能夠針對這方面進行一下知識的講解，所以我們今天就請北大青鳥http://www.kmbdqn.cn/的老師來給大家介紹一下，如何進行用戶行為分析的數據使用。

有了用戶的行為數據以後，我們有哪些應用場景呢?

拉新，也就是獲取新用戶。

轉化，比如電商特別注重訂單轉化率。

促活，如何讓用戶經常使用我們的產品。

留存，提前發現可能流失用戶，降低流失率。

變現，發現高價值用戶，提高銷售效率。

(一)拉新

特別注重是哪個搜索引擎、哪個關鍵詞帶來的流量;關鍵詞是付費還是免費的。從谷歌那邊搜素引擎詞帶來了很多流量，但是這些流量是否在上成單，所以這個數據還要跟eBay本身數據結合、然後再做渠道分配，到底成單的是哪個渠道。整個數據鏈要從頭到尾打通，需要把兩邊的數據整合之後才能做到。

(二)轉化

以注冊轉化漏斗為例，第一步我們知道網頁上有哪些注冊入口，很多網站的注冊入口不只一個，需要定義每個事件;我們還想知道下一步多少人、多少百分比的人點擊了注冊按鈕、多少人打開了驗證頁;多少人登錄了，多少人完成了整個完整的注冊。

期間每一步都會有用戶流失，漏斗做完後，我們就可以直觀看到，每個環節的流失率。

(三)促活

還有一個是用戶使用產品的流暢度。我們可以分析具體用戶行為，比如訪問時長，在那個頁面上停留時間特別長，尤其在APP上會特別明顯。再有是完善用戶畫像，拿用戶行為分析做用戶畫像是比較準的。

『貳』大數據項目之電商數倉（用戶行為數據採集）（一）

2）測試集群伺服器規劃

下面就是一個示例，表示業務欄位的上傳。

示例日誌（伺服器時間戳 | 日誌）：

下面是各個埋點日誌格式。其中商品點擊屬於信息流的范疇

事件名稱：loading

事件標簽：display

事件標簽：newsdetail

事件名稱：ad

事件標簽：notification

事件標簽: active_foreground

事件標簽: active_background

描述：評論表

描述：收藏

描述：所有的點贊表

回到頂部

事件標簽: start

1）創建log-collector 2）創建一個包名：com.kgg.appclient 3）在com.kgg.appclient包下創建一個類，AppMain。 4）在pom.xml文件中添加如下內容

注意：com.kgg.appclient.AppMain要和自己建的全類名一致。

1）創建包名：com.kgg.bean 2）在com.kgg.bean包下依次創建如下bean對象

在AppMain類中添加如下內容：

Logback主要用於在磁碟和控制台列印日誌。

Logback具體使用： 1）在resources文件夾下創建logback.xml文件。 2）在logback.xml文件中填寫如下配置

1）採用Maven對程序打包

2）採用帶依賴的jar包。包含了程序運行需要的所有依賴。

3）後續日誌生成過程，在安裝完Hadoop和Zookeeper之後執行。

『叄』用戶行為分析的重點分析的數據

用戶行為分析應該包含以下數據重點分析：
* 用戶的來源地區、來路域名和頁面；
* 用戶在網站的停留時間、跳出率、回訪者、新訪問者、回訪次數、回訪相隔天數；
* 注冊用戶和非注冊用戶，分析兩者之間的瀏覽習慣；
* 用戶所使用的搜索引擎、關鍵詞、關聯關鍵詞和站內關鍵字；
* 用戶選擇什麼樣的入口形式（廣告或者網站入口鏈接）更為有效；
* 用戶訪問網站流程，用來分析頁面結構設計是否合理；
* 用戶在頁面上的網頁熱點圖分布數據和網頁覆蓋圖數據；
* 用戶在不同時段的訪問量情況等：
* 用戶對於網站的字體顏色的喜好程度。

『肆』用戶行為數據包括哪些

互聯網用戶行為分析，就是訪客在進入網站後所有的操作，分析網站用戶行為有利於滿足網站的用戶需求，提升網站信任度。
互聯網用戶行為分析的重點分析數據有：
用戶在網站的停留時間、跳出率、回訪者、新訪問者、回訪次數、回訪相隔天數；
注冊用戶和非注冊用戶，分析兩者之間的瀏覽習慣；
用戶所使用的搜索引擎、關鍵詞、關聯關鍵詞和站內關鍵字；
用戶選擇什麼樣的入口形式（廣告或者網站入口鏈接）更為有效；
用戶訪問網站流程，用來分析頁面結構設計是否合理；
用戶在頁面的上的網頁熱點圖分布數據和網頁覆蓋圖數據；用戶在不同時段的訪問量情況等。

『伍』什麼是用戶行為數據

在討論什麼是用戶行為數據之前，我們先來簡單看下什麼是數據。
數據是信息，是從某個角度對某個事物的定量描述。數據無處不在，無窮無盡，但是我們卻不是任意的漫無目的的收集。任何一種數據的收集都要從實際分析的問題出發。例如，我現在暫停寫作，起來泡一杯茶就是一個事件。如果我想要分析泡茶次數對於寫作效率的影響這個問題的話，泡茶事件的次數這個數據就是有意義的。於是，我在泡完這杯茶之後，對泡茶這個事件自增一（我們先不討論數據的存儲問題）。如果，我還想要分析泡茶的時間對寫作效率的影響的話，那麼我在起來泡茶的時候，還應該記錄一個泡茶的具體時間。在這個例子中，可以看到數據收集的一個非常重要的原則，那就是：以終為始！具體來講就是根據所要分析的問題，來確定需要哪些數據。這個策略在後面詳細討論數據實施方法論的文章還會涉及，這里先按下不詳細展開。

什麼是用戶行為數據
互聯網的興起徹底改變了人與人之間的溝通和交流方式。生活在21世紀的人們可以非常簡單的通過滑鼠的點擊，觸摸屏的觸按等行為打開一段視頻、購買一件商品、閱讀一篇文章。這些網站、移動應用本質是一種媒體、一種媒介，從信息傳播的角度和傳統的紙媒、電視相比並沒有多大的不同。唯一的不同之處在於：網站、移動應用這種新興的互聯網數字媒體允許用戶在其之上交互，通過用戶的交互行為，幫助用戶完成網站、移動應用想要用戶完成的事情，比如購買商品、閱讀文章、觀看視頻等。網站和移動應用想要用戶在其之上完成的事情在數字營銷行業被稱為：轉化（Conversion）。正是這個唯一的不同導致了一個問題或者說是一種需求的出現，那就是：網站和移動應用需要思考應該怎樣設計和優化自身來讓用戶獲得更好的體驗，幫助用戶完成轉化，從而提升用戶進行交互的效率，提升轉化率。為了討論和解決這些問題，用戶行為數據的價值就被網站和移動應用的設計者們重視了起來。

『陸』相冊的用戶數據是什麼

相冊的用戶數據就是相冊通過手機上登錄的賬戶數據來讀取該賬戶雲存儲備份的照片。可以防止照片丟失，方便保存。

用戶數據通常可以分為兩類，一類是用戶屬性數據，另一類是用戶行為數據。

用戶屬性數據代表的是用戶自身基本信息和狀態，包括天然特徵和行為提醒的特徵，一般是較為固定，不會輕易改變的。我們分析用戶屬性的方法就是用戶分群。

而用戶行為數據是用戶產品內的行為軌跡，代表了用戶和產品的互動模式，通常可通過各種方式影響數據。分析用戶行為的方法就叫行為分析。

『柒』基於大數據的圖書館個性化服務讀者行為分析方法和策略

1. 基於大數據的圖書館個性化服務讀者行為分析方法與步驟

基於大數據的圖書館個性化服務讀者行為分析，是指圖書館基於事件存儲大資料庫數據的支持，通過對用戶海量數據進行採集、過濾、分析和定義，從中發現讀者行為數據中蘊含的行為關系、用戶需求和知識，是對讀者的行為進行分析、判定、定義和匹配的過程，也是圖書館掌握讀者閱讀習慣和發現服務需求，提高個性化服務精確性和用戶滿意度的關鍵，讀者行為分析與判定流程見圖2-2。

讀者行為分析過程可分為用戶行為事件採集、用戶行為事件的存儲、用戶行為事件初步過濾、用戶行為定義、用戶行為分析與判定、用戶行為匹配、用戶行為存儲大資料庫的更新、行為分析與判定過程的完善8部分內容。在用戶行為事件分析、判定前，圖書館應全面、規范地採集讀者行為數據，並對數據進行科學分類、綜合分析、行為定義和人工匹配，構建具備海量存儲、高效管理和查詢功能的用戶行為事件存儲大資料庫。

當圖書館完成對用戶行為數據的採集後，首先，應依據對用戶行為的分類和管理員經驗，對用戶行為數據進行價值過濾和人工篩選，以提高行為數據的價值密度和可用性。其次，對用戶行為發生的時間、地點、方式、作用對象和結果進行定義，採用高效演算法對存儲於用戶行為事件大資料庫中的資源進行分析、判定，並對用戶行為的類型進行詳細定義。再次，應將已定義的用戶行為和用戶行為存儲大資料庫中的數據進行比對，進一步完善、規范用戶行為存儲大資料庫的資源。同時，利用用戶行為存儲大資料庫資源，對用戶行為分析與判定的規則實施反饋，完成對用戶行為分析、判定規則的動態修改與完善。最後，圖書館可依據讀者行為分析與判定的結果，明確讀者閱讀需求及其變化趨勢，為讀者提供個性化的閱讀推送式服務。

圖2-2 圖書館讀者行為分析與判定流程圖

個性化服務是一個不斷完善的過程，多次經過行為模擬和分析反復校準才能讓個性化服務盡可能貼近每一個用戶。如通過記錄用戶訪問某些專業內容來判斷為用戶推薦的相關內容或深度內容是否精準，就需要不斷地積累用戶在某專業內容上的行為記錄，記錄次數越多，記錄越精細，在下一次為用戶做個性化推薦時的精準度就越高。所以個性化服務所需的數據分析系統包括採集與感知都是循環起效的，這是一個閉環上升的垂直優化體系。

2.基於大數據的圖書館個性化服務讀者行為分析策略

（1）發現讀者需求及變化趨勢。大數據背景下，圖書館可通過監控設備、感測器網路和其他讀者行為採集設備，獲取讀者閱讀活動的服務內容與方式、閱讀終端與服務模式、閱讀社會關系組成、成員信息交流、論壇、博客、微博、微信朋友圈等社交網路上的思想表達、移動閱讀中讀者個體的行為路徑、感測器網路對讀者活動的記錄、服務系統的運行參數信息等數據，這些數據蘊含著巨大的社會和商業價值。因此，圖書館力圖採集讀者行為大數據，將讀者行為進行解析、描述和量化，最終實現對讀者服務需求、服務模式變化趨勢預測與控制。同時，圖書館應注重讀者行為數據分析的時效性，及時獲取讀者閱讀情緒和服務需求的變化數據，並將數據變化結果可視化表現出來，確保服務策略和內容隨著讀者個性化需求變化而動態調整。

（2）最大范圍的採集讀者行為數據。科學採集高價值讀者行為數據，是准確分析和預測讀者需求，提高讀者忠誠度和服務滿意度的關鍵。首先，圖書館應從讀者服務全局出發，收集讀者的行為數據，採集來自伺服器運行監控設備、感測器網路、用戶閱讀終端設備、系統運行日誌、讀者論壇與博客、讀者服務反饋系統、網頁cookies、搜索引擎、讀者閱讀行為監控設備的數據，盡量減少用戶行為數據採集的盲點，提高數據的完整性、精確性、及時性和有效性。其次，所採集的數據應具有海量和實時性特點，依據讀者閱讀需求對讀者行為分析的內容，選取數據和應用對象進行調整，避免讀者行為分析過程中可能會對讀者服務產生的消極影響，最終實現從理解讀者閱讀行為到掌握讀者閱讀需求的轉變。再次，圖書館應與第三方服務商合作，以服務協作和大數據資源共享的方式，努力拓展讀者行為數據採集的廣度和深度，在實現以讀者為中心的讀者行為數據選擇、過濾、共享和互補前提下，提高數據應用分析和增強數據的可用性。

（3）保證讀者行為數據的安全性和可用性。讀者行為數據具有海量、全面、高價值和實時性的特點，圖書館應加強對讀者行為數據的安全性和可用性管理，保證用戶保密信息和隱私數據的安全。但是，移動終端工作模式和使用環境的不確定性，嚴重影響了圖書館大數據閱讀服務的安全性，因此，必須加強閱讀終端的安全性管理。首先，圖書館應依據閱讀終端的安全設計標准及其移動性、開放性，以及閱讀終端與讀者閱讀行為的關聯性，為不同類型的閱讀終端劃分相應安全度，並通過嚴格限制閱讀終端的使用對象、安全模式、應用環境和通信方式來保證設備安全。其次，應將讀者行為數據劃分為用戶隱私數據、讀者特徵數據、行為日誌數據和公開數據四個安全等級，執行相應的安全存儲、管理和使用策略，並依據用戶行為數據生命周期發展規律，加強數據收集、存儲、使用、轉移和刪除五個環節的安全管理。再次，應堅持讀者需求精確感知、行為關系全面挖掘、服務模式發展准確預測和讀者行為科學分析的原則，實現讀者行為數據的良性監控和採集，避免採集與讀者閱讀服務保障無關的個人隱私行為數據。

（4）重點突出讀者閱讀行為數據挖掘的知識關聯分析。知識關聯分析就是從海量數據中發現存在於大量數據集中的關聯性或相關性，從而描述了一個事物中某些屬性同時出現的規律和模式，通過讀者閱讀行為數據的知識關聯分析，發現讀者不同行為之間的聯系，以及讀者的閱讀習慣和服務需求，是圖書館以讀者需求為中心制定服務策略的前提。圖書館應在三維空間開展讀者閱讀行為數據的交叉關聯分析，所涉及的主要內容包括讀者閱讀活動頻率、閱讀的時間與地點、閱讀內容分布規律、閱讀習慣和愛好、閱讀關鍵詞關聯度、閱讀社會關系交集、熱點內容的關注度等。同時，行為數據的選擇要堅持以服務保障為中心和高價值的原則，特別加強對讀者閱讀活動的熱點內容、主要閱讀模式和個性化服務需求反饋行為數據之間的關聯分析。此外，基於讀者閱讀行為數據挖掘的知識關聯分析，應加強對讀者閱讀行為的跟蹤和監控，在加強對讀者顯性行為特徵數據監控的同時，還應突出利用顯性行為數據挖掘，而獲得隱性行為信息。對讀者閱讀需求、閱讀熱點、閱讀行為關聯性等進行關聯分析，增強讀者行為知識關聯分析的廣度、深度和有效性。

『捌』大數據分析對用戶行為數據保密性怎麼考慮

我們就是做大數據分析的，提供雲平台的免費的版本，這個數據放在我們自己伺服器上，或者通過資料庫配置鏈接客戶自己的資料庫，還有免費的安裝版本，是離線使用的，數據完全放在自己的本地，另外還包含高級的企業的定製版本，hadoop大數據版，數據的安全是完全不用擔心的，有興趣的話你可以關注下，大數據魔鏡。

大數據魔鏡有四個版本：雲平台版、基礎企業版、高級企業版和Hadoop版。

雲平台版：永久免費，適合接受SAAS的企業和個人進行數據分析使用；

基礎企業版：可代替報表工具、傳統BI，適合中小型企業內部使用，可全公司協同分析；

高級企業版：幫助企業完成數據轉型，適合大型公司，最好有數據倉庫；

Hadoop版：支持PB級別大數據計算，實時計算，適合有一定數據積累的大數據處理公司。

——————————————————————————————————————————

回答一下下面朋友的疑問

『玖』用戶行為數據分析有哪三個層次

做用戶行為分析的基礎是獲得用戶行為數據，例如用戶頁面停留時間、跳轉來源等等。這些信息有些能直接拿到，有些是需要做一些計算才能拿到的。一般來說用戶訪問時的一些信息都是以日誌的形式打到web容器的日誌空間中去，這其中包含了最通用的一些訪問信息以及一些自定義的日誌打點。

題主提到了大數據技術中對用戶行為進行分析，那麼可以假定網站或者App的訪問量是比較傲多的。由於系統流量比較大，計算維度又比較多，後續數據消費者的需求增長比較快，所以對計算分析平台有了一定的要求。具體表現為：
1.負載能力。流量增大以後帶來的壓力是多方面的，比如網路帶寬的壓力、計算復雜度帶來的壓力、存儲上的壓力等等。一般來說這些都是比較顯而易見的，會對產生比較直接的影響，比如計算實時性下降、消息出現了堆積、OOM等等。為了解決這一現象，一般來說會選擇一些分布式的框架來解決這個問題，比如引入分布式計算框架storm、spark，分布式文件系統hdfs等。
2.實時性。在系統資源捉襟見肘時消息的實時性會立即受到嚴重影響，這使得部分演算法失效（例如對計算和收集上來的數據進行行為分析後，反饋到推薦系統上，當整體響應時間過場時會嚴重影響推薦效果和准確度）。對於這個情況來說可能會選擇storm這種具有高實時性的分布式流式計算框架來完成任務。
3.系統管理和平台化相關技術手段。在大數據情景下，企業內數據環境和應用環境都是比較復雜的，用戶行為分析應用不是一成不變的，那麼就要求用戶行為分析這種多變的應用在復雜環境中能有效生存，這包括演算法數據材料的獲得、系統運維、系統任務調度、系統資源調度等等，相關的技術很多時候要求團隊自研，但也有ganglia、yarn、mesos這類開源系統可以參考或者直接使用。
4.數據鏈路。企業技術環境一般來說是非常復雜的，一層一層交錯在一起，遠不是一句MVC三層架構能夠概括得了的，為了避免消息流通呈復雜的網狀結構，一般會考慮應用服務化、企業服務匯流排（ESB）及消息匯流排來做傳輸，有興趣的話題主可以網路一下這幾個方向的技術和開源工具。
5.應用快速生成工具。我個人認為在大數據環境下應用都擺脫不了一個快速開發的要求，用戶行為分析也是如此，這時候要考慮對接一些開源的分布式數據分析演算法庫而不是通過自己去實現，比如像spark ml，mahout這類的庫用得好能減少很多工作量。

用戶行為存儲數據

與用戶行為存儲數據相關的內容