用户行为存储数据_用户行为数据分析有哪三个层次

‘壹’ 如何利用用户行为分析数据

关于用户行为分析的意义以及在什么样的环境中使用这些数据，许多运营表示收获颇丰，但是对于一些具体的操作和运营方法也有一些不是太清楚，希望我们能够针对这方面进行一下知识的讲解，所以我们今天就请北大青鸟http://www.kmbdqn.cn/的老师来给大家介绍一下，如何进行用户行为分析的数据使用。

有了用户的行为数据以后，我们有哪些应用场景呢?

拉新，也就是获取新用户。

转化，比如电商特别注重订单转化率。

促活，如何让用户经常使用我们的产品。

留存，提前发现可能流失用户，降低流失率。

变现，发现高价值用户，提高销售效率。

(一)拉新

特别注重是哪个搜索引擎、哪个关键词带来的流量;关键词是付费还是免费的。从谷歌那边搜素引擎词带来了很多流量，但是这些流量是否在上成单，所以这个数据还要跟eBay本身数据结合、然后再做渠道分配，到底成单的是哪个渠道。整个数据链要从头到尾打通，需要把两边的数据整合之后才能做到。

(二)转化

以注册转化漏斗为例，第一步我们知道网页上有哪些注册入口，很多网站的注册入口不只一个，需要定义每个事件;我们还想知道下一步多少人、多少百分比的人点击了注册按钮、多少人打开了验证页;多少人登录了，多少人完成了整个完整的注册。

期间每一步都会有用户流失，漏斗做完后，我们就可以直观看到，每个环节的流失率。

(三)促活

还有一个是用户使用产品的流畅度。我们可以分析具体用户行为，比如访问时长，在那个页面上停留时间特别长，尤其在APP上会特别明显。再有是完善用户画像，拿用户行为分析做用户画像是比较准的。

‘贰’ 大数据项目之电商数仓（用户行为数据采集）（一）

2）测试集群服务器规划

下面就是一个示例，表示业务字段的上传。

示例日志（服务器时间戳 | 日志）：

下面是各个埋点日志格式。其中商品点击属于信息流的范畴

事件名称：loading

事件标签：display

事件标签：newsdetail

事件名称：ad

事件标签：notification

事件标签: active_foreground

事件标签: active_background

描述：评论表

描述：收藏

描述：所有的点赞表

回到顶部

事件标签: start

1）创建log-collector 2）创建一个包名：com.kgg.appclient 3）在com.kgg.appclient包下创建一个类，AppMain。 4）在pom.xml文件中添加如下内容

注意：com.kgg.appclient.AppMain要和自己建的全类名一致。

1）创建包名：com.kgg.bean 2）在com.kgg.bean包下依次创建如下bean对象

在AppMain类中添加如下内容：

Logback主要用于在磁盘和控制台打印日志。

Logback具体使用： 1）在resources文件夹下创建logback.xml文件。 2）在logback.xml文件中填写如下配置

1）采用Maven对程序打包

2）采用带依赖的jar包。包含了程序运行需要的所有依赖。

3）后续日志生成过程，在安装完Hadoop和Zookeeper之后执行。

‘叁’ 用户行为分析的重点分析的数据

用户行为分析应该包含以下数据重点分析：
* 用户的来源地区、来路域名和页面；
* 用户在网站的停留时间、跳出率、回访者、新访问者、回访次数、回访相隔天数；
* 注册用户和非注册用户，分析两者之间的浏览习惯；
* 用户所使用的搜索引擎、关键词、关联关键词和站内关键字；
* 用户选择什么样的入口形式（广告或者网站入口链接）更为有效；
* 用户访问网站流程，用来分析页面结构设计是否合理；
* 用户在页面上的网页热点图分布数据和网页覆盖图数据；
* 用户在不同时段的访问量情况等：
* 用户对于网站的字体颜色的喜好程度。

‘肆’ 用户行为数据包括哪些

互联网用户行为分析，就是访客在进入网站后所有的操作，分析网站用户行为有利于满足网站的用户需求，提升网站信任度。
互联网用户行为分析的重点分析数据有：
用户在网站的停留时间、跳出率、回访者、新访问者、回访次数、回访相隔天数；
注册用户和非注册用户，分析两者之间的浏览习惯；
用户所使用的搜索引擎、关键词、关联关键词和站内关键字；
用户选择什么样的入口形式（广告或者网站入口链接）更为有效；
用户访问网站流程，用来分析页面结构设计是否合理；
用户在页面的上的网页热点图分布数据和网页覆盖图数据；用户在不同时段的访问量情况等。

‘伍’ 什么是用户行为数据

在讨论什么是用户行为数据之前，我们先来简单看下什么是数据。
数据是信息，是从某个角度对某个事物的定量描述。数据无处不在，无穷无尽，但是我们却不是任意的漫无目的的收集。任何一种数据的收集都要从实际分析的问题出发。例如，我现在暂停写作，起来泡一杯茶就是一个事件。如果我想要分析泡茶次数对于写作效率的影响这个问题的话，泡茶事件的次数这个数据就是有意义的。于是，我在泡完这杯茶之后，对泡茶这个事件自增一（我们先不讨论数据的存储问题）。如果，我还想要分析泡茶的时间对写作效率的影响的话，那么我在起来泡茶的时候，还应该记录一个泡茶的具体时间。在这个例子中，可以看到数据收集的一个非常重要的原则，那就是：以终为始！具体来讲就是根据所要分析的问题，来确定需要哪些数据。这个策略在后面详细讨论数据实施方法论的文章还会涉及，这里先按下不详细展开。

什么是用户行为数据
互联网的兴起彻底改变了人与人之间的沟通和交流方式。生活在21世纪的人们可以非常简单的通过鼠标的点击，触摸屏的触按等行为打开一段视频、购买一件商品、阅读一篇文章。这些网站、移动应用本质是一种媒体、一种媒介，从信息传播的角度和传统的纸媒、电视相比并没有多大的不同。唯一的不同之处在于：网站、移动应用这种新兴的互联网数字媒体允许用户在其之上交互，通过用户的交互行为，帮助用户完成网站、移动应用想要用户完成的事情，比如购买商品、阅读文章、观看视频等。网站和移动应用想要用户在其之上完成的事情在数字营销行业被称为：转化（Conversion）。正是这个唯一的不同导致了一个问题或者说是一种需求的出现，那就是：网站和移动应用需要思考应该怎样设计和优化自身来让用户获得更好的体验，帮助用户完成转化，从而提升用户进行交互的效率，提升转化率。为了讨论和解决这些问题，用户行为数据的价值就被网站和移动应用的设计者们重视了起来。

‘陆’ 相册的用户数据是什么

相册的用户数据就是相册通过手机上登录的账户数据来读取该账户云存储备份的照片。可以防止照片丢失，方便保存。

用户数据通常可以分为两类，一类是用户属性数据，另一类是用户行为数据。

用户属性数据代表的是用户自身基本信息和状态，包括天然特征和行为提醒的特征，一般是较为固定，不会轻易改变的。我们分析用户属性的方法就是用户分群。

而用户行为数据是用户产品内的行为轨迹，代表了用户和产品的互动模式，通常可通过各种方式影响数据。分析用户行为的方法就叫行为分析。

‘柒’ 基于大数据的图书馆个性化服务读者行为分析方法和策略

1. 基于大数据的图书馆个性化服务读者行为分析方法与步骤

基于大数据的图书馆个性化服务读者行为分析，是指图书馆基于事件存储大数据库数据的支持，通过对用户海量数据进行采集、过滤、分析和定义，从中发现读者行为数据中蕴含的行为关系、用户需求和知识，是对读者的行为进行分析、判定、定义和匹配的过程，也是图书馆掌握读者阅读习惯和发现服务需求，提高个性化服务精确性和用户满意度的关键，读者行为分析与判定流程见图2-2。

读者行为分析过程可分为用户行为事件采集、用户行为事件的存储、用户行为事件初步过滤、用户行为定义、用户行为分析与判定、用户行为匹配、用户行为存储大数据库的更新、行为分析与判定过程的完善8部分内容。在用户行为事件分析、判定前，图书馆应全面、规范地采集读者行为数据，并对数据进行科学分类、综合分析、行为定义和人工匹配，构建具备海量存储、高效管理和查询功能的用户行为事件存储大数据库。

当图书馆完成对用户行为数据的采集后，首先，应依据对用户行为的分类和管理员经验，对用户行为数据进行价值过滤和人工筛选，以提高行为数据的价值密度和可用性。其次，对用户行为发生的时间、地点、方式、作用对象和结果进行定义，采用高效算法对存储于用户行为事件大数据库中的资源进行分析、判定，并对用户行为的类型进行详细定义。再次，应将已定义的用户行为和用户行为存储大数据库中的数据进行比对，进一步完善、规范用户行为存储大数据库的资源。同时，利用用户行为存储大数据库资源，对用户行为分析与判定的规则实施反馈，完成对用户行为分析、判定规则的动态修改与完善。最后，图书馆可依据读者行为分析与判定的结果，明确读者阅读需求及其变化趋势，为读者提供个性化的阅读推送式服务。

图2-2 图书馆读者行为分析与判定流程图

个性化服务是一个不断完善的过程，多次经过行为模拟和分析反复校准才能让个性化服务尽可能贴近每一个用户。如通过记录用户访问某些专业内容来判断为用户推荐的相关内容或深度内容是否精准，就需要不断地积累用户在某专业内容上的行为记录，记录次数越多，记录越精细，在下一次为用户做个性化推荐时的精准度就越高。所以个性化服务所需的数据分析系统包括采集与感知都是循环起效的，这是一个闭环上升的垂直优化体系。

2.基于大数据的图书馆个性化服务读者行为分析策略

（1）发现读者需求及变化趋势。大数据背景下，图书馆可通过监控设备、传感器网络和其他读者行为采集设备，获取读者阅读活动的服务内容与方式、阅读终端与服务模式、阅读社会关系组成、成员信息交流、论坛、博客、微博、微信朋友圈等社交网络上的思想表达、移动阅读中读者个体的行为路径、传感器网络对读者活动的记录、服务系统的运行参数信息等数据，这些数据蕴含着巨大的社会和商业价值。因此，图书馆力图采集读者行为大数据，将读者行为进行解析、描述和量化，最终实现对读者服务需求、服务模式变化趋势预测与控制。同时，图书馆应注重读者行为数据分析的时效性，及时获取读者阅读情绪和服务需求的变化数据，并将数据变化结果可视化表现出来，确保服务策略和内容随着读者个性化需求变化而动态调整。

（2）最大范围的采集读者行为数据。科学采集高价值读者行为数据，是准确分析和预测读者需求，提高读者忠诚度和服务满意度的关键。首先，图书馆应从读者服务全局出发，收集读者的行为数据，采集来自服务器运行监控设备、传感器网络、用户阅读终端设备、系统运行日志、读者论坛与博客、读者服务反馈系统、网页cookies、搜索引擎、读者阅读行为监控设备的数据，尽量减少用户行为数据采集的盲点，提高数据的完整性、精确性、及时性和有效性。其次，所采集的数据应具有海量和实时性特点，依据读者阅读需求对读者行为分析的内容，选取数据和应用对象进行调整，避免读者行为分析过程中可能会对读者服务产生的消极影响，最终实现从理解读者阅读行为到掌握读者阅读需求的转变。再次，图书馆应与第三方服务商合作，以服务协作和大数据资源共享的方式，努力拓展读者行为数据采集的广度和深度，在实现以读者为中心的读者行为数据选择、过滤、共享和互补前提下，提高数据应用分析和增强数据的可用性。

（3）保证读者行为数据的安全性和可用性。读者行为数据具有海量、全面、高价值和实时性的特点，图书馆应加强对读者行为数据的安全性和可用性管理，保证用户保密信息和隐私数据的安全。但是，移动终端工作模式和使用环境的不确定性，严重影响了图书馆大数据阅读服务的安全性，因此，必须加强阅读终端的安全性管理。首先，图书馆应依据阅读终端的安全设计标准及其移动性、开放性，以及阅读终端与读者阅读行为的关联性，为不同类型的阅读终端划分相应安全度，并通过严格限制阅读终端的使用对象、安全模式、应用环境和通信方式来保证设备安全。其次，应将读者行为数据划分为用户隐私数据、读者特征数据、行为日志数据和公开数据四个安全等级，执行相应的安全存储、管理和使用策略，并依据用户行为数据生命周期发展规律，加强数据收集、存储、使用、转移和删除五个环节的安全管理。再次，应坚持读者需求精确感知、行为关系全面挖掘、服务模式发展准确预测和读者行为科学分析的原则，实现读者行为数据的良性监控和采集，避免采集与读者阅读服务保障无关的个人隐私行为数据。

（4）重点突出读者阅读行为数据挖掘的知识关联分析。知识关联分析就是从海量数据中发现存在于大量数据集中的关联性或相关性，从而描述了一个事物中某些属性同时出现的规律和模式，通过读者阅读行为数据的知识关联分析，发现读者不同行为之间的联系，以及读者的阅读习惯和服务需求，是图书馆以读者需求为中心制定服务策略的前提。图书馆应在三维空间开展读者阅读行为数据的交叉关联分析，所涉及的主要内容包括读者阅读活动频率、阅读的时间与地点、阅读内容分布规律、阅读习惯和爱好、阅读关键词关联度、阅读社会关系交集、热点内容的关注度等。同时，行为数据的选择要坚持以服务保障为中心和高价值的原则，特别加强对读者阅读活动的热点内容、主要阅读模式和个性化服务需求反馈行为数据之间的关联分析。此外，基于读者阅读行为数据挖掘的知识关联分析，应加强对读者阅读行为的跟踪和监控，在加强对读者显性行为特征数据监控的同时，还应突出利用显性行为数据挖掘，而获得隐性行为信息。对读者阅读需求、阅读热点、阅读行为关联性等进行关联分析，增强读者行为知识关联分析的广度、深度和有效性。

‘捌’ 大数据分析对用户行为数据保密性怎么考虑

我们就是做大数据分析的，提供云平台的免费的版本，这个数据放在我们自己服务器上，或者通过数据库配置链接客户自己的数据库，还有免费的安装版本，是离线使用的，数据完全放在自己的本地，另外还包含高级的企业的定制版本，hadoop大数据版，数据的安全是完全不用担心的，有兴趣的话你可以关注下，大数据魔镜。

大数据魔镜有四个版本：云平台版、基础企业版、高级企业版和Hadoop版。

云平台版：永久免费，适合接受SAAS的企业和个人进行数据分析使用；

基础企业版：可代替报表工具、传统BI，适合中小型企业内部使用，可全公司协同分析；

高级企业版：帮助企业完成数据转型，适合大型公司，最好有数据仓库；

Hadoop版：支持PB级别大数据计算，实时计算，适合有一定数据积累的大数据处理公司。

——————————————————————————————————————————

回答一下下面朋友的疑问

‘玖’ 用户行为数据分析有哪三个层次

做用户行为分析的基础是获得用户行为数据，例如用户页面停留时间、跳转来源等等。这些信息有些能直接拿到，有些是需要做一些计算才能拿到的。一般来说用户访问时的一些信息都是以日志的形式打到web容器的日志空间中去，这其中包含了最通用的一些访问信息以及一些自定义的日志打点。

题主提到了大数据技术中对用户行为进行分析，那么可以假定网站或者App的访问量是比较傲多的。由于系统流量比较大，计算维度又比较多，后续数据消费者的需求增长比较快，所以对计算分析平台有了一定的要求。具体表现为：
1.负载能力。流量增大以后带来的压力是多方面的，比如网络带宽的压力、计算复杂度带来的压力、存储上的压力等等。一般来说这些都是比较显而易见的，会对产生比较直接的影响，比如计算实时性下降、消息出现了堆积、OOM等等。为了解决这一现象，一般来说会选择一些分布式的框架来解决这个问题，比如引入分布式计算框架storm、spark，分布式文件系统hdfs等。
2.实时性。在系统资源捉襟见肘时消息的实时性会立即受到严重影响，这使得部分算法失效（例如对计算和收集上来的数据进行行为分析后，反馈到推荐系统上，当整体响应时间过场时会严重影响推荐效果和准确度）。对于这个情况来说可能会选择storm这种具有高实时性的分布式流式计算框架来完成任务。
3.系统管理和平台化相关技术手段。在大数据情景下，企业内数据环境和应用环境都是比较复杂的，用户行为分析应用不是一成不变的，那么就要求用户行为分析这种多变的应用在复杂环境中能有效生存，这包括算法数据材料的获得、系统运维、系统任务调度、系统资源调度等等，相关的技术很多时候要求团队自研，但也有ganglia、yarn、mesos这类开源系统可以参考或者直接使用。
4.数据链路。企业技术环境一般来说是非常复杂的，一层一层交错在一起，远不是一句MVC三层架构能够概括得了的，为了避免消息流通呈复杂的网状结构，一般会考虑应用服务化、企业服务总线（ESB）及消息总线来做传输，有兴趣的话题主可以网络一下这几个方向的技术和开源工具。
5.应用快速生成工具。我个人认为在大数据环境下应用都摆脱不了一个快速开发的要求，用户行为分析也是如此，这时候要考虑对接一些开源的分布式数据分析算法库而不是通过自己去实现，比如像spark ml，mahout这类的库用得好能减少很多工作量。

用户行为存储数据

与用户行为存储数据相关的内容