当前位置:首页 » 服务存储 » 用户标签及权重如何存储
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

用户标签及权重如何存储

发布时间: 2022-04-23 04:40:43

❶ 如何进行准确的用户画像分析

一个标签通常是人为规定的高度精炼的特征标识,如年龄段标签:25~35岁,地域标签:北京,标签呈现出两个重要特征:语义化,人能很方便地理解每个标签含义。这也使得用户画像模型具备实际意义。能够较好的满足业务需求。如,判断用户偏好。短文本,每个标签通常只表示一种含义,标签本身无需再做过多文本分析等预处理工作,这为利用机器提取标准化信息提供了便利。 人制定标签规则,并能够通过标签快速读出其中的信息,机器方便做标签提取、聚合分析。所以,用户画像,即:用户标签,向我们展示了一种朴素、简洁的方法用于描述用户信息。 3.1 数据源分析 构建用户画像是为了还原用户信息,因此数据来源于:所有用户相关的数据。 对于用户相关数据的分类,引入一种重要的分类思想:封闭性的分类方式。如,世界上分为两种人,一种是学英语的人,一种是不学英语的人;客户分三类,高价值客户,中价值客户,低价值客户;产品生命周期分为,投入期、成长期、成熟期、衰退期…所有的子分类将构成了类目空间的全部集合。 这样的分类方式,有助于后续不断枚举并迭代补充遗漏的信息维度。不必担心架构上对每一层分类没有考虑完整,造成维度遗漏留下扩展性隐患。另外,不同的分类方式根据应用场景,业务需求的不同,也许各有道理,按需划分即可。 本文将用户数据划分为静态信息数据、动态信息数据两大类。 静态信息数据 用户相对稳定的信息,如图所示,主要包括人口属性、商业属性等方面数据。这类信息,自成标签,如果企业有真实信息则无需过多建模预测,更多的是数据清洗工作,因此这方面信息的数据建模不是本篇文章重点。 动态信息数据 用户不断变化的行为信息,如果存在上帝,每一个人的行为都在时刻被上帝那双无形的眼睛监控着,广义上讲,一个用户打开网页,买了一个杯子;与该用户傍晚溜了趟狗,白天取了一次钱,打了一个哈欠等等一样都是上帝眼中的用户行为。当行为集中到互联网,乃至电商,用户行为就会聚焦很多,如上图所示:浏览凡客首页、浏览休闲鞋单品页、搜索帆布鞋、发表关于鞋品质的微博、赞“双十一大促给力”的微博消息。等等均可看作互联网用户行为。 本篇文章以互联网电商用户,为主要分析对象,暂不考虑线下用户行为数据(分析方法雷同,只是数据获取途径,用户识别方式有些差异)。 在互联网上,用户行为,可以看作用户动态信息的唯一数据来源。如何对用户行为数据构建数据模型,分析出用户标签,将是本文着重介绍的内容。 3.2 目标分析 用户画像的目标是通过分析用户行为,最终为每个用户打上标签,以及该标签的权重。如,红酒 0.8、李宁 0.6。 标签,表征了内容,用户对该内容有兴趣、偏好、需求等等。 权重,表征了指数,用户的兴趣、偏好指数,也可能表征用户的需求度,可以简单的理解为可信度,概率。 3.3 数据建模方法 下面内容将详细介绍,如何根据用户行为,构建模型产出标签、权重。一个事件模型包括:时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件,可以详细描述为:什么用户,在什么时间,什么地点,做了什么事。 什么用户:关键在于对用户的标识,用户标识的目的是为了区分用户、单点定位。 以上列举了互联网主要的用户标识方法,获取方式由易到难。视企业的用户粘性,可以获取的标识信息有所差异。 什么时间:时间包括两个重要信息,时间戳+时间长度。时间戳,为了标识用户行为的时间点,如,1395121950(精度到秒),1395121950.083612(精度到微秒),通常采用精度到秒的时间戳即可。因为微秒的时间戳精度并不可靠。浏览器时间精度,准确度最多也只能到毫秒。时间长度,为了标识用户在某一页面的停留时间。 什么地点:用户接触点,Touch Point。对于每个用户接触点。潜在包含了两层信息:网址 + 内容。网址:每一个url链接(页面/屏幕),即定位了一个互联网页面地址,或者某个产品的特定页面。可以是PC上某电商网站的页面url,也可以是手机上的微博,微信等应用某个功能页面,某款产品应用的特定画面。如,长城红酒单品页,微信订阅号页面,某游戏的过关页。 内容:每个url网址(页面/屏幕)中的内容。可以是单品的相关信息:类别、品牌、描述、属性、网站信息等等。如,红酒,长城,干红,对于每个互联网接触点,其中网址决定了权重;内容决定了标签。 注:接触点可以是网址,也可以是某个产品的特定功能界面。如,同样一瓶矿泉水,超市卖1元,火车上卖3元,景区卖5元。商品的售卖价值,不在于成本,更在于售卖地点。标签均是矿泉水,但接触点的不同体现出了权重差异。这里的权重可以理解为用户对于矿泉水的需求程度不同。即,愿意支付的价值不同。 标签 权重 矿泉水 1 // 超市 矿泉水 3 // 火车 矿泉水 5 // 景区 类似的,用户在京东商城浏览红酒信息,与在品尚红酒网浏览红酒信息,表现出对红酒喜好度也是有差异的。这里的关注点是不同的网址,存在权重差异,权重模型的构建,需要根据各自的业务需求构建。 所以,网址本身表征了用户的标签偏好权重。网址对应的内容体现了标签信息。 什么事:用户行为类型,对于电商有如下典型行为:浏览、添加购物车、搜索、、购买、点击赞、收藏 等等。 不同的行为类型,对于接触点的内容产生的标签信息,具有不同的权重。如,购买权重计为5,浏览计为1 红酒 1 // 浏览红酒 红酒 5 // 购买红酒 综合上述分析,用户画像的数据模型,可以概括为下面的公式:用户标识 + 时间 + 行为类型 + 接触点(网址+内容),某用户因为在什么时间、地点、做了什么事。所以会打上**标签。 用户标签的权重可能随时间的增加而衰减,因此定义时间为衰减因子r,行为类型、网址决定了权重,内容决定了标签,进一步转换为公式: 标签权重=衰减因子×行为权重×网址子权重 如:用户A,昨天在品尚红酒网浏览一瓶价值238元的长城干红葡萄酒信息。 标签:红酒,长城 时间:因为是昨天的行为,假设衰减因子为:r=0.95 行为类型:浏览行为记为权重1 地点:品尚红酒单品页的网址子权重记为 0.9(相比京东红酒单品页的0.7) 假设用户对红酒出于真的喜欢,才会去专业的红酒网选购,而不再综合商城选购。 则用户偏好标签是:红酒,权重是0.95*0.7 * 1=0.665,即,用户A:红酒 0.665、长城 0.665。 上述模型权重值的选取只是举例参考,具体的权重值需要根据业务需求二次建模,这里强调的是如何从整体思考,去构建用户画像模型,进而能够逐步细化模型。

❷ 抖音新手该怎么养号

抖音新手养号要做到一机一个账号、完善个人信息、对自己进行定位、对视频内容分析,具体介绍如下:

1、保证一部手机一个账号,抖音支持登录多账号,但是养号降低风险最好的做法是注册新账号之后最好固定用一部手机的一个手机号注册一个抖音号。

2、注册抖音账号之后,可以修改个人信息,用户名和头像设置尽量简洁大方,不要涉及到敏感词汇。

3、注册完之后先别急着发视频,找到自己账号定位的对标账号,看别人的视频是怎么发的,然后根据自己的账号定位去浏览相关视频内容,并进行点赞、评论、转发等操作。

4、对视频内容分析,观察有哪些因素会对账号造成影响,总结出来各类因素,以后避免发这些内容。

注意事项:

1、在抖音上,女性用户的比例是高于男性的。一般来说,推理类、穿搭类、情感类、母婴类、美食类等账号,都是现阶段很适合女性粉丝起量的领域。

2、用户在做抖音之前,必须有非常明确的账号运营策略,也必须清楚地知道自己的产品或者服务是什么,想要吸引的目标人群到底是谁,以及这些人群可能会喜欢哪些内容。

❸ 百度知道的用户标签有什么用啊

用户标签,差不多就是您的知识领域。
假设您的用户标签有一个“计算机”,那么就代表您懂计算机方面的知识。

然后我的兴趣,就相当于再细分“计算机”领域里面的东西。毕竟您不一定懂所有计算机方面的知识。假设您懂内存条,但您不了解硬盘。所以您就可以设置“内存条”这个兴趣条,让网络知道系统向您推送关于内存条相关的问题,而不是硬盘相关的问题。

❹ 微信的用户标签怎么建立

如何去建立用户标签?这件事儿其实是要结合到业务自身的,所以,通常用户标签会包含“基础标签”和“业务标签”。
“基础标签”非常简单,有关用户基础属性的标签就可以归属在这一类,譬如:性别、年龄、居住地、工作地、生日、手机品牌、上网环境,等等……
“业务标签”就是结合业务去归类的标签集合,譬如:

运营商会关注:套餐类型、入网年限、通话时长、流量消费等

信用卡会关注:信用卡额度、月消费额度、还款方式、还款金额、分期偏好等等
所以,建立用户标签其实就是结合业务实际、根据业务需求去将用户的基本信息和业务行为抽取并分门别类,没有统一的标准答案,不是好与不好的问题,而是是否合适的问题。

❺ 电商平台如何更好地构建用户标签体系

构建用户标签体系主要根据用户在历史时间内的网购行为记录,从网购时间点、内容深度剖析,针对用户的基础属性、社交行为、互动行为、消费行为、偏好习惯、财富属性、信用属性和地理属性等八大维度构建用户标签体系,以期综合描绘平台消费者的行为特征。

这其中,除了业务的输入以及数据的支撑外,要想快速建立一套科学的标签体系,还需要丰富的技术经验以及智能的工具或平台来提供助力,如阿里云或袋鼠云的数据中台。

❻ 如何利用用户标签数据

推荐系统的目的是联系用户的兴趣和物品,这种联系需要依赖于不同的媒介。GroupLens在文章1中认为目前流行的推荐系统基本上通过三种方式来联系用户兴趣和物品。如图1所示,第一种方式是通过用户喜欢过的物品:可以给用户推荐与他喜欢过的物品相似的物品,这就是前面提到的基于物品的算法(item-based)。第二种方式是通过和用户兴趣相似的其他用户:可以给用户推荐那些和他们兴趣爱好相似的其他用户喜欢的物品,这也是前面提到的基于用户的算法(user-based)。除了这两种方法,第三个也是最重要的方式是通过一些特征(feature)来联系用户和物品,可以给用户推荐那些具有用户喜欢的特征的物品。这里的特征有不同的表现方式,比如可以表现为物品的属性集合(比如对于图书,属性集合就包括了作者、出版社、主题和关键词等),也可以表现为隐语义向量(latent factor vector),这可以通过前面提出的隐语义模型(Latent Factor Model)学习得到。在本章中,我们将讨论一种重要的特征表现方式:标签。

图1 推荐系统联系用户和物品的几种途径
根据维基网络的定义2,标签是一种无层次化结构的、用来描述信息的关键词。因此,标签可以用来准确地描述物品的语义。根据给物品打标签的人的不同,标签应用一般分为两种。第一种是让作者或者编辑给物品打标签,而另一种是让普通用户给物品打标签,也就是UGC的标签应用。表1列出了这两种不同的标签系统的代表网站。在本章中,我们主要讨论UGC的标签应用,研究用户给物品打标签的行为,以及如何通过分析这种行为给用户进行个性化推荐。
表1 两种不同的标签系统的代表网站

UGC的标签系统是一种很重要的表示用户兴趣和物品语义的方式。当一个用户对一个物品打上一个标签后,这个标签一方面描述了用户的兴趣,另一方面也表示了物品的语义,从而将用户和物品联系了起来。
UGC标签系统的代表应用
UGC标签系统是很多Web 2.0网站的必要组成部分,本节将讨论使用UGC标签系统的代表网站:UGC标签系统的鼻祖美味书签(Delicious)、论文书签网站CiteULike、音乐网站Lastfm、视频网站Hulu、书和电影评论网站豆瓣等。下面将分别介绍这些应用。
Delicious
美味书签(Delicous)是标签系统里的开山鼻祖了,它允许用户给互联网上的每个网页打上标签,从而通过标签的方式重新组织整个互联网。图2是Delicious中被用户打上recommender system标签最多的网页,这些网页反应了用户心目中和推荐系统最相关的网页。图3是Delicious中“豆瓣电台”这个网页被用户打的最多的标签,可以看到这些标签确实准确地描述了豆瓣电台。

图2 Delicious中被打上recommender system标签的网页

图3 Delicious中“豆瓣电台”网页被用户打的最多的标签
CiteULike
CiteULike是一个着名的论文书签网站,它允许研究人员提交或者收藏他们感兴趣的论文,给论文打标签,从而帮助用户更好地发现和自己研究领域相关的优秀论文。我们知道,研究人员搜索自己研究领域值得参考的论文是很费时费力的工作,而CiteULike通过群体智能,让每个研究人员对自己了解的论文进行标记,从而帮助用户更好更快地发现自己感兴趣的论文。图4展示了CiteULike中一篇被用户打的标签最多的有关推荐系统评测的文章,可以发现,最多的两个标签是collaborative-filtering(协同过滤)和evaluate(评测),确实比较准确地反应了这篇论文的主要内容。
图4 CiteULike中一篇论文的标签
Lastfm
Lastfm是一家着名的音乐网站,它通过分析用户的听歌行为来预测用户对音乐的兴趣,从而给用户推荐个性化的音乐。作为多媒体,音乐不像文本那样可以很容易地分析它的内容信息。为了在不进行复杂的音频分析的情况下获得音乐的内容信息,Lastfm引用了标签系统,让用户用标签标记音乐和歌手。图5展示了披头士乐队在Lastfm中的标签云(tag cloud)。从这个标签云可以看到,披头士应该是一个英国的传统摇滚乐队,流行于上世纪60年代。

图5 Lastfm中披头士乐队的标签云
豆瓣
豆瓣是中国着名的评论和社交网站,同时也是中国个性化推荐邻域的领军企业之一。豆瓣在个性化推荐领域进行了广泛的尝试,标签系统也是他们尝试的领域之一。他们允许用户对图书和电影进行标签,从而获得图书和电影的内容信息,并用这种信息来改善他们的推荐效果。图7展示了《数据挖掘导论》在豆瓣被用户标记的情况。如图7所示,最多的几个标签分别是:数据挖掘、计算机、计算机科学、数据分析、IT数据分析。这些标签准确地反应了这本书的内容信息。

图6 豆瓣读书中《数据挖掘导论》一书的常用标签
Hulu
Hulu是美国着名的视频网站。视频作为一种最为复杂的多媒体,获取它的内容信息是最困难的,因此,Hulu也引入了用户标签系统来让用户对电视剧和电影进行标记。图7展示了美剧《豪斯医生》的常用标签,可以看到,Hulu对标签做了分类,并展示了每一类最热门的标签。从类型(genre)看,豪斯医生是一部医学片(medical drama);从时间看,这部剧开始于2004年;从人物看,这部美剧的主演是hugh laurie,他在剧中饰演的人物是greg house。
图7 Hulu中《豪斯医生》的常用标签
从前面的各种应用可以看到,标签系统在各种各样的网站中(音乐、视频和社交等)都得到了广泛的应用。标签系统的最大优势在于可以发挥群体的智能,获得物品内容信息的比较准确的关键词描述,而准确的内容信息是提升个性化推荐系统的重要资源。
标签系统中的推荐问题
标签行为作为一种重要的用户行为,蕴含了很多反映用户兴趣的信息,因此深入研究用户的标签行为可以很好地指导个性化推荐系统提升自己的推荐质量。同时,标签作为一种重要的内容表示方式,比传统的内容属性表示更能反应用户对物品的看法,并且表示形式非常简单,便于很多算法处理。
标签系统中的推荐问题主要有以下两个。
如何利用用户的标签行为给用户推荐物品(tag-based recommendation)?
如何在用户给物品打标签时给用户推荐适合于该物品的标签(tag recommendation)?

为了研究上面的两个问题,我们首先需要解答下面三个问题。
用户为什么要打标签(Why)?
用户怎么打标签(How)?
用户打什么样的标签(What)?

用户为什么要标注
在设计基于Tag的个性化推荐系统之前,我们需要深入了解用户的标注行为,知道用户为什么要标注,用户怎么标注,只有深刻地了解用户的行为,我们才能基于这个行为给用户设计出令他们满意的个性化推荐系统。
Morgan Ames研究图片分享网站中用户标注的动机问题3,他将用户标注的动机分解成两个维度。首先是社会维度,有些用户标注是为了给内容的上传者使用的,而有些用户标注是为了给广大用户使用的。令一个维度是功能维度,有些标注是为了更好地组织内容,方便用户将来的查找,而另一些标注是为了传达某种信息,比如照片的拍摄时间和地点等。
用户如何打标签
在互联网中,尽管每个用户的行为看起来是随机的,但其实这些表面随机的行为的背后蕴含着很多规律。在这一节中,我们通过研究美味书签的数据集,来发现用户标注行为中的一些统计规律。
德国的研究人员公布过一个很庞大的美味书签的数据集4,该数据集包含了2003年9月到2007年12月美味书签用户4.2亿条标签行为记录。本节选用该数据集2007年一整年的数据进行分析,对该数据集的统计特性进行研究。
本节将统计数据集的以下信息。
用户活跃度的分布。
物品流行度的分布。
标签热门度的分布。
用户标签行为随时间演化的曲线。
用户相隔一段时间兴趣变化的情况。
物品的生命周期。

*[****具体统计结果待书正式出版时公布**]*
用户打什么样的标签
用户在看到一个物品时,我们最希望他打的标签是能够准确描述物品内容属性的关键词。但用户往往不是按照我们的想法去操作,而是可能会给物品打上各种各样奇怪的标签。
Scott A. Golder 总结了美味书签上的标签,将它们分为如下的几类。
表明物品是什么:比如是一只鸟,就会有“鸟”这个词的标签;是豆瓣的首页,就有一个标签叫“豆瓣”;是乔布斯的首页,就会有个标签叫“乔布斯”。
表明物品的种类:比如在美味书签中,表示一个网页的类别的标签包括 article(文章)、 blog(博客)、 book(图书)等。
表明谁拥有物品 :比如很多博客的标签中会包括博客的作者等信息。
表达用户的观点:比如用户认为网页很有趣,就会有funny(有趣)的标签,认为很无聊,就会打上boring(无聊)的标签。
用户相关的标签:有些标签,比如 my favorite(我最喜欢的)、my comment(我的评论)等。
用户的任务:比如 to read(即将阅读)、 job search(找工作)等。

很多不同的网站也设计了自己的标签分类系统,比如Hulu对视频的标签就做了分类。
图8是着名的美剧《豪斯医生》的标签。可以看到,Hulu将电视剧的标签分成了几类。
类型(Genre):主要表示这个电视剧的类别,比如《豪斯医生》是属于医学剧情片(medical drama),同时有喜剧(comedy)、悬疑(mystery)的成分。
时间(Time):主要包括电视剧发布的时间,有时也包括电视剧中事件发生的时间,比如是二战期间,或者是上世纪90年代。
人物(People):主要包括电视剧的导演、演员和剧中重要人物等。
地点(Place):剧情发生的地点,或者是视频拍摄的地点等。
语言(Language):这部电视剧使用的语言。
奖项(Awards):这部电视剧获得的相关奖项。
其他(Details):包含了不能归类到上面各类的其他所有标签。

图8 着名美剧《豪斯医生》在视频网站Hulu上的

❼ 请问RFID标签用户区数据具体是怎么存储的,以及移动读写器如何与javaWeb程序交互

数据块写操作
选择标签(图3-1中1),选择存储区(图3-1中2,只有EPC区和用户区可以写入数据),填写起始地址和读取长度(图3-1中3),注: 起始地址:0x00 表示从第一个字(相应存储区第一个16位)开始读,0x01表示从第2个字开始读,依次类推。读长度:要读取的字的个数。不能为0x00,不能超过120,即最多读取120个字。若设置为0或者超过了120,将返回参数出错的消息。访问密码:从左到右为从高位到低位,2字的访问密码的最高位在第一字,如果电子标签没有设置访问密码,则访问密码部分可以为任意值,但不能缺失。填写需要写入的数据(图3-1中4),点击写(图3-1中5),左下角看到“写数据”按钮执行成功,点击“读”按钮则右边框中显示读取到的数据(图3-1中6 ),点击“清除显示”即可清空数据显示区内容。
详情请见 http://wenku..com/view/af1169e3f524ccbff121844a 第十四页
如果需要在web调用读写 需要编写浏览器的OCX文件

❽ 用户分类,用户标签一般都是怎么分类,怎么贴标签的

这很多了,不同的行业分类的重点不一样。
一般来说用户分类标签可按照:地域,年龄,性别,收入消费水平,个人关注等纬度来分类

❾ 大数据分析中,有哪些常见的大数据分析模型

对于互联网平台而言的产品,主要可以分为两大类:商品和服务。想要通过数据分析提高产品的销量,首先要了解哪些数据需要分析?

哪些数据需要分析?

一、运营模块

从用户的消费流程来看,可以划分为四个部分:引流,转化,消费,存留。

  • 流量

流量主要体现在引流环节,按照流量结构可以分为渠道结构,业务结构以及地区结构等。渠道结构,可以追踪各个渠道的流量情况,通过渠道流量占比来分析各渠道的质量。业务结构,根据指定业务对活动的流量进行追踪,观察活动前,中,后流量的变化情况,对活动效果做出评估。

  • 转化率

转化率=期望行为人数/作用总人数。提升转化率意味着更低的成本,更高的利润, 最经典的分析模型就是漏斗模型。

  • 流失率和留存率

通过各个渠道或者活动把用户引流过来,但过一段时间就会有用户流失掉,这部分用户就是流失用户,而留下来的这部分用户就是留存用户。流失可以分为刚性流失,体验流失和竞争流失,虽然流失是不可避免的,但可以根据对流失的分析,做出相应的对策来挽留用户。关于留存,通过观察存留的规律,定位存留阶段,可以辅助市场活动、市场策略定位等,同时还可以对比不同用户、产品的功能存留情况,分析产品价值,及时对产品做出调整。

  • 复购率

复购率可以分为“用户复购率”和“订单复购率”,通过分析复购率,可以进一步对用户粘性进行分析,辅助发现复购率问题,制定运营策略, 同事还可以进行横向(商品、用户、渠道)对比分析, 细化复购率,辅助问题定位。

二、销售模块

销售模块中有大量的指标,包括同环比、完成率、销售排行、重点商品占比、平台占比等等。

三、商品模块

重要指标分析:包括货龄、动销率、缺货率、结构指标、价格体系、关联分析、畅滞销分析等, 用来评判商品价值,辅助调整商品策略

四、用户模块

重点指标分析:包括新增用户数、增长率、流失率、有效会员占比、存留情况等

用户价值分析:可以根据RFM模型,再融入其他个性化参数,对用户进行价值的划分,并针对各等级用户做出进一步分析。

用户画像:根据固有属性、行为属性、交易属性、兴趣爱好等维度,来为用户添加标签与权重,设计用户画像,提供精准营销参考依据。


根据需要分析的数据选择分析模型

一、用户模型

用户模型是一种在营销规划或商业设计上描绘目标用户的方法,经常有多种组合,方便规划者用来分析并设置其针对不同用户所展开的策略。传统的用户模型构建方法有两种:基于访谈和观察构建用户模型(严谨可靠但费时)、临时用户模型(基于行业专家或者市场调查数据构建,快速但不够可靠)。

改进的用户模型构建方法:基于用户行为数据的用户模型

优势:对传统方式进行简化,降低数据分析的门槛;让数据分析更科学、高效、全面,可以更直接地应用于业务增长,指导运营策略。

方法:

1. 整理、收集对用户的初始认知

2. 对用户进行分群

3. 分析用户的行为数据

4. 推测目标动机

5. 对用户进行访谈调查验证

6. 用户模型建立修正

同时,还可以将收集到的用户信息映射成为用户的属性或用户的行为信息,并存储起来形成用户档案;实时关注自身数据的波动,及时做出战略性调整。

二、事件模型

事件模型是用户行为数据分析的第一步,也是分析的核心和基础,它背后的数据结构、采集时机以及对事件的管理是事件模型中的三大要素。

什么是事件?

事件就是用户在产品上的行为,它是用户行为的一个专业描述,用户在产品上所有获得的程序反馈都可以抽象为事件,由开发人员通过埋点进行采集。举个例子:用户在页面上点击按钮就是一个事件。

事件的采集

事件-属性-值的结构:事件(用户在产品上的行为),属性(描述事件的维度),值(属性的内容)

在事件采集过程中,灵活运用事件-属性-值的结构,不仅可以最大化还原用户使用场景,还可以极大地节省事件量,提高工作效率。

采集的时机:用户点击、网页加载完成、服务器判断返回。在设计埋点需求文档时,采集时机的说明尤为重要,也是保证数据准确性的核心。

举个例子:电商销售网页的事件采集

上图中,每一环代表用户的一步,不同的颜色代表不同的行为,同一环颜色占比越大代表在当前步骤中用户行为越统一,环越长说明用户的行为路径越长。

八、用户分群模型

用户分群即用户信息标签化,通过用户的历史行为路径、行为特征、偏好等属性,将具有相同属性的用户划分为一个群体,并进行后续分析。

基于用户行为数据的分群模型:当回归到行为数据本身,会发现对用户的洞察可以更精细更溯源,用历史行为记录的方式可以更快地找到想要的人群。

四个用户分群的维度:

  • 用户属性:年龄、性别、城市、浏览器版本、系统版本、操作版本、渠道来源等;

  • 活跃于:通过设置活跃时间,找到指定之间段内的活跃用户;

  • 做过/没做过:通过用户是否进行某行为,分析用户与产品交互的“亲密度”;

  • 新增于:通过设置时间段,精确筛选出新增用户的时间范围;

如何提高产品销量是一个综合性的问题,需要结合多种模型进行数据分析,以上内容是对一些知识的归纳,希望能够对您有所帮助。

❿ 如何构建用户画像

一个标签通常是人为规定的高度精炼的特征标识,如年龄段标签:25~35岁,地域标签:北京,标签呈现出两个重要特征:语义化,人能很方便地理解每个标签含义。这也使得用户画像模型具备实际意义。能够较好的满足业务需求。如,判断用户偏好。短文本,每个标签通常只表示一种含义,标签本身无需再做过多文本分析等预处理工作,这为利用机器提取标准化信息提供了便利。
人制定标签规则,并能够通过标签快速读出其中的信息,机器方便做标签提取、聚合分析。所以,用户画像,即:用户标签,向我们展示了一种朴素、简洁的方法用于描述用户信息。
3.1 数据源分析
构建用户画像是为了还原用户信息,因此数据来源于:所有用户相关的数据。
对于用户相关数据的分类,引入一种重要的分类思想:封闭性的分类方式。如,世界上分为两种人,一种是学英语的人,一种是不学英语的人;客户分三类,高价值客户,中价值客户,低价值客户;产品生命周期分为,投入期、成长期、成熟期、衰退期…所有的子分类将构成了类目空间的全部集合。
这样的分类方式,有助于后续不断枚举并迭代补充遗漏的信息维度。不必担心架构上对每一层分类没有考虑完整,造成维度遗漏留下扩展性隐患。另外,不同的分类方式根据应用场景,业务需求的不同,也许各有道理,按需划分即可。
本文将用户数据划分为静态信息数据、动态信息数据两大类。

静态信息数据
用户相对稳定的信息,如图所示,主要包括人口属性、商业属性等方面数据。这类信息,自成标签,如果企业有真实信息则无需过多建模预测,更多的是数据清洗工作,因此这方面信息的数据建模不是本篇文章重点。
动态信息数据
用户不断变化的行为信息,如果存在上帝,每一个人的行为都在时刻被上帝那双无形的眼睛监控着,广义上讲,一个用户打开网页,买了一个杯子;与该用户傍晚溜了趟狗,白天取了一次钱,打了一个哈欠等等一样都是上帝眼中的用户行为。当行为集中到互联网,乃至电商,用户行为就会聚焦很多,如上图所示:浏览凡客首页、浏览休闲鞋单品页、搜索帆布鞋、发表关于鞋品质的微博、赞“双十一大促给力”的微博消息。等等均可看作互联网用户行为。
本篇文章以互联网电商用户,为主要分析对象,暂不考虑线下用户行为数据(分析方法雷同,只是数据获取途径,用户识别方式有些差异)。
在互联网上,用户行为,可以看作用户动态信息的唯一数据来源。如何对用户行为数据构建数据模型,分析出用户标签,将是本文着重介绍的内容。
3.2 目标分析
用户画像的目标是通过分析用户行为,最终为每个用户打上标签,以及该标签的权重。如,红酒 0.8、李宁 0.6。
标签,表征了内容,用户对该内容有兴趣、偏好、需求等等。
权重,表征了指数,用户的兴趣、偏好指数,也可能表征用户的需求度,可以简单的理解为可信度,概率。
3.3 数据建模方法
下面内容将详细介绍,如何根据用户行为,构建模型产出标签、权重。一个事件模型包括:时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件,可以详细描述为:什么用户,在什么时间,什么地点,做了什么事。
什么用户:关键在于对用户的标识,用户标识的目的是为了区分用户、单点定位。

以上列举了互联网主要的用户标识方法,获取方式由易到难。视企业的用户粘性,可以获取的标识信息有所差异。
什么时间:时间包括两个重要信息,时间戳+时间长度。时间戳,为了标识用户行为的时间点,如,1395121950(精度到秒),1395121950.083612(精度到微秒),通常采用精度到秒的时间戳即可。因为微秒的时间戳精度并不可靠。浏览器时间精度,准确度最多也只能到毫秒。时间长度,为了标识用户在某一页面的停留时间。
什么地点:用户接触点,Touch Point。对于每个用户接触点。潜在包含了两层信息:网址 + 内容。网址:每一个url链接(页面/屏幕),即定位了一个互联网页面地址,或者某个产品的特定页面。可以是PC上某电商网站的页面url,也可以是手机上的微博,微信等应用某个功能页面,某款产品应用的特定画面。如,长城红酒单品页,微信订阅号页面,某游戏的过关页。
内容:每个url网址(页面/屏幕)中的内容。可以是单品的相关信息:类别、品牌、描述、属性、网站信息等等。如,红酒,长城,干红,对于每个互联网接触点,其中网址决定了权重;内容决定了标签。
注:接触点可以是网址,也可以是某个产品的特定功能界面。如,同样一瓶矿泉水,超市卖1元,火车上卖3元,景区卖5元。商品的售卖价值,不在于成本,更在于售卖地点。标签均是矿泉水,但接触点的不同体现出了权重差异。这里的权重可以理解为用户对于矿泉水的需求程度不同。即,愿意支付的价值不同。
标签 权重
矿泉水 1 // 超市
矿泉水 3 // 火车
矿泉水 5 // 景区
类似的,用户在京东商城浏览红酒信息,与在品尚红酒网浏览红酒信息,表现出对红酒喜好度也是有差异的。这里的关注点是不同的网址,存在权重差异,权重模型的构建,需要根据各自的业务需求构建。
所以,网址本身表征了用户的标签偏好权重。网址对应的内容体现了标签信息。
什么事:用户行为类型,对于电商有如下典型行为:浏览、添加购物车、搜索、评论、购买、点击赞、收藏 等等。
不同的行为类型,对于接触点的内容产生的标签信息,具有不同的权重。如,购买权重计为5,浏览计为1
红酒 1 // 浏览红酒
红酒 5 // 购买红酒
综合上述分析,用户画像的数据模型,可以概括为下面的公式:用户标识 + 时间 + 行为类型 + 接触点(网址+内容),某用户因为在什么时间、地点、做了什么事。所以会打上**标签。
用户标签的权重可能随时间的增加而衰减,因此定义时间为衰减因子r,行为类型、网址决定了权重,内容决定了标签,进一步转换为公式:
标签权重=衰减因子×行为权重×网址子权重
如:用户A,昨天在品尚红酒网浏览一瓶价值238元的长城干红葡萄酒信息。
标签:红酒,长城
时间:因为是昨天的行为,假设衰减因子为:r=0.95
行为类型:浏览行为记为权重1
地点:品尚红酒单品页的网址子权重记为 0.9(相比京东红酒单品页的0.7)
假设用户对红酒出于真的喜欢,才会去专业的红酒网选购,而不再综合商城选购。
则用户偏好标签是:红酒,权重是0.95*0.7 * 1=0.665,即,用户A:红酒 0.665、长城 0.665。
上述模型权重值的选取只是举例参考,具体的权重值需要根据业务需求二次建模,这里强调的是如何从整体思考,去构建用户画像模型,进而能够逐步细化模型。