最近做了一个某个类型的用户特征分析,让我对用户画像这个领域有了新的看法。这篇文章是对之前整个特征分析过程的一次梳理和总结。
简单介绍
首先来看看用户画像的定义:
用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。
在这个定义里,核心是“标签”,标签与用户的关系是属于多对多的关系,一个用户可以用于很多标签,例如“宅男”,“年轻”等等,而同样的一个标签可以对应多个用户,一类标签背后往往代表着某一类人。标签与标签之间应该要低耦合,如果两个标签类似,这两个标签就要考虑合并了。
分析过程
因为是以某一类型的用户作为基准,也就是说,主要考虑的是打标签,勾画出这一类用户的准确特征。在开始分析之前,要有一个大概的框架去指导整个特征分析的工作。
在参考了网上大量的文章之后,决定从:
1. 确定用户的主键,进而确定用户的分析角度:
用户基本信息:性别、年龄、性别、地域等客观不会发生改变的信息
用户的消费特征:月消费金额,总的消费金额,购买商品,使用频次等花费用户金钱和时间的角度
用户的使用行为:页面的浏览量,点击次数等行为数据
用户的互动数据:这里牵扯到与APP等交互过程,需要对文本进行简单的分析。
2. 收集数据
这部分应该是整个过程中最艰难的,数据缺失、脏数据、需要人工收集等问题造成了很大的困扰(同样的也促使我们下定决心打造一套数据采集平台)。
3.数据的清洗和整合
在这一层,参考了数据仓库的分层模型,以用户的这一类型作为主题建立一个数据集市。
ODS > PDW > MID
数据源同步沉淀到ods层,在这一层不会对数据进行任何处理,只是把数据沉淀到数据库。PDW层会对数据进行清洗,处理脏数据,整合ODS层数据,做成各个细粒度的以主题为核心的表。在MID层会以星型模型作为参考,去描述整个用户。
4.数据分析和构建画像
这一步的就是最基本的数据分析和可视化了,将整合后的主题表,通过切片、机器学习模型、自然语言处理等手段形成报表和图表的形式展示用户的特征。
结论
这里只是简单的说明了一个现实场景的用户特征分析的过程,在整个过程中,最大的体验就是:
算法往往不是工程中最核心东西,数据模型的框架建立和数据的清洗整合才是影响整个数据分析的核心
领取专属 10元无门槛券
私享最新 技术干货