微信点「看一看」最活跃用户竟是爸妈辈,小年轻最「安静」…… 清华大学唐杰等人最近的一项研究透过微信「看一看」的数据分析了用户点击阅读文章和点「在看」的行为模式,并从人口统计情况、二元和三元关联、自我中心网络结构这些不同方面进行了分析。
该研究还提出了一个预测模型,预测准确率相比其他方法有所提升。目前,该论文已发表在《IEEE Transactions on Knowledge and Data Engineering》(TKDE) 期刊上。
微信文章的「在看」按钮,想必大家都不陌生。在发现页点开「看一看」,微信用户就能看到朋友点过「在看」的文章,也可以点击这些文章进行阅读,或者点个「在看」。
微信「看一看」页面示例。(「wow button」是「在看」按钮。)
那么,哪些因素会影响用户点击阅读这些文章和点「在看」的行为呢?
该研究从三个层面进行了分析。
下面是具体分析结果。
表 1、图 2 和图 3 给出了不同性别和年龄的用户在「看一看」中点「在看」和点击阅读文章的概率。从中,我们可以发现:
为了方便起见,该研究在二元关联中仅考虑用户与一个活跃朋友的互动,在三元关联中仅考虑用户与两个活跃朋友的互动。研究者从人口统计属性与社会角色两个方面进行分析。
1. 二元关联与人口统计属性
下表 2 展示了用户性别和朋友性别对用户活跃率的影响。从中可以看到,就点击行为而言,当二人性别相同时,用户的点击概率更高;但对于「在看」行为而言,当朋友是女性时,用户点「在看」的概率更高。
从年龄来看,下图 4 展示了用户年龄与朋友年龄对用户「在看」行为概率的影响。从中我们可以发现,当用户比较年轻(< 40 岁)时,相比于同龄人,他们更易受年龄较大朋友的影响;年龄较大用户则更易受同龄朋友的影响。
2. 二元关联与社会角色
下表 4 展示了用户与朋友具备不同社会角色——意见领袖 (OL) 和普通人 (OU) 时,对用户活跃率的影响。从中可以发现,当活跃朋友并非意见领袖时,用户点「在看」和点击阅读文章的概率更高。
下表 5 展示了结构洞 (SH) 和普通人 (OU) 这两种社会角色对用户活跃率的影响。(「结构洞」指社会网络中的空隙,即社会网络中某个或某些个体和有些个体发生直接联系,但与其他个体不发生直接联系,即无直接关系或关系间断,从网络整体看好像网络结构中出现了洞穴。)
可以看出,当朋友是结构洞时,普通用户的活跃率更高。而对于本身是结构洞的用户,当朋友非结构洞时其点击概率更高,但差别并不显著。
3. 三元关联与人口统计属性
下图 5 展示了用户性别和朋友性别对用户活跃率的影响。可以看出,当两个朋友的性别与用户性别相同时,用户的活跃率最高。这显示出很强的同质偏好性(homophily)。
下图 6 展示了用户年龄与朋友年龄对用户活跃率的影响。从中我们可以发现,如果一个朋友与用户同龄另一个较小,则用户的活跃率高;年长用户更关注年轻用户。
此外,研究者还探讨了用户活动与其自我中心网络属性的关联,发现用户的线上行为(点击阅读和「在看」)受朋友圈(自我中心网络中的朋友)影响很大。自我中心网络指用户的活跃朋友的诱导子图(induced subgraph)。
该研究从自我中心网络中的朋友数量、连通分支 (#CC) 数量、cleaned 自我中心网络(k 核子图)中的 #CC 这三个方面分析自我中心网络的属性。
下图 8 展示了活跃朋友数量增加对用户活跃率的影响。从图中可以看出,对于点击和「在看」行为而言,趋势完全不同。
通过这些分析,研究者得到以下发现:
既然发现了一些模式或规律,我们可以利用它们预测用户的线上行为吗?该研究创建了一个预测模型 DiffuseGNN。
如上图所示,DiffuseGNN 模型包含五步:预处理自我中心网络、输入层、特征平滑层、层级图表示学习和输出层。
该模型的核心组件和基础 idea 如下所示:
研究者在其收集的微信「看一看」数据和公开的微博数据集上测试了该模型对用户行为的预测效果,并选取了多类方法进行对比,包括:1)传统分类器:LR 和 RF;2)建模特征交互的深度学习方法:xDeepFM;3)基于自我中心网络的 SOTA 用户行为预测方法:DeepInf 和 Wang et al.;4)层级图表示学习方法:SAGPool、ASAP 和 StructPool。其中第 3 和第 4 类都是基于 GNN 的方法。
下表 7 展示了实验结果,从中可以看出 DiffuseGNN 模型的性能持续优于基线方法。
此外,该研究还探讨了不同模型组件对用户行为预测的影响,参见表 7 底部数据。从中我们可以发现,移除预训练嵌入和特征平滑步会导致较大的性能下降;增加二阶特征对基于微信数据的用户行为预测略有帮助,对基于微博数据集的用户行为预测效果较好;该模型在不使用人工制作用户特征的情况下也取得了不错的性能。
领取专属 10元无门槛券
私享最新 技术干货