所谓高维空间的诅咒:在低维空间中是四不像,但随着 Embedding 维度的增加,取平均后的 Item Embedding 会和用户原本的 Embedding 越来越近。所以高维下大概率是“四都像”。
最简单的应用便是:当觉得用户的 User Embedding 不太好时,那可以使用用户最近点击过的 Item Embedding 取平均,从而得到新的 User Embedding。
这个用户的 User Embedding 不太好有多个角度:
注意:
最早期有点像 Youtube 2016 年的论文:通过 item embedding 生成 user embedding 的过程。
此外,这里还有一个比较好玩的论文:KDD2020 《PinnerSage: Multi-Modal User Embedding Framework for Recommendations at Pinterest》。大概是说:
其“取长补短”,其思路也很简单:取用户较长时间段内交互过的 Item embedding,聚成若干类,再拿每类的 Embedding 取召回,融合后返回。
至于如何聚类,聚几类,可以去看论文,这里不过多阐述。