研究人员证明了使用流行的“低维嵌入”方法来表示社交网络和其他复杂网络的数学可能性。
用于分析复杂网络的模型和算法已广泛用于研究中,并通过在在线社交网络,搜索引擎和推荐系统中的应用而影响了整个社会。但是,根据一项新研究,一种广泛用于这些网络建模的算法方法存在根本缺陷,无法捕获现实世界中复杂网络的重要属性。
“并不是这些技术给了您绝对的垃圾。他们中可能包含一些信息,但没有很多人相信。”圣克鲁斯大学巴斯金工程学院计算机科学与工程副教授C.“ Sesh” Seshadhri说。
Seshadhri是有关新发现的论文的第一作者,该论文于2020年3月2日发表在《美国国家科学院院刊》上。这项研究评估了称为“低维嵌入”的技术,这些技术通常用作机器学习模型的输入。这是一个活跃的研究领域,新的嵌入方法正在迅速开发。但是Seshadhri和他的合著者说,所有这些方法都有相同的缺点。
社交网络
为了解释原因,Seshadhri以社交网络为例,这是一种熟悉的复杂网络。许多公司将机器学习应用于社交网络数据,以生成有关人们行为的预测,对用户的建议等。嵌入技术实质上是将一个人在社交网络中的位置转换为几何空间中某个点的一组坐标,从而为每个人生成一个可以插入算法的数字列表。
“这很重要,因为诸如人在社交网络中的位置之类的抽象事物可以转换为具体的数字列表。另一个重要的事情是,您希望将其转换为低维空间,以便代表每个人的数字列表相对较小。” Seshadhri解释说。
转换完成后,系统将忽略实际的社交网络,并根据空间点之间的关系进行预测。例如,如果在那个空间中有很多与您接近的人正在购买特定产品,则系统可能会预测您可能会购买同一产品。
Seshadhri及其合作者从数学角度证明了复杂网络的重要结构方面在此嵌入过程中丢失了。他们还通过在不同种类的复杂网络上测试各种嵌入技术来凭经验证明了这一结果。
“我们并不是说某些特定方法会失败。我们要说的是,任何一种为您提供少量数字的嵌入方法都将根本失败,因为低维几何图形对于社交网络和其他复杂网络的表达能力不足。” Seshadhri说。
三角密度
现实世界中社交网络的一个关键特征是三角形的密度,即三个人之间的联系。
Seshadhri说:“在有很多三角形的地方,这意味着社交网络的那部分存在很多社区结构。” “此外,当您查看社交网络有限的人时,这些三角形更加重要。在典型的社交网络中,有些人拥有大量的联系,但大多数人并没有很多联系。”
在对嵌入技术的分析中,研究人员观察到,在嵌入过程中丢失了许多表示社区结构的社会三角形。“所有这些信息似乎都消失了,所以当您构建这些几何表示时,几乎就像您想要找到的东西一样丢失了,” Seshadhri说。
低维嵌入绝不是用于生成预测和推荐的唯一方法。它们通常只是非常庞大和复杂的机器学习模型的众多输入之一。
“该模型是一个巨大的黑匣子,据报道,许多积极的结果表明,如果包括这些低维嵌入物,您的性能将会提高,也许会有一点点颠簸。但是,如果您单独使用它,似乎您会错过很多东西。” Seshadhri说。
他还指出,大多数新的嵌入方法都与其他嵌入方法进行了比较。然而,其他研究人员最近的实证研究表明,不同的技术可以为特定任务提供更好的结果。
“比方说,您要预测谁是共和党人和谁是民主党人。有专门针对该任务开发的技术比嵌入效果更好。”他说。“声称这些嵌入技术可用于许多不同的任务,这就是为什么许多人采用它们的原因。将它们插入现有的机器学习系统也非常容易。但事实证明,对于任何特定任务,总有可以做的更好的事情。”
考虑到机器学习在我们社会中的影响力日益增长,Seshadhri说,研究模型背后的基本假设是否有效很重要。
“我们拥有所有这些复杂的机器,它们所做的事情会严重影响我们的生活。我们的信息只是,我们在评估这些技术时需要更加小心。”他说。“尤其是在当今这样的时代,机器学习变得越来越复杂,重要的是要对可以做什么和不能做什么做一些了解。”
领取专属 10元无门槛券
私享最新 技术干货