首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >图神经网络在客户需求中的创新应用

图神经网络在客户需求中的创新应用

原创
作者头像
用户11764306
发布2025-09-19 18:27:49
发布2025-09-19 18:27:49
250
举报

图是一种信息丰富的数据表示方式,由节点(通常用圆圈表示)和边(节点间的线段)组成。例如,在知识图谱中,节点代表实体,边代表实体间的关系;在社交图中,节点代表人,边表示人与人相识。

在某中心的云服务中,利用机器学习使图中编码的信息对客户更有用已成为重要研究方向。本文将展示客户与某中心科学家合作开发的多种图机器学习应用,包括恶意账户检测、自动化文档处理、知识图谱辅助药物发现和蛋白质性质预测。

图学习简介

图可以是同质的,即节点代表单一类型实体(如机场),边代表单一类型关系(如航班);也可以是异质的,即整合了不同实体间的多种关系,如客户和产品通过购买历史和兴趣连接的图,或药物、疾病、基因和生物通路通过指示和调节等关系连接的知识图谱。节点通常与数据特征相关联,如产品价格或文本描述。

图神经网络

过去十年,深度学习革命性地改变了自然语言处理、语音合成和计算机视觉等AI应用。图神经网络将深度学习的性能优势扩展到图数据。与其他神经网络类似,GNN模型有一系列层,逐步向更高抽象层次推进。

例如,GNN的第一层计算图中每个节点数据的表示(或嵌入),第二层基于先前的嵌入和节点最近邻居的嵌入计算每个节点的表示。这样,每一层都扩展了节点嵌入的范围,从一跳邻居到两跳邻居,甚至更远。

GNN任务

单个节点嵌入可用于节点级任务,如预测节点属性;也可用于更高级的推理,如使用节点对或所有节点的表示,GNN可分别执行链接级或图级任务。

节点级任务

使用GNN,可以基于节点与其他节点的关系推断其行为。常见任务是节点分类,目标是通过查看邻居的标签和特征来推断节点的缺失标签。该方法用于金融欺诈检测、出版物分类和疾病分类等应用。

在某中心,已成功使用某图数据库和深度图库将GNN节点表示学习应用于客户的欺诈检测用例。例如,对于一家大型电子商务体育器材客户,某机器学习解决方案实验室的科学家使用深度图库实现的GNN模型检测了数十亿注册账户中的恶意账户。

这些恶意账户被大量创建,以滥用促销代码并阻止公众访问供应商的热销商品。利用电子商务网站的数据,构建了一个巨大的异质图,其中节点代表账户和其他实体(如购买的产品),边根据使用历史连接节点。为识别恶意账户,训练了一个GNN模型,将已知恶意账户的标签传播到未标记账户。

该方法检测到的恶意账户数量是先前基于规则的检测方法的10倍。这种性能改进无法通过传统机器学习方法(如CatBoost)实现,这些方法仅将账户特征作为输入,未考虑图中捕获的账户间关系。

除了适用于固有关系图结构数据(如社交网络和引文网络数据)的应用外,GNN还扩展到通常呈欧几里得空间的数据,如图像和文本。通过基于空间邻近性将欧几里得空间数据转换为图,GNN可以解决通常由卷积神经网络和循环神经网络处理的问题,这些网络设计用于处理视觉数据和序列数据。

例如,研究人员探索了GNN模型来提高信息提取的准确性,这通常由循环神经网络处理。GNN在融入图表示捕获的非局部和非顺序关系方面表现更好。

在最近与某航空公司的合作中,某机器学习解决方案实验室开发了定制GNN模型(DocGCN),以提高从自助上传的乘客文档(包括旅行文档、COVID-19测试结果和疫苗卡)中自动提取信息的准确性。团队为每个扫描的旅行文档构建了一个图,根据文本单元在文档中的空间邻近性和方向连接文本单元。

然后,DocGCN模型对文本单元(图的节点)之间的关系进行推理,以改进相关文本信息的识别。DocGCN还通过利用图捕获表格、键值对和段落中文本之间的关系,泛化到不同格式的复杂表单。这一改进加速了国际旅行准备验证的自动化。

链接级任务

另一个重要的学习任务是链接预测,这是产品或广告推荐和友谊建议等应用的核心。给定两个节点和一个关系,目标是确定节点是否通过该关系连接。

通常,预测由消耗源节点和目标节点嵌入的解码器提供,如团队在SIGIR 2020上提出的知识图谱嵌入工作。解码器被训练以正确预测图中存在的边。

在这一背景下,一个令人兴奋的机会领域是药物发现。某中心最近提供了一个药物重定位知识图谱,利用链接预测识别现有药物的新靶点。由某中心科学家构建,该知识图谱是一个全面的生物知识图谱,涉及人类基因、化合物、生物过程、药物副作用、疾病和症状。通过在知识图谱中执行围绕COVID-19的链接预测,研究人员能够识别出41种可能对COVID-19有效的药物——其中11种已进入临床试验。

某中心还公开发布了利用该知识图谱构建的解决方案,作为COVID-19知识图谱。该知识图谱组织并表示了COVID-19开放研究数据集中的信息,实现了候选药物的快速发现和优先排序。它还可用于识别与COVID-19相关的论文,从而减少研究、总结和解释与疫情相关发现所需的人力规模。

图级任务

图级任务涉及分析大量小型独立图的集合。有机化合物的化学库是图级应用的常见例子,其中每个有机化合物表示为通过化学键连接的原子图。化学库的图级分析对于药物开发和发现用例通常至关重要;应用包括预测有机化合物的化学性质和预测生物活性(如与蛋白质靶点的结合亲和力)。

另一个受益于图级表示的数据是编程语言中的代码片段。一段代码可以通过程序依赖图表示,其中变量、运算符和语句是通过依赖关系连接的节点。

在PAKDD 2021上,我们提出了一种使用GNN表示代码片段的新方法。最近,我们使用该方法识别相似代码片段,以找到使代码更模块化和更易于维护的机会。

GNN还可用于编码底层系统的全局属性,并将其纳入图嵌入,这种方式在其他深度学习方法中难以实现。我们最近与某生物制药公司的科学家合作,从蛋白质的3D结构预测其功能,这对制药和生物技术行业的研究和开发非常有用。

蛋白质由以特定方式折叠的氨基酸序列组成。我们开发了蛋白质的图表示,其中每个节点是一个氨基酸,折叠蛋白质结构中氨基酸之间的相互作用决定两个节点是否连接。

这使我们能够编码细粒度的生物信息,包括相邻氨基酸残基之间的距离、角度和接触方向。当将在这些图表示上训练的GNN与训练用于解析数十亿蛋白质序列的模型结合时,我们提高了在具有现实重要性的各种蛋白质功能预测任务上的性能。

GNN的图级任务与先前任务有不同的数据工程要求。节点级和链接级任务通常操作单个巨大图,而图级任务操作大量独立的小图。

为帮助客户扩展GNN以进行图级任务,我们开发了一种基于云的架构,利用高性能开源GNN库深度图库、机器学习资源编排工具某机器学习平台和某文档数据库管理图数据。

开始您的GNN之旅

在本文中,我们展示了GNN在所有三个图相关任务级别的应用示例,以展示GNN对各种企业和研究问题的价值。某中心为希望构建和部署GNN驱动的机器学习解决方案的客户提供了几种选择。希望快速入门的客户可以使用某图数据库机器学习直接在存储在某图数据库中的图数据上构建GNN模型,无需编写任何代码。某图数据库机器学习可以训练模型处理上述节点级和链接级任务。希望更深入实践的客户可以使用某机器学习平台上的深度图库实现GNN模型。同时,我们将继续推进GNN科学,以构建更多产品和解决方案,使GNN更易于所有客户使用。

致谢:Guang Yang, Soji Adeshina, Jasleen Grewal, Miguel Romero Calvo, Suchitra Sathyanarayana

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 图学习简介
  • 图神经网络
  • GNN任务
    • 节点级任务
    • 链接级任务
    • 图级任务
  • 开始您的GNN之旅
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档