首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AI前沿技术研究:提升可信度、推理效率与多模态理解

AI前沿技术研究:提升可信度、推理效率与多模态理解

原创
作者头像
用户11764306
发布2026-01-06 20:24:15
发布2026-01-06 20:24:15
530
举报

规划AI未来:从更安全的答案到更快的思考

五位来自首届某中心-某机构人工智能实验室暑期项目的博士生,正利用最先进的资源,致力于缓解AI的痛点,创造新的功能与能力,以促进AI的实用性和部署——从学习何时信任预测模型准确性的模型,到更有效地对知识库进行推理。他们的努力形成了一条贯穿始终的主线,即实用且技术严谨的研究将带来跨领域更可靠、更有价值的模型。

通过构建探针、路由器、新的注意力机制、合成数据集和程序合成流水线,学生们的工作涵盖了安全性、推理效率、多模态数据和知识驱动的推理。他们的技术强调扩展性和集成性,始终着眼于实际影响。

学习信任,以及何时信任

数学研究生Andrey Bryutkin的研究优先考虑模型的可信度。他寻找问题内部的数学结构,以了解如何利用它们来产生更可靠和稳健的解决方案。他与实验室合作,开发了一种方法来窥视大语言模型(LLM)行为的本质。研究团队探索了LLM的“不确定性之不确定性”。通常,名为“探针”的小型前馈神经网络被训练与LLM一起使用,用于向开发者标记来自大模型的不可信答案;然而,这些分类器也可能产生假阴性,并且只提供点估计,无法提供太多关于LLM何时失败的信息。

为了确保对LLM查询的可信响应,另一种方法是使用外部可信的知识库来增强它们,以消除幻觉。对于结构化数据,知识图谱是自然的选择;然而,LLM和知识图谱之间的通信通常使用固定的、多智能体流水线,计算效率低且成本高昂。为了解决这个问题,物理学研究生Jinyeop Song与实验室研究人员合作,创建了一个单智能体、多轮、强化学习框架来简化此过程。该团队设计了一个API服务器,托管包含通用网络知识数据的知识图谱,以及一个发出定向检索操作以从服务器获取相关信息的LLM智能体。然后,通过持续的来回交互,智能体将收集到的知识图谱数据附加到上下文中,并响应查询。关键在于,该系统使用强化学习来训练自己,以在准确性和完整性之间取得平衡的答案。该框架将一个API服务器与一个单一的强化学习智能体配对,以协调数据驱动的推理,从而提高了准确性、透明度、效率和可转移性。

明智地使用计算

模型响应的及时性和完整性与准确性同等重要,尤其是在处理长输入文本以及其中元素(如故事主题)随时间演变的情况下。电子工程与计算机科学研究生Songlin Yang正在重新设计模型在推理的每一步可以处理的内容。

鉴于Transformer模型(如LLM)面临两个关键限制:由于softmax注意力机制导致的长序列建模计算复杂度高,以及旋转位置编码的弱归纳偏差导致的表达能力有限。这意味着随着输入长度加倍,计算成本将增加四倍。旋转位置编码允许Transformer理解标记的顺序,但它不擅长捕捉随时间变化的内部状态,并且仅限于训练期间看到的序列长度。

为了解决这个问题,研究团队探索了理论上有根据且硬件高效的算法。作为softmax注意力的替代方案,他们采用了线性注意力,降低了限制可行序列长度的二次复杂度。他们还研究了结合softmax和线性注意力的混合架构,以在计算效率和性能之间取得更好的平衡。为了提高表达能力,他们用基于Householder变换的动态反射位置编码替代了旋转位置编码。这种方法实现了更丰富的未知位置交互,以便更深层次地理解序列信息,同时保持快速高效的计算。

视觉新应用

视觉数据包含了人脑可以快速解析、内化和模仿的丰富信息。利用视觉语言模型,两名研究生正在探索通过代码实现这一点的方法。

在视觉文档理解方面,尤其是图表,电子工程与计算机科学研究生Jovana Kondic专注于研究。这些图表包含数据点、图例和轴标签等元素,需要光学字符识别和数值推理,而模型在这些方面仍有困难。为了促进这些任务的性能,Kondic的团队着手从代码中创建一个大型、开源、合成的图表数据集,用于训练和基准测试。通过其原型ChartGen,研究人员创建了一个流水线,将种子图表图像通过一个视觉语言模型,该模型被提示读取图表并生成一个很可能最初用于创建该图表的Python脚本。该框架的LLM组件随后从许多图表中迭代地增强代码,最终产生超过20万对独特的图表及其代码,涵盖近30种图表类型,并附带支持数据和注释。该团队正在进一步扩展他们的数据集,以帮助实现对企业应用中数据可视化的关键多模态理解,如财务和科学报告、博客等。

电子工程与计算机科学研究生Leonardo Hernandez Cano则专注于数字设计,特别是CAD应用中的视觉纹理生成。他与实验室团队合作,创建了一个程序合成系统,该系统学习自行优化代码。系统从用户以图像形式给出的纹理描述开始,然后生成一个产生视觉纹理的初始Python程序,并迭代地优化代码,目标是找到一个能产生与目标描述匹配的纹理的程序。通过这些优化,新颖的程序可以创建具有所需亮度、颜色、虹彩等的可视化效果,模仿真实材料。

总体来看,这些项目及其背后的研究人员正在协同推动人工智能朝着更稳健和实用的方向发展。通过解决可靠性、效率和多模态推理的核心挑战,这项工作为不仅更强大、而且更可靠、更具成本效益的人工智能系统铺平了道路,适用于现实世界的企业和科学应用。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 规划AI未来:从更安全的答案到更快的思考
  • 学习信任,以及何时信任
  • 明智地使用计算
  • 视觉新应用
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档