【环球网科技综合报道】近日,中国科学院自动化研究所“紫东太初”大模型研究中心常务副主任、武汉人工智能研究院院长王金桥研究员介绍,基于华为全栈国产化软硬件平台昇腾AI与开源AI框架昇思MindSpore,中国科学院自动化研究所和武汉人工智能研究院正在联合打造 “紫东太初”2.0全模态大模型,可实现文本、图片、语音、视频、3D点云、传感信号等不同模态的统一表征和学习,助推通用人工智能时代加速到来。
据悉,2019年开始,自动化所在语音、文本、图像等单模态大模型研究和应用基础上,瞄准多模态大模型领域开始联合攻关,并于2021年7月正式发布了全球首个千亿参数多模态大模型“紫东太初”,以多模态技术探索通用人工智能发展道路。
区别于当前以文本为主的大部分语言大模型,“紫东太初”大模型在研发之初即坚持以多模态技术为核心,利用图-音-文等更多类型数据进行跨模态的统一表征和学习,实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”,使人工智能大模型的理解和生成能力更加接近人类,为贯通多模态人工智能行业应用提供了创新基础,向通用人工智能迈出关键一步。
在“紫东太初”1.0应用推广过程中,除了需要处理海量语音、图像和文本等互联网信息外,更需要处理多种传感器、3D点云及视频等物联网海量数据,才能满足现实生产力的提高。针对数字物联时代的新需求与新趋势,中科院自动化研究所研究探索全模态大模型体系架构和基础算法,持续推动“紫东太初”技术和应用发展。
在文本、图片、音频、视频的基础上,“紫东太初” 2.0可融入3D、视频、传感信号等更多模态数据,并优化语音、视频和文本的融合认知以及常识计算等功能,进一步突破感知、认知和决策的交互屏障,让人工智能从感知世界进化为认知世界。
领取专属 10元无门槛券
私享最新 技术干货