首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    RU | 提出手语生成大模型:SignLLM,支持8种手语生成,且均达到SOTA!

    引言 手语对于听障人士的交流至关重要。然而,手语数据的获取和处理非常复杂,这限制了手语生成模型的发展。...为推动手语生成领域的发展,本文作者提出了一个多语种手语数据集Prompt2Sign,并以此训练了手语生成大模型:SignLLM,该模型可并行生成多种手语,同时理解复杂自然语言输入。...实验结果表明,SignLLM在8种手语的SLP任务上达到了最先进的性能,展示了其在多语种手语生成上的强大实力。...为此,本文作者提出了一个多语种手语数据集Prompt2Sign,旨在解决现有手语数据集的局限性,并推动手语生成(SLP)、识别(SLR)和翻译(SLT)任务的研究进展,另外作者还训练了一个多语种手语生成大模型...Prompt2Sign Prompt2Sign数据集源于互联网公开手语数据集和视频,涵盖了包括美国手语(ASL)在内的8种不同的手语,这使得它成为首个综合了多语种手语的数据集。

    95722

    中国队夺金幕后的「AI手语翻译官」:初次上岗,手语可懂度超90%

    腾讯自主研发了一套可视化动作编辑平台,为更专业的手语老师提供了友好的工具平台,可以让手语老师高效率的对全量手语动作进行精修。...打造 3D 手语数智人「聆语」有何挑战? 正如命名「聆语」所示,腾讯这款 3D 手语数智人是听障人士真正可懂的手语数字人。相比于其他的数智人,腾讯的手语数智人在技术上具备多项优势。...这些问题都要求 AI 手语主播需要具备较高的手语表达能力和精准连贯的手语呈现能力。 如何让「聆语」像专业的手语主持人一样,实时、精准地传递解说内容,有效提高手语表达可懂度?...在手语动作方面,为了让「聆语」实现流畅的交互,腾讯团队的程序员们啃起了《国家通用手语词典》,并让「聆语」在上岗之前也认真学习了《国家通用手语词典》的规范。...经过漫长的手语调研、手语顾问团队建设,团队开发出了一套手语翻译系统。在手语解说时,「聆语」首先通过健听人语言与听障者手语的机器翻译能力,将健听人语言内容低延迟生成高准确率的手语语言表征。

    79830

    中国队夺金幕后的「AI手语翻译官」:初次上岗,手语可懂度超90%

    我们为什么需要 AI 手语数智人主播? 打造 3D 手语数智人「聆语」有何挑战?...输入:他是我的手语老师预处理:他 是 我 的 手语 老师翻译:他 我 手语 老师 是 随后,「聆语」基于腾讯多模态端到端生成模型,进行联合建模及预测生成高准确率的动作、表情、唇动等序列,实现自然专业、易懂度高的手语效果...得益于腾讯云小微和PCG AI 在语音技术领域的长期积累,「聆语」的 AI 手语可懂度达到了90%以上。...赛场手语翻译的难点,包括要通过 ASR 技术,将比赛解说的语音从赛场现场的复杂环境声音中分离出来进行精准的识别,然后再将识别出来的文本信息进行智能摘要,使手语翻译能够和主持人语速达到匹配。...接下来,将手语翻译生成手语视频,保证每个动作准确的同时,也要实现动作与动作之间的精准衔接。

    51730

    干货 | 解读AI手语翻译机的技术硬核

    与此同时,手语作为听障者使用较多的语言,能正确理解手语的健全人士却寥寥无几。 5月16日,腾讯优图实验室联合深圳市信息无障碍研究会发布“优图AI手语翻译机”。...手语识别技术,潜行多年 任何技术的发展都不是一蹴而就的,尤其是近些年来,优图AI手语翻译机也并不是第一款针对手语应用的的产品,在此之前,手语识别技术已经发展多年,包括国内IT企业级科研院校都曾针对这一技术进行研究...优图AI手语识别技术的实现方法 据官方资料显示,优图AI手语翻译机核心技术是与听障者手语表达高度符合的数据集与手语识别算法。...针对AI手语翻译机的手语识别数据集、特征提取器等关键技术能力,雷锋网根据官方资料整理如下: 手语识别数据集 目前,AI手语翻译机的数据集覆盖近千句日常表达,900个常用词汇。...优图AI手语翻译机的“剑走偏锋” 目前来看,虽然AI手语识别技术受限于计算机性能、语料库丰富程度等因素的影响,但是随着人工智能和图像识别技术不断受到关注,目前包括旷世、商汤等国内独角兽企业,以及国内的BAT

    2.7K30

    专访上海大学倪兰教授:语言学与手语识别技术的融合突破,解锁交流障碍|GAIR live

    同样,手语也需要遵循其自身的语法结构”。 在技术开发方面,倪兰教授认为,手语识别的核心问题在于手语的内部结构,包括语音构造、构词方式和句法结构。...中国手语(CSL)是一个广泛的概念,它可以包括国家通用手语和中国各地方手语。...手语语言学研究的核心目标是通过语料来分析手语内部结构,建设手语语料库是我们进行研究的基础工作。...当时我们邀请了国内计算机领域做图像识别的专家,对我们的数据库提出很多建议。目前,我们的语料库已经收集了8万多条数据,其中包括国家通用手语词汇,以及许多手势的地方变体,即同一个手势的多种打法。...目前的图像识别和语言识别技术可以在不清楚语言内部结构的情况下,通过大量数据集训练让机器自动学习并得出结果。但在小样本数据情况下,提供关键数据的标注可能会有助于减少误差,提高识别的准确率。

    48010

    Airtest图像识别

    Airtest是一款网易出品的基于图像识别面向手游UI测试的工具,也支持原生Android App基于元素识别的UI自动化测试。...图示为AirtestIDE中脚本运行范例 本文重点是针对Airtest中的图像识别进行代码走读,加深对图像识别原理的理解(公众号贴出的代码显示不全仅供参考,详细代码可以在github查看)。...这里可以看到,Airtest也没有自研一套很牛的图像识别算法,直接用的OpenCV的模板匹配方法。 四、接着看另外一个方法 aircv.find_sift 定义在sift.py里面: ? ?...FlannBasedMatcher(index_params,search_params).knnMatch(des1,des2,k=2) 哪个优先匹配上了,就直接返回结果,可以看到用的都是OpenCV的图像识别算法...六、总结 1、图像识别,对不能用ui控件定位的地方的,使用图像识别来定位,对一些自定义控件、H5、小程序、游戏,都可以支持; 2、支持多个终端,使用图像识别的话可以一套代码兼容android和ios哦,

    12.4K21

    Current Biology:手语和口语共享部分概念表征

    作者的刺激材料是包含两个通道的,一个是手语视觉通道,一个是口语听觉通道,同时手语视频由男女两个录制者录制,听觉语音由男女两个录制者录制,因此形成了两个模态(手语模型和口语模态),6个不同状态(手语男-手语女...,口语男-口语女,手语男-口语男,手语男-口语女,手语女-口语女,手语女-口语男),为了方便陈述,在后续文中我们的陈述分为模态内和模态间,其中手语男-手语女,口语男-口语女为模态内,我们统一用手语-手语和口语...手语男-口语男,手语男-口语女,手语女-口语女,手语女-口语男这四个状态为模态间,统一使用手语-口语或者口语-手语来表示。 ?...除此以外,作者还测试了口语录音人和手语录视频者不同时是否存在模型差异。 作者使用上述模型测试了模态内(口语-口语的距离和手语-手语的距离)的差异和模态间(口语-手语的距离或手语-口语的距离)的差异。...红框说明的模态内的相似性,Sp1和Sp2指的男性录音人和女性录音人,Si1和Si2指的是男性手语录制者和女性手语录制者,口语-口语和手语-手语是模态内的。

    83131

    基于机器学习的中文手语神经解码

    在肢体运动中,手语包含的信息量丰富。本文探讨了基于脑电图(EEG)信号的中国手语的神经特征和解码。在该项研究中,有20名被试进行基于中文手语的运动执行和运动想象的任务。...研究结果表明,涉及手语的神经回路与视觉接触区和运动前区有关。基于手语的所提出的解码策略得到了良好的分类结果,为后续基于手语的肢体解码的研究提供了一定的参考价值。...实验开始时,屏幕中央就会出现一条中文的手语提示信息。2秒钟后,屏幕上出现提示被试开始想象手语。3秒钟后,手语想像或者手语执行结束,进入3秒钟的休息时间。 图3:实验范式。...实验中的手语包括“我”、“你”、“今天”和“明天”。具体的手语的形状如图4所示。实验中有两种手语类型,包括手语动作执行和手语想象。每个实验阶段包括4次运行,休息15分钟。...每次运行包含4个手语单词,每个手语单词进行试验20次。每个被试进行640次脑电图试验,20名被试最终将进行12800次(20名被试*2种手语类型*4次运行*4个手语单词*20次试验)试验。

    69730

    科技感拉满,盘盘这届冬奥会的虚拟数字人

    在网上爆红的央视“段子手”朱广权PK“手语主播”的视频中,朱广权用超快语速的顺口溜挑战“手语主播”的“手速”,而这位手语主播也凭过硬的专业能力轻松应战。事实上,这位手语主播就是一位虚拟数字人。...就AI手语虚拟主播来说,其背后的技术分别来自百度和腾讯,其中百度主要为央视电视直播提供手语翻译服务,腾讯的聆语主要为央视频提供手语翻译服务,并上线小聪在腾讯体育上进行手语翻译。...AI手语翻译的主要困难在于,手语也有自己的“语法”,语序也并不一定与汉语相同,且手语也存在“方言”,即便是真人手语翻译师也难以保障百分百的可懂度。因此AI手语虚拟主播本质上仍是一个即时翻译功能。...相关报道显示,百度通过百度智能云构建手语翻译引擎,可懂度达到85%以上,聆语词汇和语句覆盖量超过160万,手语翻译的可懂度可达90%,基本可以满足电视直播手语翻译的需要。...不难发现,和早期基于3D技术和CG动画生产的数字人相比,“超仿真”的虚拟数字人已融入了CG(计算机动画)、CV(计算机视觉)、语音识别、语音合成、图像识别、动作捕捉、自然语言处理、深度学习等最新技术,在声音

    75610

    这一次,腾讯用AI让手语“发声”

    5月16日,全球无障碍宣传日之际,腾讯优图实验室宣布攻克AI手语识别技术挑战,联合深圳市信息无障碍研究会发布“优图AI手语翻译机”,致力于通过人工智能技术为听障人群搭建无障碍沟通平台。...AI手语翻译机以普通摄像头作为手语采集装置,依托高性能计算机进行后台运算,能够实时地将手语表达翻译成文字。...据优图实验室研究员阳赵阳介绍,手语翻译的核心技术是手语识别(SLR),通过计算机算法,自动区分手语表达中的各类手势、动作、手势和动作之间的切换,最后将手语翻译成为文字。...相比于此前的手语识别相关的产品和技术方案,优图实验室手语识别算法有以下几大突破点: 让交流“不受限”,随时随地AI手语翻译 手语表达极具复杂性,一个手势或者动作幅度的小变化就可能会造成表达意思上很大的不同...目前,优图实验室手语识别数据集覆盖了近千句日常表达,900个常用词汇,是最大的中文手语识别数据集。

    1.8K20

    图像识别——突破与应用

    最近,图像识别领域发布了白皮书,简单翻译一下做个总结。...---- [2] 图像识别 图像识别的目标是识别图像中的对象和人,并理解上下文。图像识别属于机器知觉,机器知觉是机器学习(ML)和人工智能(AI)的一部分。...这是图像识别史上的一个转折点,也是这个领域前途光明的开始。这个成就将焦点从传统的图像识别方法转移到了使用深度神经网络的新方法。...随着算法效率的提高和处理能力的提高,许多图像识别功能可以嵌入到相机中。 图像识别技术可以用来计算物体,如汽车或图像中的人物。这种能力可以用于交通和人群管理。...配备有先进图像识别能力的智能移动机器人具有许多商业(例如服务业)和个人用途。最先进的图像识别最新的应用是协助自动驾驶汽车和汽车驾驶员。

    14.4K113
    领券