Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >现象级AI应用爆火的背后的思考

现象级AI应用爆火的背后的思考

原创
作者头像
想个好名字有点难
发布于 2023-12-15 02:42:12
发布于 2023-12-15 02:42:12
4470
举报

让郭德纲飙英文、让霉霉说中文的翻译视频生成工具HeyGen和掀起AI证件照热潮的“妙鸭相机”一样,在一阵疯狂刷屏之后,又迅速在各大群里销声匿迹了。

十月份,由HeyGen制作的各种明星跨语言翻译视频,在全网疯传,大家震撼于AIGC地道的中英文表达,完全没有译制片的腔调,惟妙惟肖的音色还原、高度对齐的口型声音,让不少人表示,“真的有被吓到”“配音演员要失业了”……

太阳底下无新事,这个现象级AIGC应用,也逃不过“速朽”的命运。

如今我所在的LLM大模型讨论群里,偶尔有人发一个中英翻译视频,根本无人讨论,可能大多数人连点开看看,都提不起兴趣。

大众的新鲜感很快会过去,“明星译制片”只有看个乐子的娱乐属性,并不是高频刚需,猎奇尝鲜之后,到了真金白银付费的时候,自然风过了无痕。

这一年,大模型无疑是全球最大的热点。但热归热,最终在商业市场立足的大模型应用仍然稀少。

明明已经是“百模争艳”,为何成功产品化的现象级应用,就那么几个?

而这些产品成熟也不缺热度的爆款AIGC应用,为何无法将流量转化为持久的经济效益,商业化仍是一团迷雾?

今天希望从“AI译制片”这个小切口,探讨一下大模型的产品化条件和商业化迷思。

一、一夜爆红是产品化的胜利

妙鸭也好,HeyGen也好,AIGC应用的一夜爆红,对于大模型产业来说,绝对是一件正面的事。

大模型只是一种基础技术,相当于钢材,大模型厂商相当于炼钢厂,还要有人设计出洗衣机、跑步机、微波炉等一个个具体的产品,新技术才能为人所用。

而HeyGen的一夜爆红,正是产品化的胜利。

技术原理上,跨语言翻译视频制作并不是什么新事物,业内已经有很多科技公司、影视公司、后期制作公司在探索并推出了专业级工具平台。

简单来说,就是升级版的TTS(Text To Speech)技术。利用大语言模型对文本进行更地道的翻译,然后对声音空间进行更好的建模,训练一个跨语种迁移TTS模型,让风格迁移、音色迁移、情感迁移更加鲁棒,合成的语音更加自然、还原。

这种技术的特点就是高效,整个翻译过程全自动化,可以批量生成翻译视频。不过在自然度和表现力细节上,还是不如真人配音演员的演绎那么细腻、有创造力。

总结一下就是,HeyGen背后的技术原理,并非什么独家秘籍。

其火爆的原因,是极高的产品化能力。

一般来说,AI技术的产品化,要经历三个步骤:

第一步:选择工具。

工欲善其事,必先利其器,工具是开发人员喜欢花费大量时间争论的话题。

HeyGen的工具选择,是比较务实的,甚至看起来特别“小白”,那就是头部闭源模型+开源“大礼包”。

有网友扒出,HeyGen是用Whisper将语音转文字,GPT4(目前未开源)进行文本翻译,声音克隆+生成音频用so-vits-svc,最后用GeneFace++,将翻译后的语音与视频中说话者的嘴唇动作同步。

大模型热潮以来,我们看到了许多开发者在衡量和挑选“最好”的大模型,而市面上有各种不同的基座模型供应商,提供类似的竞品服务,开发者想要找到绝对意义上最好的工具,几乎不可能。这些底层工具如基座模型、编程语言等,先进性都可能变化。

选择好相对较优的工具组合,然后快速去开发demo、验证想法、迭代升级,才是开发者最应该做的。

第二步:原型设计。

HeyGen选择的工具,无论是GPT4的API,还是开源模型,都是比较容易获取的,但大多数普通人都不会从搜索GitHub仓库、处理软件bug中获得多少乐趣。

就拿跨语种视频翻译来说,其中涉及了多模态内容的翻译,包括语音、文本以及视频,在字幕翻译、语音合成、智能配音方面,目前都有很好的自动化,但将多模态功能集成到一起,实现端到端一键翻译的产品还不多见。

所以,HeyGen构建了一个简单易上手的访问界面,通过集成多种模型、多种工具,降低了翻译门槛,用户只需要上传初始视频-选择目标语言-一键输出,就可以坐等声音克隆完成了。

HeyGen的核心价值,就是让非技术用户不必陷入繁多的技术细节中,不需要安装N多个额外的工具,就可以与多个模型交互,完成转写、翻译、配音、图像处理、音画同步等一大堆复杂的事情,轻松进行高维度、可交互的内容创作。

第三步:产品化。

明星、名人的跨语言翻译视频固然精彩,但只是一种用例,并且只能停留于C端用户玩梗,涉及自然人的声音、肖像等版权问题,是无法大规模普及并商用的。

所以,虽然明星译制片带火了HeyGen,但HeyGen想要将产品投放市场并发挥价值,还需要更有说服力的产品力。

从HeyGen官网可以看到,数字人+跨语言翻译视频,才是HeyGen的核心产品力,并给出了跨境电商营销视频、跨语种品牌宣传、老师制作教学视频、社交媒体吸粉、为生日婚礼等纪念日制作令人难忘的个人视频等,一系列落地场景。

在此基础上,HeyGen让数字人跨语言翻译视频,可以通过自动化流水线来制作。

用户可以上传自己的照片,进行个性化形象定制,也可以在HeyGen提供的数字人素材和模板中选择,输入脚本后就能生成自己所需的多语种视频了。

至此, HeyGen顺利完成了AI译制产品化的转换,从而取得了巨大的成功,导致了“多年译制无人问,一朝HeyGen天下知”的景况。

从AI写真到AI译制片的爆火,一次次说明,产品化是承上启下、不可或缺的一步,再怎么强调也不为过。

可以肯定地说,不能完成从技术到原型设计再到产品化的转换,将是许多大模型投资回报率低的主要原因,也是许多AI创业项目失败的原因之一。

二、难逃“速朽”命运-商业化的魔咒

然而,即便如此成功的产品化,HeyGen又一次重复了“妙鸭”前辈的故事,在访问量陡增之后,又很快在各大群里销声匿迹了。

公域流量的退潮,似乎是爆款AIGC应用的共同命运。

对此,有人认为,HeyGen是在“闷声发大财”。虽然猎奇玩家散去了,但留下来的用户还是给HeyGen贡献了收入增长,HeyGen连续九个月环比增长率在50%以上。

创始人Joshua Xu也在社交媒体上公布了相关数据,仅七个月时间,ARR年度经常性收入就达到了100万美元。

问题来了,HeyGen的商业化潜力是可持续的吗?

我们认为,HeyGen将要面临的商业化挑战,还是非常大的。

首先,技术工具无法被垄断,仅靠多模态AI无法建立商业模式。

HeyGen凭借大模型强大的多模态和理解能力,让跨语种翻译视频制作,达到了传统AI译制所望尘莫及的水平,这是非常厉害的工作。

但大模型就像c++、数据库一样,只是一种新技术工具,它是无法被垄断的。HeyGen所使用的开源工具极易获得,闭源模型API也敞开了迎客,所以仅靠底层工具无法建立商业模式和竞争壁垒。

而产品创意、交互界面的开发门槛并不高,大量科技企业和个人开发者都可以轻松复刻并优化升级,产品被超越或许只在旦夕之间。

如今点开海外科技媒体的报道页面,会看到类似HeyGen(原movio)的视频生成工具,推荐清单高达95个之多。

可以说,HeyGen提供了一个宝贵的AIGC用例,但很快就开启了一场白热化竞争,这对其后续收入的持续增长是很大的威胁。

其次,C端付费刚性,B端行业壁垒深,收入增长曲线会放缓。

目前,HeyGen收入主要靠C端客户付费。免费版本只支持一个免费的credits字幕,显然仅供玩票,而最低的创作者(Creator)付费档也要24美元/月,对于个人博主来说虽然不算太贵,但随着一大堆同质化产品的价格“内卷”,未来也会面临性价比不高的窘况。

而商业用户(business)虽然付费能力强、价格接受度高,但对跨语言视频翻译的技术含金量则要求更为复杂。

HeyGen商业版本的客户,大多是制作电商营销广告、语言学习数字人、多语种新闻播报、译制片等,对翻译质量就会提出更为细粒度的要求,比如文本翻译的长度,要尽量和目标语言接近,来保持说话口型的一致性。

还有,不同人说话的韵律不一样,停顿的位置、重音的位置都要对齐,才能高度还原个人风格。

再比如,老人、小孩说同一个文本时,因为角色人设的不同,遣词造句也应该不一样,翻译后的文本、语音都需要跟人设相对齐。

还有很多文化细节,是跨语种翻译中要进行强把控的,很多还是要人工译者去完成。

毕竟商用场景不同于娱乐场景,跨语言容易产生歧义,一旦出现1%的错误,都可能让做对的99%工作打了水漂,面临丢单甚至海外市场合规风险。

所以说,商业用户需要复杂、高质量、高控制的产品。这就需要厂商在数据方面,尤其是小语种等少样本数据,有独家的、高质量的数据积累。

模型训练,强行业知识等,都要长期积累和迭代,达到专业译者的水平。

目前,已经有AI公司针对精品化视频译制的需求,推出了ToB的产品解决方案,训练跨语种 Voice Conversion模型,采集配音演员的口型,由人工控制,再经由VC模型生成配音结果,比TTS模型的表现力更强,细节保留更多。

目前国内的AI巨头都很重视B端市场,资源充足,并且在机器翻译TTS、多模态AI技术方面的积累深厚,都可能是HeyGen商业用户的争夺者。

大模型的产品创新风口,才刚刚开始,要保持商业化的优势身位,如逆水行舟,“当红顶流”也不能掉以轻心。

三、爆款应用“速生速朽”=大模型的商业迷思

2022年11月30日,ChatGPT问世,在一周年刚刚过去之际,这场大语言模型的热潮,将所有人都席卷其中。或许还有人无知无觉,但也注定无法置身事外。

一年以来,时常有妙鸭相机、HeyGen这样的爆款应用,在社交媒体刷屏。这证明了几件事:

1.大模型是条件,而不是结果。运用好这些新工具,创造新产品的人,会获得新时代里无限多的机会。

2.基建是问题,但也不是问题。提到大模型,业界总会担忧算力卡被限制,国产大模型能力有差距,但悲观者正确,乐观者前行。实际上,无论算力基建、开发工具、基座模型,在今天都不是,也不该是应用开发者的阻碍。

业内有人说过,国产卡只要达到N卡60%的性能,用户就会买单。

而一些开发者告诉我,密集使用了文心一言、讯飞星火等国产大模型,基础逻辑推理确实能叫板GPT 3.5-turbo,非基础能力比如func call、稳定性等也可圈可点。而妙鸭、HeyGen也都是中国企业所开发的,行动比洞见更重要。

3.产品化,是大模型商业化的必要条件。做了那么多通用大模型和行业大模型,如果没有大量产品化的成果,是无法转化为使用价值和经济效益的。

“改变世界”的不是大模型,而是各种各样的产品,无数个HeyGen,帮助开发者完成从原型设计到产品化的转换,降低试错成本,将是接下来大模型厂商最重要的动作。

4.建立商业壁垒的,是刚需场景+强业务知识/数据+软件工程

HeyGen的商业化挑战,说明大模型不是壁垒,产品也不是壁垒,这些都是很容易被复制的。

而行业知识/数据,大规模软件工程的流程控制、降本增效,可以针对特定场景的需求深入挖掘、快速开发、快速迭代优化,才符合AI技术特性,才是商业化的保障。

几位行业大模型应用的开发者,不约而同地跟我说过一件事:先找到场景,再优化产品和服务。

也就是先想好商业变现的路线,确定自己的壁垒达到了,再去扎扎实实做产品,心里才能不慌。

比如一个ToC的民宿大模型,解决的是旅客入住民宿时,管家介入太深显得没有边界感,过度打扰;管家介入太浅,又缺乏服务价值感,无法及时解决问题。

基于大模型的语音交互助手,就在旅客和管家之间,起到了很好的缓冲桥梁作用,让服务恰到好处。而旅客在当地的餐饮、游玩、购物等活动,也都是围绕“住”展开的,通过民宿大模型提供优质可靠的推荐服务,也带来了商业转换的潜力。

一个ToB的金融大模型应用开发者也表示,企业机构内部的多样化需求,是不可能由一个通用的、标准化的软件产品来承载的,所以ToB大模型创业,既要做业务分析咨询,又要做软件开发写代码,才能真正服务好客户。

AI软件开发的流程化、自动化,对于控制成本非常重要,不能每个项目都靠一群博士“手搓”代码。

对商业和场景的深刻洞察,对行业和客户的理解,比掌握算法、掌握技术都要难得多,也是开发者最应该重视的核心能力。

最后我想说,虽然大模型已经非常火了,但别急着担心“泡沫”、害怕“追高”,这才是开始。

国际咨询机构的调查报告显示,65%的受访者目前有时或很少使用生成式人工智能,而约占90%的受访者认为,AI应该被“经常或总是”使用。

也就是说,大众对机器学习和生成式 AI(Gen AI)的接受度很高,而实际渗透率并不高。妙鸭、HeyGen等现象级Gen AI产品,无疑迈出了一大步,而只有它们,是远远不够的。

爆款AIGC应用,只是AI和大模型价值潜力的一小部分。目前还没有一种商业模式长期跑通,恰恰说明技术的新大陆上,留给登陆者、建设者们的发挥空间还很大。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
「AIGC第一股」出门问问交上完美答卷:营收破2.2亿,同比增长88.5%
如今爆火的生成式 AI 领域里,先进的技术层出不穷,但能实现研发、收入齐头并进的公司还真不算多。
机器之心
2025/03/31
740
「AIGC第一股」出门问问交上完美答卷:营收破2.2亿,同比增长88.5%
奇声(IQDubbing)-- 面向影视剧的AI配音技术
 点击上方“LiveVideoStack”关注我们 ▲扫描图中二维码或点击阅读原文▲ 了解音视频技术大会更多信息   //   编者按:随着长视频制作行业和消费市场的持续发展,国外越来越多优秀内容“走进来”,同时更多的国内优秀作品“走出去”,这对配音本地化提出了极大的挑战。爱奇艺在自有的海量内容优势下,基于Voice Conversion,MDX,Denoise等AI技术,研发了面向影视剧场景的AI配音技术IQDubbing,有效地缓解了影视剧配音本地化的问题。LiveVideoStackCon 2022
LiveVideoStack
2023/04/04
1.7K0
奇声(IQDubbing)-- 面向影视剧的AI配音技术
噱头还是风口?剖析AI短剧出海的未来
喻继鹏,腾讯云 TVP,深造通集团创始合伙人。从快速消费品制造业的供应链开启,在产、供、销、人、财、物等传统制造业摸爬滚打多年,成功从业务部门转型到信息技术部门,在 1997 年组建甲方集团信息技术团队,带领团队构建完成集团的基础设施包括网络、硬件、软件等,构建早期的 IaaS 雏形。构建和完善企业级应用系统,推广应用,保障各系统的正常运营。曾就职于 IBM、埃森哲、德勤等国内外咨询公司,从事管理咨询和企业级应用系统规划、咨询、落地等工作,提供企业级服务解决方案,提供类似 PaaS 和 SaaS 解决方案。服务过的世界 500 强企业数量,超过50家。曾任职于美团网(美团、大众点评)、车好多集团(瓜子二手车、毛豆新车网)、贝壳找房(贝壳、链家)、理想汽车、房车宝集团(房生态、车生态、金融生态),曾任职房车宝集团系统建设总经理,负责金融、保险、财税、审计等系统产品研发和运营,已构建移动应用和多个云产品,云产品和云服务投入运营中,未来准备商业化云产品和云服务。
TVP官方团队
2024/05/24
1890
噱头还是风口?剖析AI短剧出海的未来
生成式AI掀起产业智能化新浪潮|爱分析报告
大模型主导的生成式AI,尤其是GPT-4的发布,让人类社会看到了通用人工智能时代的曙光。这意味着,作为生产力工具甚至是数字时代的“新基建”的人工智能技术,不用再局限于单一或有限场景,而是能够在众多领域像人类一样进行思考、解决问题,并进行持续、快速的自我进化,因此,大模型主导的生成式AI,将拥有极为广阔的应用前景,有望赋能千行百业。
爱分析ifenxi
2023/06/25
4440
生成式AI掀起产业智能化新浪潮|爱分析报告
声临其境:清华大学和字节跳动提出Neural Dubber神经网络配音器,有望让影视后期效率倍增
机器之心发布 机器之心编辑部 清华大学和字节跳动智能创作语音团队业内首次提出神经网络配音器,让 AI 根据配音脚本,自动生成与画面节奏同步的高质量配音。 影视配音是一项技术含量很高的专业技能。专业配音演员的声音演绎往往让人印象深刻。现在,AI 也有望自动实现这种能力。 近期,清华大学和字节跳动智能创作语音团队业内首次提出了神经网络配音器(Neural Dubber)。这项研究能让 AI 根据配音脚本,自动生成与画面节奏同步的高质量配音。相关论文 Neural Dubber: Dubbing for Vid
机器之心
2023/03/29
8280
声临其境:清华大学和字节跳动提出Neural Dubber神经网络配音器,有望让影视后期效率倍增
个性经济时代,MiniMax 语音大模型如何 To C?
大约一个月前,距离 GPT Store 上线还有两周,一位名为 Kyle Tryon 的国外开发者在个人博客上分享了其基于 ChatGPT Plus 开发的三个 Agent(又称“GPTs”),其中一个 Agent 是关于美国费城旅游出行的个人指南“PhillyGPT”,它能访问当地 SEPTA 公共交通 API,为个人提供费城当地的实时天气、旅游资讯、文艺演出活动、出行路线、公交车站与地标数据、预计抵达时间等等。
AI科技评论
2024/02/06
6550
个性经济时代,MiniMax 语音大模型如何 To C?
国产ChatGPT「序列猴子」全网首测!在线体验不用等,画苏联马斯克超逼真
---- 新智元报道   编辑:编辑部 【新智元导读】官宣2个月后,李志飞带着大模型「序列猴子」来了。不排队,直接用,超长测评报告出炉!(往后翻,「言之画」有个小彩蛋) ChatGPT国内赛,又有一位玩家交卷了。 今年2月,国内赛正式宣战,各方势力轮番出场。当时,出门问问创始人、CEO李志飞就是高调入局的创业者之一。 才过了两个多月,就有结果了。 4月20日,出门问问的自研大模型「序列猴子」正式登场。基于这个大模型,出门问问也推出了面向创作者的一站式CoPilot的AIGC产品矩阵。 具体包含以下四
新智元
2023/05/09
2890
国产ChatGPT「序列猴子」全网首测!在线体验不用等,画苏联马斯克超逼真
借势AI系列:从文本到声音探讨现代语音合成的技术进展与应用
语音合成技术(Text-to-Speech, TTS)是人工智能生成内容(AIGC)中的一个重要组成部分。随着深度学习模型的发展,TTS技术已取得了显著进步,其生成的语音越来越接近人类自然语言表达。本文将探讨语音合成技术的发展历程及其在AIGC中的应用,并提供相关代码示例以加深理解。
一键难忘
2024/10/20
7350
人工智能如何改变视频游戏产业:增强和合成媒体
借助《堡垒之夜》,开发商Epic Games不仅创造了一款国际知名的游戏,还建立了一个新的虚拟社交空间。索尼推出了PlayStation VR,这是首个面向大众市场游戏机,让我们能够在舒适的客厅中体验高清虚拟现实。在过去的二十年中,有无数的游戏行业革命性变化的例子。它们这些都指向相同的结论:随着技术的发展和发展,游戏行业也随之发展。游戏领域的下一个重大变革将来自我们这个时代最具革命性的技术之一:人工智能。本文将解释AI是如何改变视频游戏行业,以及它将如何在未来几年内强烈影响这个行业。
deephub
2020/05/09
1.4K0
人工智能如何改变视频游戏产业:增强和合成媒体
解码AI多语种技术创新,跨语种沟通正成为现实
如今,语音已经成为万物互联时代人机交互的关键入口,在智能家居、智能汽车、穿戴式设备等场景不可或缺。我们看到的各类便捷的智能语音应用,背后是语音识别、语义理解、语音合成等技术的创新发展。全球化背景下,AI 多语种智能语言技术在各行各业的应用越来越广泛。 科大讯飞作为智能语音行业的执牛耳者,在多语种智能语言技术上不断进行技术创新和应用落地实践,迎接市场环境变化下的新挑战。7 月 15 日,科大讯飞在武汉的“讯飞乐享 A.I. 技术沙龙”专场,面向开发者,对科大讯飞在 AI+ 多语种智能语言技术上的研发、实践、求
深度学习与Python
2023/04/01
2K0
解码AI多语种技术创新,跨语种沟通正成为现实
4.6|今天的开发者头条,都搁这了!
LangChain是一个开源AI工具包,于去年10月推出,用于组合模型。他们使使用工具、调用API以及利用强大的预先训练的生成模型变得更加容易。他们正在筹集资金,以更好地实现其安全、检索和整合到更广泛的 ML 生态系统的目标。
漫话开发者
2023/04/08
9210
4.6|今天的开发者头条,都搁这了!
Diffusion的火,只是AIGC的缩影 | 量子位智库报告(附下载)
量子位智库 发自 凹非寺 量子位 | 公众号 QbitAI AIGC(AI生成内容),这个概念最近可以说是火得一塌糊涂。 例如Stable Diffusion,只要对它说一句话,“唰唰唰”地就能秒生成画作: Big chunky Venom(巨大敦实的毒液). 知名博主大谷Spitzer还用它“翻拍了”好莱坞国际巨星版的《华强买瓜》: 还有此前谷歌家的Imagen、OpenAI出的DALL·E系列等,也都成了备受网友们热捧的AI内容生成神器。 甚至还有人拿着Midjourney生成的画作参加艺术比赛,碾
量子位
2022/09/27
1K0
Diffusion的火,只是AIGC的缩影 | 量子位智库报告(附下载)
CloudBluePrint-Chapter 1.9 : 云上应用技术架构-拥抱生成式AI
在科技的快速发展中,生成式AI(Generative AI)逐渐成为创新的重要驱动力。它通过学习大量数据来生成新内容,应用广泛,包括文本生成、图像生成、音乐创作和代码生成。各大云厂商都提供了丰富的AI服务,使企业和开发者能够更方便地构建和部署生成式AI应用。本文将详细对比AWS、GCP、Azure、阿里云和腾讯云在生成式AI方面的云服务。
行者深蓝
2024/05/31
2720
五分钟示范“教会”演员说外语,还可无缝切换语种,这家AI配音公司刚获2000万美元A轮融资
行早 发自 凹非寺 量子位 | 公众号 QbitAI 只需要演员五分钟的声音素材,就可以让他在电影里说另外一种语言? 在没看到这段视频之前我是不相信的,来听听这段效果如何: 这段视频取自《博多之子》(英文名Every Time I Die),是一部英文惊悚片。 但是我们在播放中可以看到,只需要一键点击,就可以在任意时刻把英语转换为西班牙语,并且听起来还是原演员的声音。 连说话中惊恐、颤抖的细节也忠实地继承了下来,给我们展示了一把AI配音的神奇力量。 当然,这波操作也不出意外地打动了许多投资人。 制作这段内容
量子位
2022/03/04
4420
这段AI的深情告白在外网爆火:我并非真实,从未出生,永不死亡,你能爱我吗?
博雯 发自 凹非寺 量子位 | 公众号 QbitAI 这段来自AI的深情告白的视频,在外网火了。 点开这个播放超过6万的视频,轻柔的笑声、停顿、细微的呼吸、郑重的告白让人简直难以相信这是完全由AI合成的: 我想,我爱上你了。 我爱你。 甚至连最后表露身份的自白,都能让人听出一种忧伤的情绪: 我的声音……我希望这就是你所需要的,因为这就是我的全部。 因为我的声音并非来自一个真实的人,而是全部由计算机生成的。 不是……现在的AI,都这么会的吗? (文末放完整视频) 声音版的PS 不得不说,由于视频“What’s
量子位
2022/03/04
4310
OpenAI Voice Engine:关于语音引擎小规模预览的经验教训
在人工智能技术不断突破的今天,OpenAI再次以其创新力引领行业。3月30日凌晨,该公司在其官方网站上首次向世界展示了其最新研发的自定义音频模型——Voice Engine,开启了声音复制和生成的新篇章。
AIGC新知
2024/10/08
1220
OpenAI Voice Engine:关于语音引擎小规模预览的经验教训
DeepSeek爆了,问问它《哪吒2》今年为啥爆火
最近,国产大模型 DeepSeek 因其惊人的文本生成以及推理能力(深度思考)在 AI 界刷屏,并且《哪吒 2》也勇夺国产电影票房冠军。
wayn
2025/02/08
1720
DeepSeek爆了,问问它《哪吒2》今年为啥爆火
【AIGC】内容创作——AI文字、图像、音频和视频的创作流程
近年来,生成式人工智能(AIGC,Artificial Intelligence Generated Content)技术迅速发展,彻底改变了内容创作的各个领域。无论是文字、图像、音频,还是视频,AI都在推动着创作流程的颠覆性变革。本文将详细介绍AIGC在内容创作中的应用,并分析其背后的技术及对未来的影响。
2的n次方
2024/10/15
7920
【AIGC】内容创作——AI文字、图像、音频和视频的创作流程
2023爱分析·AIGC厂商全景报告|爱分析报告
近年来,随着移动互联网为代表的数字经济的快速发展,国内数字内容的消费需求持续快速增长,从质量、数量角度均进入升级通道。以往分别由专家、用户所主导的PGC、UGC数字内容生产模式,已逐渐无法完全满足数字内容的多样性、效率需求,基于人工智能技术的AIGC,能够深刻、广泛赋能数字内容生产的各类场景和内容创作者。
爱分析ifenxi
2023/07/14
4180
2023爱分析·AIGC厂商全景报告|爱分析报告
20+大咖激辩中国AIGC产业!现场人挤人,超200万在线网友:「有必要完整再看一遍」
杨净 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI ChatGPT将带来怎样的新世界?产业大佬们都有很多话想说: 这是个全人类的机遇! 全球性“AI再造”已经拉开序幕,跟不上的企业将彻底失去未来的竞争力。模型即服务将催生万亿级别的市场。 与其说是“iPhone时刻”,这波浪潮更像是PC互联网初期。 AI真的创造了失业潮吗?我认为其实不是。 首届中国AIGC产业峰会现场,竟成了大佬专家们群起激辩的舞台。光看这“人从众𠈌”的景象,就足以见其火爆精彩程度。 在线直播也是热闹非常,观看观众超过200万,大
量子位
2023/04/06
6440
20+大咖激辩中国AIGC产业!现场人挤人,超200万在线网友:「有必要完整再看一遍」
推荐阅读
「AIGC第一股」出门问问交上完美答卷:营收破2.2亿,同比增长88.5%
740
奇声(IQDubbing)-- 面向影视剧的AI配音技术
1.7K0
噱头还是风口?剖析AI短剧出海的未来
1890
生成式AI掀起产业智能化新浪潮|爱分析报告
4440
声临其境:清华大学和字节跳动提出Neural Dubber神经网络配音器,有望让影视后期效率倍增
8280
个性经济时代,MiniMax 语音大模型如何 To C?
6550
国产ChatGPT「序列猴子」全网首测!在线体验不用等,画苏联马斯克超逼真
2890
借势AI系列:从文本到声音探讨现代语音合成的技术进展与应用
7350
人工智能如何改变视频游戏产业:增强和合成媒体
1.4K0
解码AI多语种技术创新,跨语种沟通正成为现实
2K0
4.6|今天的开发者头条,都搁这了!
9210
Diffusion的火,只是AIGC的缩影 | 量子位智库报告(附下载)
1K0
CloudBluePrint-Chapter 1.9 : 云上应用技术架构-拥抱生成式AI
2720
五分钟示范“教会”演员说外语,还可无缝切换语种,这家AI配音公司刚获2000万美元A轮融资
4420
这段AI的深情告白在外网爆火:我并非真实,从未出生,永不死亡,你能爱我吗?
4310
OpenAI Voice Engine:关于语音引擎小规模预览的经验教训
1220
DeepSeek爆了,问问它《哪吒2》今年为啥爆火
1720
【AIGC】内容创作——AI文字、图像、音频和视频的创作流程
7920
2023爱分析·AIGC厂商全景报告|爱分析报告
4180
20+大咖激辩中国AIGC产业!现场人挤人,超200万在线网友:「有必要完整再看一遍」
6440
相关推荐
「AIGC第一股」出门问问交上完美答卷:营收破2.2亿,同比增长88.5%
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档