7月28日至7月31日第20届中国国际数码互动娱乐展览会(ChinaJoy)在上海举行。7月28日,由汉威信恒主办,钛媒体集团协办的2023 ChinaJoy AIGC大会正式召开。大会聚焦时下热议的AIGC行业,邀请国内外AIGC领域的行业代表专家、学者、企业大咖重磅参会,从技术层面、应用层面、价值投资层面,全生态视角探讨AIGC技术下的内容产业新业态。
百度知识图谱部总监佘俏俏进行了题为《AIGC技术助力视觉创作新业态》的主题演讲。
余俏俏认为,AIGC正在以更低成本和更快速度改变内容生产方式。
百度推出的AI绘画产品"文心一格",可以为专业和大众创作者提供创作平台。它能理解用户需求,自动补全模糊内容,生成高质量图片。用户还可以训练自定义模型,生成一系列风格一致的图片。
在视频创作方面,AI可以帮助创作者快速生成高质量视频。跨模态大模型能实现不同模态间的语义级对齐,甚至直接生成高清、优美的原生视频素材。同时还构建了一套智能视频创作系统,整合多种技术,自动产生视频。
未来,大模型和知识技术将进一步提升AIGC效果。在算法、算力、数据和知识方面都将有所提升,使AIGC具有更强的交互界面、自主可控性、可解释性,并能生成更高维度的内容。
以下是余俏俏在2023 ChinaJoy AIGC大会上的演讲全文(略经钛媒体App整理):
大家好!
很高兴能在这里跟大家分享百度AIGC技术与应用上的进展和思考,今天在这里我主要跟大家从图片生成、视频生成两方面来讲。
请大家想象一下,我们坐在电影院里,大屏幕上正在播放一部电影,它的情节非常精彩,视觉效果非常震撼,黄昏的时候金色的海岸线上出现了一艘巨大的船,船的底部落下了很多神秘的发光体,在发光体里好像有一些未知的外来生物。在电影的结尾,制作方告诉我们,这部电影完全是由AIGC来生成的。站在今天的节点上,这样的事情已经不是什么科幻的想象了,而是AIGC技术将在不远的将来就能实现的了。
70多年前的1950年,图灵测试这一思想实验的提出,预言了创造出具有真正智能的机器的可能性。后面的若干年,人工智能发展几经起落,终于在最近十年,随着深度学习的兴起,以及语言、图像、视频等生成式建模技术爆发式的发展,我们迎来了生成式人工智能新时代。
在生成式人工智能的时代里,人工智能生成内容自然是非常受关注的一大类应用,所谓AIGC,就是用人工智能来生产内容。AIGC正在颠覆现有的内容生产方式,以十分之一的成本,以百倍千倍的速度生成AI原创的内容,它不仅会提升内容生产的效率,也会创造出独特的价值和独立视角的内容,从而带来内容生产、内容消费模式的突破。
AIGC技术发展的主角是生成式大模型,预训练模型的横空出世,标志着基于大规模数据在大参数量模型的训练能为AI带来颠覆式效果的提升。此后,各类大模型在语言理解、生成、跨模态理解与生成、生物计算等领域不断刷新相应领域的水平。最近,以OpenAI的GPT系列,百度文心大模型系列等为代表的生成式大模型将AIGC技术推向了新的高度。
文心一格是依托于百度飞桨文心大模型技术创新推出的AI绘画产品,文心一格的含义是一语成画,别具一格。用户非常广泛,既能为专业的视觉内容创作者提供丰富的创作灵感,辅助其进行艺术创作,也能为文字内容的创作者提供高效、高质量的配图,还为广大大众用户提供零门槛的创作平台,让所有人能把自己的想法变成画作,实现自己独一无二的作品。
在文心一格的背后是百度自研的一套基于知识与大模型的文生图系统。首先,基于知识的智能Prompt工程,Prompt工程能很好地理解用户的需求,并构建出适合于AI绘画的输出表示。基于输出,跨模态大模型会生成图像,图像能满足用户的需求,又能兼具美感和实用性,平台还可以为用户提供非常丰富的图像编辑能力,让用户在图像基础上进行调整,达到满意的状态。在流程中,各个模块都充分利用用户反馈持续优化迭代。
这套文生图系统是基于昆仑芯、飞桨、文心大模型、百度知识图谱构建的,全栈技术自研,自主可控。
接下来用例子说明基于知识的Prompt学习,用户用自然语言描述自己画图的需求,但自然语言描述往往因为模糊性、不确定性,跟实际上他想画出来的图像会有非常大的差异。另一方面,如果用户想要画出非常精美的图,需要掌握一定的AI绘画技巧,而技巧需要一定的学习成本,需要学如何描述画面,如何指定风格,补充修饰词等等。
为此,文心一格提出了基于知识的Prompt学习,能够很好地理解用户需求背后蕴含的信息,对模糊地带的内容进行自动补全,并且完善Prompt,使得它能够生成更高质量的图片。
文心一格的主界面首创了生成与编辑融合的交互方式,用户可以一边创作,一边用编辑调整自己的图片,来达到很满意的状态。例如可以涂抹编辑,把主角的衣服变成自己想要的样子,也可以将两张图片叠加,生成一张独一无二的宝石蟹。
在一格,用户还可以输入几张图片素材,就能快速训练出自定义的模型,产出画面风格一致,或者主体一致的一系列自己想要的图片。
以上是文生图技术和AI绘画平台文心一格,接下来说说视频创作。
在视频内容创作时,创作者往往会受限于自身经历、记忆力、创作工具的熟练程度等因素限制。但是在AI的帮助下,创作者指定相应文章或主题,就能快速得到视频,而且质量还不错,我们接下来看一个例子,输入主题“上海与科技”,AI自动生成出了什么样的视频。
在视频内容的创作中,视频素材质量和丰富程度决定了最终效果,如何获取视频素材,尤其是高质量的视频素材,主要有两类方法:跨模态匹配、跨模态生成。
但无论是哪种方法,最核心的技术难题是如何实现文本、图片、视频片段等不同模态之间的语义级对齐。
团队在业界首次提出了基于统一建模的视文一体跨模态大模型,解决了这一业界难题。可以看到,多概念细粒度的精准对齐已经实现做到了,基于统一建模的跨模态大模型,还实现了直接生成高清、优美、富有创意的原生视频素材。
基于文心大模型,特别是统一建模的跨模态大模型,构造了一整套智能视频创作系统。
具体来说,创新整合了包括语言、视觉、语音、跨模态等一系列技术能力,参考了人在视频创作过程中的策、采、编,实现了文案理解与生成、素材分析与处理、素材扩充与编排等步骤,自动生成视频,在这套系统基础上,百度实现了辅助的视频创作系统。
以上介绍的AIGC技术百度已经用在了众多领域,包括自媒体创作、游戏原画、广告营销、工业设计等。AIGC技术已经带来了哪些对视觉内容创作的新变化呢?
第一,AIGC技术提升了内容创作的效率,无论是海报制作还是短视频制作,在整体成本降低和制作时间降低上非常显著。
第二,AIGC能够助力人们把自己天马行空的想象付诸于实现,创造出属于自己的独特作品,同时能够为用户提供丰富多彩超出想象的新创意。
第三,AIGC能够降低创作成本,让更多人更容易地加入到视觉内容创作中来,如果需要写实的海报,可以不用找专人,不用布景拍摄就能实现。小孩子天马行空的想象也可以快速变成绘本。非设计背景的人如果工作中需要设计图样,也可以借助AI实现,短视频创作者可以更加聚焦精力在深度洞察和特色打造上,因为AI可以在全流程帮助他。
未来,大模型与知识技术将推动AIGC效果有质的提升。在算法层面,大模型将进一步统一更多模态、任务、场景;在算力层面,将硬件利用率进一步提高,并且形成更高性能的能力;在数据层面,将从之前更多强调规模到更强调质量,以及与模型打造更好的迭代闭环;在知识层面,更强调精准、更多形态,AI推理和决策中发挥更重要的作用。
这些技术的持续提升,将使AIGC技术具有更强的语言交互界面,更好的自主可控性、可解释性,生成更高维度的时空内容。
把AI与人类创造力结合在一起,可以开拓内容视觉创作非常广阔的未来。期待以AI为笔,我们共同描绘更精彩的未来。
以上PPT中的所有画面画作都是用文心一格生成的,欢迎大家扫码体验,感谢大家的聆听,欢迎多多交流,谢谢大家!
领取专属 10元无门槛券
私享最新 技术干货