本次研讨会于 2022 年 1 月 18 日,日内瓦时间 13 时至 17 时 20 分在线上召开。
会议主页链接:https://www.itu.int/en/ITU-T/Workshops-and-Seminars/2022/0118/Pages/default.aspx
国际电信联盟(ITU)与国际标准化组织(ISO)和国际电工委员会(IEC)JTC1 SC29 一起组织了一次关于“AI 和多媒体:探索新的领域和跨 SDO 合力”的研讨会,于 2022 年 1 月 18 日,日内瓦时间 13 时至 17 时 20 分在线上举行。该研讨会与将于 2022 年 1 月 17 日至 28 日在线举行的 ITU-T 第 16 研究组会议同时举行。
AI 和多媒体享有一种天然的密切关系。这两个领域一直在相互滋养,相互刺激发展。这两者之间的联系是自然的、内在的和相互补充的。它们都是基于对最先进的数学工具的利用,例如建模、变换和优化技术:多媒体为 AI 的应用提供了一个广阔的应用领域,而 AI 通过迎来革命性的技术和丰富的使用案例和场景为多媒体赋能。
今天,AI 和多媒体构成了 ITU-T SG16、ISO/IEC JTC1/SC29 和其他各种组织正在研究的一组非常具有战略性的课题。
AI 正在彻底改变多媒体中的许多技术领域,影响到视频、音频数据编码、表示、利用、服务和应用等主题。AI 算法可以成为嵌入传统多媒体数据编码、处理和生成方法的工具;然而,由 AI 驱动的完整的新范式也可以在不久的将来成为现实,并催生新的标准。
多媒体数据构成了当今所有互联网数据的大部分,被人类和机器所消费。SC29 的 JPEG 和 MPEG 工作组一直在研究机器视频编码等创新技术,相信这些技术将被部署在 SG16 正在(或将要)开发的各种数字多媒体应用和服务中。
在 2021 年 12 月 7 日在迪拜举行的被称为“ITU CXO 会议”的高级行业代表高级别会议上,对 AI 和多媒体问题进行了深入的讨论,并得出了以下结论,且纳入了 CXO 会议的公报中:CxO 强调,他们支持 ITU 促进社区之间更紧密的合作,为制定 AI/ML 丰富的多媒体标准做出贡献,承认 ITU、ISO 和 IEC 在该领域发挥的领导作用。
密切参与将 AI 和多媒体作为一个综合学科,而不是两个独立的学科来进行技术研究和标准化的 SDO 都被鼓励建立一个平台:
此外,一些在制定多媒体标准方面具有良好能力和历史的 SDO 在最近的重要里程碑之后在调查未来的方向。这就是 ITU-T SG16 和 ISO/IEC JTC1/SC29 所面临的情况,他们在 2020 年中期共同努力成功开发了通用视频编码(VVC)。
不同 SDO 之间的协调和同步意味着不仅要有完善的相互理解,以避免重复和重叠,而且要有一个模式,通过合理的分工,使每个 SDO 的力量得到最好的发挥。例如,来自 JPEG 和 MPEG 的底层基础技术标准可以为 ITU-T SG16 的几个关键问题(如 Q5/16、Q12/16、Q23/16、Q21/16 和 Q28/16)的工作提供有用的构建块。
因此,ITU-T SG16 和 ISO/IEC JTC1/SC29 正在组织这次以人工智能和多媒体为主题的联合研讨会,希望能够推动即将在人工智能和多媒体的共同领域开展的工作。
会议首先由 ITU-T SG16 主席 Noah Luo 和 ISO/IEC JTC1/SC29 主席 Gary Sullivan 致开幕词。
http://mpvideo.qpic.cn/0b2ekqaaaaaaseai6k7ourqvavgdabkaaaaa.f10002.mp4?dis_k=3e026403da20b695ff5a06f34fc8a15f&dis_t=1645152302&vid=wxv_2238618402556952580&format_id=10002&support_redirect=0&mmversion=false
第一场演讲是由 Masahito Kawamori 带来的“AI 和数字医疗(AI and digital health)”,演讲者是 ITU-T SG16 Questions 26 and 28 的报告人。
http://mpvideo.qpic.cn/0b2enaaaaaaayiahs6pouvqva2gdabuaaaaa.f10002.mp4?dis_k=4108b11f84c5658de11fe40ccf3f1b46&dis_t=1645152302&vid=wxv_2238523456684507141&format_id=10002&support_redirect=0&mmversion=false
第二场演讲是由 Yuan Zhang 带来的“面向机器的视频编码(Video coding for machines)”,演讲者是 ITU-T SG16 WP3 的联席主席,ITU-T SG16 Question 12 的报告人,ISO/IEC JTC1/SC29/ WG2 VCM activity 的联席主席。
http://mpvideo.qpic.cn/0b2eneaaaaaawaahsmhou5qva2odabuqaaaa.f10002.mp4?dis_k=b238f4a7d972822b0f04f8ebc6c91bca&dis_t=1645152302&vid=wxv_2238524245280768003&format_id=10002&support_redirect=0&mmversion=false
第三场演讲是由 Touradj Ebrahimi 带来的“AI 和多媒体的 JPEG 战略(JPEG strategy on AI and Multimedia)”,演讲者是 ISO/IEC JTC1/SC29/WG1 JPEG 召集人。
http://mpvideo.qpic.cn/0bc3pyaacaaao4ahwq7os5qva7wdaf7aaaia.f10002.mp4?dis_k=cc5cbefb0244f4e2926121b143c29ad6&dis_t=1645152302&vid=wxv_2238525046040510472&format_id=10002&support_redirect=0&mmversion=false
第四场演讲是由 Wang Yuntao 带来的“AI 赋能多媒体标准化和前进方向(Aspects of AI-enabled multimedia standardization and way forward)”,演讲者是 ITU-T SG16 Question 5 的报告人。
http://mpvideo.qpic.cn/0b2enyaaaaaam4ahv57ouvqva3wdabxaaaaa.f10002.mp4?dis_k=1141901886a9d6317446e7f675b3fd82&dis_t=1645152302&vid=wxv_2238525058170437633&format_id=10002&support_redirect=0&mmversion=false
第五场演讲是由 Mei Yan 带来的“数字人:使用案例和技术(Digital human: use cases and technologies)”,演讲者是 F.DH-FM and F.DH-2D, ITU-T SG16 的编者。(由于视频个数限制,本演讲和下一个演讲放在一个视频中)
第六场演讲是由 Weimin Zhang 带来的“SG16 中的 AI 性能基准工作最新状况(AI performance benchmarking work in SG16 in its latest status)”,演讲者是 ITU-T F.748.11, ITU-T SG16 的编者。(本演讲从 17:21 开始)
http://mpvideo.qpic.cn/0bc3lqaacaaaemajempowfqvaxgdafoaaaia.f10002.mp4?dis_k=49229e9c76da31fb02d0282c8d12b199&dis_t=1645152302&vid=wxv_2238634396729950211&format_id=10002&support_redirect=0&mmversion=false
短暂的茶歇过后,第七场演讲是由 Andrew Segall 带来的“JVET 中基于神经网络的视频编码探索技术概述(Overview of technologies considered in JVET's neural network-based video coding exploration)”,演讲者是 Neural Network Video Coding activity in JVET of ITU-T SG16 Question 6 and ISO/IEC JTC1/SC29/WG5 的联席主席。
http://mpvideo.qpic.cn/0b2eluaaaaaanyahus7ou5qvaxodaboqaaaa.f10002.mp4?dis_k=6dd1151058f392da6112003d8eae4c59&dis_t=1645152302&vid=wxv_2238525757159587847&format_id=10002&support_redirect=0&mmversion=false
第八场演讲是由 Werner Bailer 带来的“神经网络表示的 MPEG 压缩 (MPEG compression of neural network representations)”,演讲者是 ISO/IEC JTC1/SC29/WG4 Neural Network Coding activity 的主席。
http://mpvideo.qpic.cn/0b2elyaaaaaanqahusxou5qvaxwdabpaaaaa.f10002.mp4?dis_k=2a27713b9068068fbf109363eaef6c91&dis_t=1645152302&vid=wxv_2238525743922364422&format_id=10002&support_redirect=0&mmversion=false
第九场演讲是由 João Ascenso 带来的“JPEG AI 的当前状态和路线图 (JPEG AI, its current status and its roadmap)”,演讲者是 ISO/IEC JTC1/SC29/WG1 JPEG AI activity 的主席。(由于视频个数限制,本演讲和下一个演讲放在一个视频中)
第十场演讲是由 Stuart Perry 带来的“JPEG Pleno 点云编码现状和路线图(JPEG Pleno Point Cloud Coding, its current status and its roadmap)”,演讲者是 ISO/IEC JTC1/SC29/WG1 JPEG Pleno Point Cloud activity 的主席。(本演讲从 20:11 开始)
http://mpvideo.qpic.cn/0b2eoaaaaaaaqaajcdposnqva4gdabyaaaaa.f10002.mp4?dis_k=d006f017e4fc6a108c92362b0c47a3c0&dis_t=1645152302&vid=wxv_2238627716713627653&format_id=10002&support_redirect=0&mmversion=false
第十一场演讲是由 Elena Alshina 带来的“JVET 和 JPEG 中基于神经网络的编码技术的评价和复杂性评估方法(Methodologies for evaluation and complexity assessment of neural network-based coding technology in JVET and JPEG)”,演讲者是 Neural Network Video Coding activity in JVET of ITU-T SG16 Question 6 and ISO/IEC JTC1/SC29/WG5 的联席主席,ISO/IEC JTC1/SC29/WG1 JPEG AI activity 的联席主席。
http://mpvideo.qpic.cn/0bc3n4aacaaaniai4ihosjqva36dafxqaaia.f10002.mp4?dis_k=8db293794abb959e8ccf15398645b184&dis_t=1645152302&vid=wxv_2238615179200774145&format_id=10002&support_redirect=0&mmversion=false
附上会议演讲 PPT 下载链接:https://pan.baidu.com/s/1qhU7zB5NtfGx2G1eoNI3Ow 提取码:0kb4