ACM MM 2020大奖项出炉！南开获最佳论文奖，西安交大获最佳学生论文奖

AI科技评论

发布于 2020-10-27 11:04:18

1.6K0

文章被收录于专栏：AI科技评论AI科技评论

作者 | 陈大鑫

刚刚！第28届ACM国际多媒体会议（ACM MM）最佳论文奖、最佳学生论文奖、最佳demo奖、最佳开源软件奖在内的所有多媒体领域大奖都已出炉。

其中最佳论文的一作是来自南开大学Hongru Liang，最佳学生论文的一作是来自西安交大的Wenbo Zheng。

1 ACM MM 2020大会整体情况

2020年ACM Multimedia（简称ACM MM）大会由阿里巴巴与意大利佩鲁贾大学和香港中文大学共同举办，阿里巴巴也是首个获得ACM MM主办权的中国企业。

由于疫情原因，2020年是ACM MM 自1993年以来第一次成为纯线上的会议。会议收录的论文成果提前录制成为视频，参会者可以不受时空限制，随时观看，论文作者将会通过线上会议的形式与参会者进行互动交流。

本届会议主会共收到论文投稿1694篇，与2019 年相比提升了 81%，也打破了ACM MM 会议的记录。

最终，会议共收录论文474（收录比约 27.9%）论文几乎触及了所有多媒体技术的研究领域。

内容覆盖Multimedia and Deep learning、 Multimedia Application、Emotional and Social Signals、Multimedia Interpretation等热门领域。

除论文外，Grand Challenge、Workshop、tutorial 等板块，为参会者提供了线上互动交流的广阔平台。

其中有54%的投稿来自中国，深度学习仍旧是最热门的话题领域，从视频内容理解到AI与美，从医疗到竞技体育，”改成 “从多媒体内容理解到搜索，从深度学习到深度挖掘，从媒体内容生成AI与美，从医疗健康到体育分析......

截止会议开始，大会注册人数1097 也是打破的ACM 会议的注册记录，疫情之下也是非常难得的。

大会网站：https://2020.acmmm.org/

大会组委会成员

本次大会荣誉主席：

本次大会主席：

其中阿里巴巴集团副总裁、达摩院城市大脑实验室负责人、IEEE Fellow 华先胜主要领导完成了所有线上会议的筹备工作。

2 最佳论文

论文题目：

《PiRhDy: Learning Pitch-, Rhythm-, and Dynamics-aware Embeddings for Symbolic Music 》

论文作者：Hongru Liang, Wenqiang Lei, Paul Yaozhu Chan, Zhenglu Yang, Maosong Sun, Tat-Seng Chua.

论文地址：https://dl.acm.org/doi/abs/10.1145/3394171.3414032

论文摘要：

目前，确定性嵌入仍然是计算音乐学中深度学习符号音乐的基本挑战。类似于自然语言，音乐可以被建模为token序列，这促使大多数现有的解决方案来探索利用词嵌入模型来构建音乐嵌入。

但是，音乐与自然语言有两个关键的区别:

（1）音乐token是多面性的，它包含了音高（pitch）、旋律（rhythm）和动态信息；

（2）音乐上下文（context）是二维的：每个音乐token都依赖于旋律（melodic）上下文和和声（harmonic）上下文。

在这项工作中，我们提供了一个全面的解决方案：名为PiRhDy的新框架，它无缝地集成了音高、旋律和动态信息。

PiRhDy采用一种分层（hierarchical）的策略，可分解为两个步骤:

（1） token建模，分开表示音高、旋律和动态信息，并将它们集成为单个token嵌入;

（2）上下文建模，利用旋律和和声知识训练token嵌入。

我们对PiRhDy的每个组件和子策略进行了深入研究，并在三个下游任务中进一步验证了嵌入的效果——旋律完成、伴奏建议、类型分类。

研究结果表明我们提出的PiRhDy是符号音乐神经方法的重要进展，也展现出PiRhDy作为广泛的符号音乐应用于预训练模型的潜力。

PiRhDy架构图：

融合模块图、局部context模块图：

3 最佳学生论文

论文题目：

《Learning from the Past: Meta-Continual Learning with Knowledge Embedding for Jointly Sketch, Cartoon, and Caricature Face Recognition》

论文作者：Wenbo Zheng, Lan Yan, Feiyue Wang, Chao Gou.

论文地址：https://dl.acm.org/doi/abs/10.1145/3394171.3413892

论文摘要：

本文通过解决抽象的素描，卡通，漫画和现实照片之间的人脸联合识别难题，解决了从不同模态学习的挑战性任务。由于抽象人脸的显著变化，建立视觉模型来识别这些模式中的数据是一项非常具有挑战性的工作。

我们提出了一种新的基于知识嵌入的元持续学习框架，用来解决素描、卡通和漫画人脸联合识别的任务。

首先，我们提出了一个深度关系网络来捕捉和记忆不同样本之间的关系。

其次，我们提出了将图像与标签联系起来的知识图谱的构建，作为元学习的指导。然后设计了一种知识嵌入机制，将知识表示融入到网络中。

最后，为了减轻灾难性遗忘，我们使用了一个元连续模型来更新我们的集成模型并提高其预测精度。有了这个元连续模型，我们的网络可以从过去的知识学进行学习。最后的分类是通过学习比较样本的特征从网络中获得。

实验结果表明，与其他SOTA方法相比，我们的方法取得了更好的性能。

网络框架：

4 最佳Demo奖

论文题目：

《Integrating Event Camera Sensor Emulator》

论文作者：Andrew C. Freeman, Ketan Mayer-Patel

论文地址：https://dl.acm.org/doi/pdf/10.1145/3394171.3414394

论文摘要：

事件摄像机是一种受生物启发的传感器，它颠覆了传统相机的框架式同步特性。Singh等人提出了一种新型的传感器设计，可以通过连续积分直接测量入射光值、单个像素的感光度可实时调整，从而实现极高的帧速和高动态范围的视频捕获。本文讨论了该传感器的潜在用途，介绍了一个从三维渲染输入图像模拟传感器事件输出和像素发射率控制的系统。

5 最佳开源软件奖

论文题目：

《Cottontail DB: An Open Source Database System for Multimedia Retrieval and Analysis》

论文作者：Ralph Gasser, Luca Rossetto, Silvan Heller, Heiko Schuldt

论文链接：https://dl.acm.org/doi/pdf/10.1145/3394171.3414538

开源代码：https://github.com/vitrivr/cottontaildb

论文摘要：

多媒体检索与分析是大数据研究的两个重要领域。

它们的共同点是使用特征向量作为媒体对象本身的代理。这些向量与元数据（如文本描述或数字）一起，完整地描述了一个媒体对象，因此必须同时考虑存储和检索。在本文中，我们介绍了Cottontail DB，这是一个开源的数据库管理系统，它在统一的数据和查询模型中集成了对标量和向量属性的支持，同时允许布尔检索和最近邻搜索。

我们展示了Cottontail数据库可以很好地扩展到大的集合和向量维度，并深入了解了它是如何被证明是各种用例（从MRI数据分析到实现文化遗产领域的检索解决方案）的有价值的工具。