近年来,社交媒体的蓬勃发展以及智能手机摄像头质量的显著提升,推动了多模态数据呈爆炸式增长,涵盖电影、短视频等多种形式。在现实生活场景中,多模态数据主要源于视觉(图像)、听觉(语音)和转录文本三个渠道。这些数据往往蕴含着丰富的情感元素,而多模态情感分析(MSA)旨在挖掘并理解这些情感,已成为当下热门的研究领域。其重要性在于拥有诸多极具吸引力的应用场景,比如获取客户对产品的全面反馈,或衡量潜在投票者的投票意向等。通常,同一数据段中的不同模态相互补充,为语义和情感歧义的消除提供了更多线索。多模态融合作为 MSA 的核心环节,致力于从所有输入模态中提取并整合信息,以深入洞察数据背后的情感内涵。
与此同时,抑郁症给全球个人和社会带来了极为严重的负面影响。当前,抑郁症的诊断主要依赖问卷调查,并辅以医学专业评估。然而,问卷调查的准确性在很大程度上取决于参与者的配合程度以及操作人员的专业素养。近年来,基于人工智能的自动抑郁检测技术逐渐崭露头角。这些技术通常借助各种生理或行为数据,如面部表情、语音记录、文本和脑电图等,这些数据一般在参与者访谈过程中进行记录。在这些数据类型中,音频和文本数据相对易于获取,且蕴含着大量有关抑郁症状的信息。
在本研究中,我们聚焦于情感计算领域经典模型的分析、解读与总结。鉴于当前大多数情感计算数据集基于英文开发的现状,我们计划在后续系列文章中将中文数据集(SIMS、SIMSv2)应用于模型之中,致力于开发适用于国内人群的情感计算分析模型,并将其应用于情感疾病(如抑郁症、自闭症)检测任务,为医学心理学等领域提供有力支持。此外,我们还引入了幽默检测数据集,未来还计划纳入更多小众数据集,以便更精准地检测如嫉妒、嘲讽等较为隐匿的情感,从而使人工智能更好地服务于社会。
在过去数年中,多模态情感分析(MSA)和抑郁症检测(DD)日益受到广泛关注。在多模态情感分析领域,模型性能在很大程度上取决于合成嵌入的质量。这些嵌入源自上游的多模态融合过程,其目的在于提取并联合处理输入的单峰原始数据,进而生成更为丰富的多模态表示。以往的研究主要通过反向传播任务损失或调整特征空间几何属性来获取较好的融合效果,但往往忽略了从输入到融合结果过程中关键任务相关信息的有效保存。
本文提出了一种多模态信息最大化框架 MMIM。该框架通过分层最大化单模态输入对(模态间)以及多模态融合结果与单模态输入之间的互信息,从而在多模态融合过程中有效保留与任务相关的信息。此框架与主任务(MSA)联合训练,旨在提升下游 MSA 任务的性能表现。为解决难以处理的 MI 界问题,我们进一步构建了一套计算简便的参数和非参数方法,以逼近其真实值。
MMIM 模型首先运用特征提取器(针对视觉和声学的特定固件,无训练参数)和标记器(用于文本)将原始输入转换为数字序列向量。随后,将其编码为单位长度表示。接着,模型在两个协同部分(即 parts - fusion 和 MI 最大化)中运作,在图中分别由实线和虚线标识。在融合部分,由堆叠线性激活层构成的融合网络 F 将单峰表示转换为融合结果 Z,然后通过回归多层感知器(MLP)进行最终预测。这两个部分协同工作,产生用于反向传播的任务和 MI 相关损失,使模型能够学习将任务相关信息注入融合结果,从而提升主任务预测的准确性。
我们首先将多模态顺序输入 Xm 编码为单位长度表示 hm。具体而言,采用 BERT 对输入句子进行编码,并从最后一层输出中提取头部嵌入作为 ht。对于视觉和声学模态,遵循先前研究成果,运用两个特定于模态的单向 LSTM 来捕捉这些模态的时间特征。
通过上述分析可知,我们期望借助在多模态输入之间提示 MI,过滤掉与任务无关的模态特定随机噪声,并尽可能多地保留跨所有模态的模态不变内容。如前所述,作者提出了一个易于处理的下限,而非直接计算 MI。具体利用了 Barber 和 Agakov 引入的精确且直接的 MI 下界。
为强化中间融合结果以捕获模态之间的模态不变线索,在融合结果和输入模态之间重复 MI 最大化操作。优化目标是生成融合结果的融合网络 F。由于我们已经构建了从 Z 的生成路径,因此期望构建一条反向路径,即从构造 m∈{t, v, a}。受 Oord 等人研究的启发但又有所不同,作者使用作用于归一化预测和真值向量的评分函数来衡量它们的相关性。
因为作者发现模型在未进行归一化时会试图拉伸两个向量以最大化得分。然后,与 Oord 等人的做法相同,将此评分函数纳入噪声对比估计框架,将同一批次中该模态的所有其他表示视为负样本。
以下是对这种方法合理性的简要解释。对比预测编码(CPC)通过对上下文和未来元素之间的 MI 在时间范围内进行评分,以保留跨越多个时间步长的“慢功能”部分。类似地,在 MMIM 模型中,要求融合结果 Z 反向预测“跨模态”的表示,以便能够将更多的模态不变信息传递给 Z。此外,通过将预测与每一种模态对齐,使模型能够确定从每一种模态接收信息的合适比例。
在完成数据集准备并调试好代码后,执行以下步骤:
pip install MMSA
python -m MMSA -d mosi/dosei/avec -m mmim -s 1111 -s 1112