多模态情感分析与抑郁症检测：MMIM 模型的创新与应用全景

用户11292525

发布于 2025-01-13 08:37:09

2280

文章被收录于专栏：学习学习

情感分析应用：多模态情感分析与抑郁症检测技术进展

一、引言

近年来，社交媒体的蓬勃发展以及智能手机摄像头质量的显著提升，推动了多模态数据呈爆炸式增长，涵盖电影、短视频等多种形式。在现实生活场景中，多模态数据主要源于视觉（图像）、听觉（语音）和转录文本三个渠道。这些数据往往蕴含着丰富的情感元素，而多模态情感分析（MSA）旨在挖掘并理解这些情感，已成为当下热门的研究领域。其重要性在于拥有诸多极具吸引力的应用场景，比如获取客户对产品的全面反馈，或衡量潜在投票者的投票意向等。通常，同一数据段中的不同模态相互补充，为语义和情感歧义的消除提供了更多线索。多模态融合作为 MSA 的核心环节，致力于从所有输入模态中提取并整合信息，以深入洞察数据背后的情感内涵。

与此同时，抑郁症给全球个人和社会带来了极为严重的负面影响。当前，抑郁症的诊断主要依赖问卷调查，并辅以医学专业评估。然而，问卷调查的准确性在很大程度上取决于参与者的配合程度以及操作人员的专业素养。近年来，基于人工智能的自动抑郁检测技术逐渐崭露头角。这些技术通常借助各种生理或行为数据，如面部表情、语音记录、文本和脑电图等，这些数据一般在参与者访谈过程中进行记录。在这些数据类型中，音频和文本数据相对易于获取，且蕴含着大量有关抑郁症状的信息。

在本研究中，我们聚焦于情感计算领域经典模型的分析、解读与总结。鉴于当前大多数情感计算数据集基于英文开发的现状，我们计划在后续系列文章中将中文数据集（SIMS、SIMSv2）应用于模型之中，致力于开发适用于国内人群的情感计算分析模型，并将其应用于情感疾病（如抑郁症、自闭症）检测任务，为医学心理学等领域提供有力支持。此外，我们还引入了幽默检测数据集，未来还计划纳入更多小众数据集，以便更精准地检测如嫉妒、嘲讽等较为隐匿的情感，从而使人工智能更好地服务于社会。

二、研究背景

在过去数年中，多模态情感分析（MSA）和抑郁症检测（DD）日益受到广泛关注。在多模态情感分析领域，模型性能在很大程度上取决于合成嵌入的质量。这些嵌入源自上游的多模态融合过程，其目的在于提取并联合处理输入的单峰原始数据，进而生成更为丰富的多模态表示。以往的研究主要通过反向传播任务损失或调整特征空间几何属性来获取较好的融合效果，但往往忽略了从输入到融合结果过程中关键任务相关信息的有效保存。

本文提出了一种多模态信息最大化框架 MMIM。该框架通过分层最大化单模态输入对（模态间）以及多模态融合结果与单模态输入之间的互信息，从而在多模态融合过程中有效保留与任务相关的信息。此框架与主任务（MSA）联合训练，旨在提升下游 MSA 任务的性能表现。为解决难以处理的 MI 界问题，我们进一步构建了一套计算简便的参数和非参数方法，以逼近其真实值。

三、主要贡献

提出了一种用于多模态情感分析的层次化 MI 最大化框架。在输入级和融合级进行 MI 最大化操作，有效减少了有价值的任务相关信息的损失。据我们所知，这是首次尝试在 MI 和 MSA 之间构建起联系的研究。
详细制定了框架中的计算细节，以解决棘手的问题。该公式涵盖了参数学习以及非参数 GMM 稳定和平滑的参数估计方法。
在两个公开数据集上开展了全面的实验，并取得了优于或与当前最先进模型相当的实验结果。

四、模型结构与代码

（一）总体框架

MMIM 模型首先运用特征提取器（针对视觉和声学的特定固件，无训练参数）和标记器（用于文本）将原始输入转换为数字序列向量。随后，将其编码为单位长度表示。接着，模型在两个协同部分（即 parts - fusion 和 MI 最大化）中运作，在图中分别由实线和虚线标识。在融合部分，由堆叠线性激活层构成的融合网络 F 将单峰表示转换为融合结果 Z，然后通过回归多层感知器（MLP）进行最终预测。这两个部分协同工作，产生用于反向传播的任务和 MI 相关损失，使模型能够学习将任务相关信息注入融合结果，从而提升主任务预测的准确性。

（二）模态编码器

我们首先将多模态顺序输入 Xm 编码为单位长度表示 hm。具体而言，采用 BERT 对输入句子进行编码，并从最后一层输出中提取头部嵌入作为 ht。对于视觉和声学模态，遵循先前研究成果，运用两个特定于模态的单向 LSTM 来捕捉这些模态的时间特征。

（三）模态间 MI 最大化

通过上述分析可知，我们期望借助在多模态输入之间提示 MI，过滤掉与任务无关的模态特定随机噪声，并尽可能多地保留跨所有模态的模态不变内容。如前所述，作者提出了一个易于处理的下限，而非直接计算 MI。具体利用了 Barber 和 Agakov 引入的精确且直接的 MI 下界。

（四）融合的 MI 最大化

为强化中间融合结果以捕获模态之间的模态不变线索，在融合结果和输入模态之间重复 MI 最大化操作。优化目标是生成融合结果的融合网络 F。由于我们已经构建了从 Z 的生成路径，因此期望构建一条反向路径，即从构造 m∈{t, v, a}。受 Oord 等人研究的启发但又有所不同，作者使用作用于归一化预测和真值向量的评分函数来衡量它们的相关性。

因为作者发现模型在未进行归一化时会试图拉伸两个向量以最大化得分。然后，与 Oord 等人的做法相同，将此评分函数纳入噪声对比估计框架，将同一批次中该模态的所有其他表示视为负样本。

以下是对这种方法合理性的简要解释。对比预测编码（CPC）通过对上下文和未来元素之间的 MI 在时间范围内进行评分，以保留跨越多个时间步长的“慢功能”部分。类似地，在 MMIM 模型中，要求融合结果 Z 反向预测“跨模态”的表示，以便能够将更多的模态不变信息传递给 Z。此外，通过将预测与每一种模态对齐，使模型能够确定从每一种模态接收信息的合适比例。

五、数据集介绍

CMU - MOSI：这是一个多模态数据集，涵盖文本、视觉和声学模态。它取材于 Youtube 上的 93 个电影评论视频，并被剪辑成 2199 个片段。每个片段均标注了[-3, 3]范围内的情感强度。该数据集分为训练集（1,284 段）、验证集（229 段）和测试集（686 段）三个部分。
CMU - MOSEI：与 CMU - MOSI 类似，但规模更大。它包含来自在线视频网站的 23,453 个注释视频片段，涉及 250 个不同主题和 1000 个不同演讲者。CMU - MOSEI 中的样本被标记为[-3, 3]范围内的情感强度和 6 种基本情绪，因此可用于情感分析和情感识别任务。
AVEC2019：AVEC2019 DDS 数据集源自患者临床访谈的视听记录，访谈由虚拟代理进行，以排除人为干扰。与上述两个数据集不同的是，AVEC2019 中的每种模态均提供了多种不同特征。例如，声学模态包括 MFCC、eGeMaps 以及由 VGG 和 DenseNet 提取的深度特征。在先前研究中发现，MFCC 和 AU 姿势分别是声学和视觉模态中最具鉴别力的特征。因此，为简便高效起见，我们仅使用 MFCC 和 AU 姿势特征来检测抑郁症。该数据集用区间[0, 24]内的 PHQ - 8 评分进行注释，PHQ - 8 评分越高，抑郁倾向越严重。此基准数据集中包含 163 个训练样本、56 个验证样本和 56 个测试样本。
SIMS/SIMSV2：CH - SIMS 数据集是一个中文多模态情感分析数据集，为每种模态提供了详细标注。该数据集包含 2281 个精选视频片段，这些片段取自各类电影、电视剧和综艺节目，每个样本均被赋予了从 - 1（极度负面）到 1（极度正面）的情感分数。

六、性能展示

在情感计算任务中，MMIN 模型展现出卓越性能，超越了其他同类模型，充分证明了其有效性。
在抑郁症检测任务中，MMIN 模型在我们的数据集 AVEC2019 中表现同样出色。

七、复现过程

在完成数据集准备并调试好代码后，执行以下步骤：

下载多模态情感分析集成包：pip install MMSA
进行训练：python -m MMSA -d mosi/dosei/avec -m mmim -s 1111 -s 1112

八、总结

（一）适用场景

情感驱动的内容生成：该模型可应用于情感驱动的内容生成任务，例如依据用户的情感状态生成契合其情绪的音频、图像或文本内容。这在个性化推荐系统和广告定制等领域具有潜在应用价值。
心理健康监测与干预：在心理健康领域，MMIM 模型能够用于抑郁倾向监测和情绪干预。通过对用户的语音、面部表情和文字信息进行分析，可以实现对心理健康问题的早期发现与处理，并提供个性化的支持与建议。
情感教育和人际关系：在教育和培训领域，MMIM 模型可用于情感教育和人际关系技能培训。通过模拟多模态情境并提供实时反馈，助力个体提升情感表达与沟通能力。