每日学术速递2.17

AiCharm

发布于 2025-02-18 20:58:01

2360

文章被收录于专栏：AiCharmAiCharm

Subjects: cs.CV

1.MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency

标题： MME-CoT：在大型多模态模型中对思维链进行基准测试，以评估推理质量、鲁棒性和效率

作者：Dongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanwei Li, Yu Qi, Xinyan Chen, Liuhui Wang, Jianhan Jin, Claire Guo, Shen Yan, Bo Zhang, Chaoyou Fu, Peng Gao, Hongsheng Li

文章链接：https://arxiv.org/abs/2502.09621

项目代码：https://mmecot.github.io/

摘要：

用思维链（CoT）回答问题显着增强了大型语言模型的推理能力（）LLMs ，但其对大型多模态模型（LMM）的影响仍然缺乏系统的评估和深入的调查。在本文中，我们介绍了 MME-CoT，这是一个评估 LMM 的 CoT 推理性能的专业基准，跨越六个领域：数学、科学、OCR、逻辑、时空和一般场景。作为该领域的第一项全面研究，我们提出了一个全面的评估套件，其中包含三个新的指标，这些指标在细粒度的层面上评估推理质量、稳健性和效率。利用精选的高质量数据和独特的评估策略，我们对最先进的 LMM 进行了深入分析，揭示了几个关键见解：1）具有反射机制的模型表现出卓越的 CoT 质量，Kimi k1.5 的性能优于 GPT-4o 并展示了最高质量的结果;2） CoT 提示通常会降低 LMM 在感知密集型任务上的表现，表明存在可能有害的过度思考行为;3）尽管 CoT 质量很高，但具有反射的 LMM 在正常响应和自校正阶段都表现出明显的低效率。我们希望 MME-CoT 能成为在 LMM 中推进多模态推理的基础。

这篇论文试图解决什么问题？

这篇论文提出了一个名为 **MME-CoT**（Multimodal Chain-of-Thought）的基准测试，旨在系统评估大型多模态模型（LMMs）在推理质量、鲁棒性和效率方面的链式思考（Chain-of-Thought，CoT）能力。具体而言，论文试图解决以下三个关键问题：

推理质量（CoT Quality）：
- 每个中间的 CoT 步骤是否逻辑上有效且没有幻觉（hallucination）？
- 如何量化模型推理过程中的信息量和准确性？
推理鲁棒性（CoT Robustness）：
- CoT 是否会干扰感知任务，或者在多大程度上增强推理任务？
- 在需要最少推理的感知任务中，CoT 是否会带来负面影响？
推理效率（CoT Efficiency）：
- 如何评估 CoT 在长推理过程中的效率？
- 模型生成的 CoT 内容中有多少是真正有助于回答问题的？

通过这些问题，论文希望为多模态推理领域提供一个全面的评估框架，以便更好地理解和改进 LMMs 的推理能力。

论文如何解决这个问题？

论文通过以下方法来解决评估大型多模态模型（LMMs）在推理质量、鲁棒性和效率方面的链式思考（CoT）能力的问题：

1. 提出 MME-CoT 基准测试

MME-CoT 是一个专门的基准测试，涵盖了六个领域：数学、科学、OCR、逻辑、时空和一般场景。这些领域包含了广泛的 CoT 相关场景，旨在全面评估 LMMs 的推理能力。

2. 构建高质量数据集

数据组成和分类：MME-CoT 包含 1,130 个问题，其中 837 个是推理问题，293 个是感知问题。数据集通过严格的标注和人工验证过程构建，确保高质量。
关键步骤标注：为了支持 CoT 评估，论文为每个推理问题提供了关键步骤标注和参考图像描述。这些标注帮助评估模型的推理过程是否符合逻辑。

3. 设计全面的 CoT 评估框架

论文提出了一个包含三个新指标的评估框架，分别从推理质量、鲁棒性和效率三个维度进行评估：

推理质量（CoT Quality）

Recall（召回率）：衡量模型生成的推理步骤中包含多少关键步骤，反映推理的全面性。
Precision（精确率）：衡量模型生成的推理步骤中有多少是准确的，反映推理的准确性。
F1 Score：综合召回率和精确率，评估 CoT 的整体质量。

推理鲁棒性（CoT Robustness）

Stability（稳定性）：比较模型在感知任务上使用 CoT 提示和直接提示时的性能差异，评估 CoT 是否会干扰感知任务。
Efficacy（效能）：比较模型在推理任务上使用 CoT 提示和直接提示时的性能差异，评估 CoT 对推理任务的增强效果。

推理效率（CoT Efficiency）

Relevance Rate（相关性比率）：衡量模型生成的 CoT 中有多少内容与回答问题相关，评估 CoT 的效率。
Reflection Quality（反思质量）：评估模型的反思步骤是否有助于纠正错误或验证结论，反映反思的有效性。

4. 进行广泛的实验和分析

论文选择了多种最先进的 LMMs 进行评估，包括开源和闭源模型。通过这些模型在 MME-CoT 基准测试上的表现，论文揭示了以下关键发现：

具有反思机制的模型在 CoT 质量上表现更好，例如 Kimi k1.5 在 CoT 质量上超过了 GPT-4o。
CoT 提示在感知任务上往往会降低模型性能，表明可能存在过度思考的问题。
尽管 CoT 质量较高，但具有反思机制的模型在正常响应和自我纠正阶段表现出显著的效率低下。

5. 提供有价值的见解和建议

论文总结了实验结果，提出了对当前 LMMs 的关键见解，并指出了改进的方向。这些见解有助于指导未来的研究，推动多模态推理能力的发展。

通过上述方法，论文不仅提供了一个全面的评估框架，还通过实验验证了其有效性，为多模态推理领域的发展提供了重要的基础。

论文做了哪些实验？

论文中进行了以下实验：

实验设置

评估模型：选择了多种最先进的大型多模态模型（LMMs），包括开源和闭源模型。具体模型如下：
- 开源模型：LLaVA-OneVision (7B, 72B)、Qwen2-VL (7B, 72B)、MiniCPM-V2.6、InternVL2.5 (8B)、LLaVA-CoT (11B)、Mulberry (8B)、InternVL2.5-MPO (8B, 78B)、QVQ-72B、Virgo-72B。
- 闭源模型：GPT-4o、Kimi k1.5。
数据集：使用 MME-CoT 数据集，包含 1,130 个问题，其中 837 个是推理问题，293 个是感知问题。
提示策略：使用两种提示策略：
- 直接提示（Direct Prompt）：要求模型直接提供最终答案。
- CoT 提示（CoT Prompt）：要求模型进行逐步推理并最终给出答案。

实验结果

1. CoT 质量评估

Recall 和 Precision：通过 GPT-4o 检查模型生成的 CoT 中是否包含关键步骤，并计算 Recall 和 Precision。
F1 Score：综合 Recall 和 Precision，评估 CoT 的整体质量。
结果：Kimi k1.5 在 CoT 质量上表现最佳，F1 分数为 64.2%。QVQ-72B 和 Virgo-72B 也表现出色，分别达到了 62.0% 和 60.8%。GPT-4o 的 F1 分数为 64.0%。

2. CoT 鲁棒性评估

Stability：比较模型在感知任务上使用 CoT 提示和直接提示时的性能差异。
Efficacy：比较模型在推理任务上使用 CoT 提示和直接提示时的性能差异。
结果：GPT-4o 在鲁棒性上表现最佳，平均得分为 2.1%。Mulberry 在感知任务上表现出色，但其直接提示策略导致了大量非理性输出。InternVL2.5-MPO (8B 和 78B) 是唯一表现出正鲁棒性得分的开源模型。

3. CoT 效率评估

Relevance Rate：评估模型生成的 CoT 中有多少内容与回答问题相关。
Reflection Quality：评估模型的反思步骤是否有助于纠正错误或验证结论。
结果：InternVL2.5-8B 在相关性比率上表现最佳，达到了 98.4%。Kimi k1.5 在反思质量上表现最佳，达到了 92.2%。然而，QVQ 和 Virgo 的反思质量仅为 61.7% 和 60.6%，表明大约 40% 的反思步骤未能有效帮助回答问题。

关键发现

反思机制显著提升 CoT 质量：具有反思机制的模型（如 QVQ 和 Kimi k1.5）在 CoT 质量上表现优于其他模型。
CoT 对感知任务的负面影响：大多数模型在感知任务上使用 CoT 提示时表现下降，表明 CoT 可能导致过度思考。
模型规模与推理能力的关系：参数更多的模型在推理任务上表现更好，但 CoT 效率仍有待提高。
长 CoT 模型的效率问题：长 CoT 模型在生成大量内容时，可能会引入与问题无关的信息，降低效率。

实验结论

论文通过系统评估和分析，揭示了当前 LMMs 在 CoT 推理方面的关键问题，并提出了改进方向。MME-CoT 基准测试为多模态推理领域提供了一个全面的评估工具，有助于推动未来的研究和模型开发。

论文的主要内容：

这篇论文的核心内容是介绍了一个名为 **MME-CoT**（Multimodal Chain-of-Thought）的基准测试，旨在系统评估大型多模态模型（LMMs）在推理质量、鲁棒性和效率方面的链式思考（CoT）能力。论文通过构建高质量的数据集和设计全面的评估框架，对多种最先进的 LMMs 进行了深入分析，揭示了当前模型在 CoT 推理方面的问题，并提出了改进方向。

背景知识

链式思考（CoT）：在大型语言模型（LLMs）中，CoT 通过逐步推理过程显著提升了模型的推理能力。然而，CoT 在大型多模态模型（LMMs）中的影响尚未得到系统评估。
多模态模型（LMMs）：LMMs 在视觉领域表现出色，但 CoT 推理对多模态任务的影响仍是一个开放问题。

研究方法

MME-CoT 基准测试：涵盖了六个领域（数学、科学、OCR、逻辑、时空和一般场景），包含 1,130 个问题，其中 837 个是推理问题，293 个是感知问题。
数据集构建：通过严格的标注和人工验证过程，为每个推理问题提供了关键步骤标注和参考图像描述。
评估框架：提出了三个新指标来评估 CoT 的质量、鲁棒性和效率：
- CoT 质量：通过 Recall 和 Precision 评估推理的全面性和准确性。
- CoT 鲁棒性：通过 Stability 和 Efficacy 评估 CoT 在感知任务和推理任务上的影响。
- CoT 效率：通过 Relevance Rate 和 Reflection Quality 评估生成内容的相关性和反思步骤的有效性。

实验

评估模型：选择了多种最先进的 LMMs，包括开源和闭源模型，如 GPT-4o、Kimi k1.5、QVQ-72B、Virgo-72B 等。
提示策略：使用直接提示（Direct Prompt）和 CoT 提示（CoT Prompt）两种策略，比较模型在不同提示下的表现。
结果分析：
- CoT 质量：Kimi k1.5 在 CoT 质量上表现最佳，F1 分数为 64.2%。QVQ-72B 和 Virgo-72B 也表现出色。
- CoT 鲁棒性：GPT-4o 在鲁棒性上表现最佳，平均得分为 2.1%。大多数模型在感知任务上使用 CoT 提示时表现下降。
- CoT 效率：InternVL2.5-8B 在相关性比率上表现最佳，达到了 98.4%。Kimi k1.5 在反思质量上表现最佳，达到了 92.2%。

关键结论

反思机制显著提升 CoT 质量：具有反思机制的模型（如 QVQ 和 Kimi k1.5）在 CoT 质量上表现优于其他模型。
CoT 对感知任务的负面影响：大多数模型在感知任务上使用 CoT 提示时表现下降，表明 CoT 可能导致过度思考。
模型规模与推理能力的关系：参数更多的模型在推理任务上表现更好，但 CoT 效率仍有待提高。
长 CoT 模型的效率问题：长 CoT 模型在生成大量内容时，可能会引入与问题无关的信息，降低效率。

进一步探索的方向

改进反思机制：减少无效反思，提高反思质量。
增强 CoT 鲁棒性：开发更智能的任务分类方法，减少 CoT 对感知任务的负面影响。
提升 CoT 效率：研究如何让模型在生成 CoT 时更有效地筛选出与问题无关的内容。
模型架构改进：将 CoT 推理模块化，提高模型的整体性能和可扩展性。
数据集和评估方法：构建更广泛的数据集，开发动态评估方法，提供更准确的性能评估。
应用场景拓展：将 CoT 推理应用于实际场景，如医疗诊断、自动驾驶等，探索其在复杂现实问题中的表现和潜在改进方向。

通过这些研究和改进，可以推动多模态模型在 CoT 推理方面的进步，提高其在实际应用中的表现和可靠性。

2.Exploring the Potential of Encoder-free Architectures in 3D LMMs

标题：探索 3D LMM 中无编码器架构的潜力

作者：Yiwen Tang, Zoey Guo, Zhuhao Wang, Ray Zhang, Qizhi Chen, Junli Liu, Delin Qu, Zhigang Wang, Dong Wang, Xuelong Li, Bin Zhao

文章链接：https://arxiv.org/abs/2502.09620

项目代码：https://github.com/Ivan-Tang-3D/ENEL

摘要：

无编码器架构在 2D 视觉领域已经初步探索，但它们能否有效地应用于 3D 理解场景仍然是一个悬而未决的问题。在本文中，我们首次全面研究了无编码器架构在克服基于编码器的 3D 大型多模态模型（LMM）挑战方面的潜力。这些挑战包括无法适应不同的点云分辨率，以及编码器的点特征无法满足大型语言模型的语义需求（LLMs）。我们确定了 3D LMM 移除编码器并使其LLM能够承担 3D 编码器角色的关键方面：1）我们在预训练阶段提出了 LLM-embedded Semantic Encoding 策略，探索各种点云自监督损失的影响。我们提出了 Hybrid Semantic Loss 来提取高级语义。2）我们在指令调整阶段引入了 Hierarchical Geometry Aggregation 策略。这将归纳偏差合并到LLM早期层中，以专注于点云的局部细节。最后，我们推出了第一款无编码器 3D LMM，即 ENEL。我们的 7B 模型可与当前最先进的模型 ShapeLLM-13B 相媲美，在分类、字幕和 VQA 任务上分别实现了 55.0%、50.92% 和 42.7%。我们的结果表明，无编码器架构在 3D 理解领域取代基于编码器的架构方面非常有希望。

这篇论文试图解决什么问题？

这篇论文试图探索无编码器（encoder-free）架构在三维（3D）大型多模态模型（Large Multimodal Models, LMMs）中的潜力，以解决基于编码器的3D LMMs面临的挑战。具体来说，论文关注的挑战包括：

点云分辨率限制：3D编码器通常在固定分辨率的点云数据上进行预训练，但在推理时点云的分辨率可能会有所不同。这种训练和推理分辨率之间的差异可能导致空间信息的丢失，从而使得大型语言模型（LLMs）难以理解3D对象。
嵌入语义差异：3D编码器通常使用自监督方法（如掩码自编码器MAE和对比学习）进行预训练，但这些训练目标可能与LLMs的具体语义需求不一致。换句话说，这些编码器可能无法捕捉到对LLMs理解3D对象最有帮助的语义信息。

为了解决这些问题，论文提出了两个关键策略：LLM嵌入语义编码（LLM-embedded Semantic Encoding）和层次几何聚合（Hierarchical Geometry Aggregation），并展示了这些策略在无编码器架构中的有效性。

论文如何解决这个问题？

为了解决基于编码器的3D LMMs面临的挑战，论文提出了两个关键策略：LLM嵌入语义编码（LLM-embedded Semantic Encoding）和层次几何聚合（Hierarchical Geometry Aggregation）。以下是这两个策略的详细描述：

LLM嵌入语义编码（LLM-embedded Semantic Encoding）

在预训练阶段，论文提出了LLM嵌入语义编码策略，以补偿移除3D编码器后丢失的高级语义信息。具体步骤如下：

改进的标记嵌入模块：采用一个轻量级的网络（基于Point-PN的变体）来捕获尽可能多的语义信息。该模块通过远点采样（Farthest Point Sampling, FPS）和k-最近邻（k-Nearest Neighbor, k-NN）聚合来提取局部特征，并通过可学习的线性层进行特征编码。
使LLM的早期层可学习：在预训练阶段，将LLM的前K层设置为可学习的，利用自注意力机制捕获全局几何结构。实验表明，将前4层设置为可学习的能够以较高的计算效率将低级特征编码为高级表示。
混合语义损失（Hybrid Semantic Loss）：探索了多种点云自监督损失函数（如掩码建模损失、重建损失、对比损失和知识蒸馏损失），并最终提出了混合语义损失。该损失函数结合了掩码建模和重建策略，既嵌入了高级语义，又确保了点云学习过程中的几何一致性。

层次几何聚合（Hierarchical Geometry Aggregation）

在指令微调阶段，论文引入了层次几何聚合策略，以将归纳偏差整合到LLM中，使其能够更好地感知3D几何结构。具体实现如下：

几何聚合操作：从LLM的第二层开始，基于点云坐标对输入点标记进行下采样，使用FPS将标记数量减半，并使用k-NN算法获取中心点的邻近点。然后，应用门控自注意力机制处理邻近点的内部交互，捕获局部几何结构。
特征融合与传播：通过池化操作将邻近点的特征融合到中心标记中，形成聚合标记。经过一定数量的聚合操作后，将聚合特征传播回原始分布，以保持细粒度的表示，从而实现对局部细节的捕获和全局语义的理解。
实验验证：通过实验验证了聚合和传播操作的数量、LLM层的数量以及门控自注意力机制对性能的影响。结果表明，适当的层次设计有助于模型获取多级知识，并更好地理解复杂点云的3D几何结构。

通过这两个策略，论文成功地将3D编码器的功能转移到了LLM本身，从而在不使用3D编码器的情况下实现了与现有基于编码器的模型相当的性能。

论文做了哪些实验？

论文中进行了以下实验来验证提出的策略和模型的有效性：

1. Token Embedding 模块的性能测试

实验目的：验证不同深度的 Token Embedding 模块对模型性能的影响。
实验设置：使用 PointLLM-7B 作为基线模型，在 Objaverse 数据集上评估分类和描述任务的性能。
实验结果：
- 不使用编码器时，仅使用原始 Token Embedding 模块，分类和描述任务的 GPT-4 分数分别下降了 17.5% 和 10.48%。
- 使用 2 层 Token Embedding 模块，分类和描述任务的 GPT-4 分数分别为 42.50% 和 41.35%。
- 使用 3 层 Token Embedding 模块，分类和描述任务的 GPT-4 分数分别为 47.31% 和 43.86%。
- 使用 4 层 Token Embedding 模块，分类和描述任务的 GPT-4 分数分别为 45.00% 和 42.99%。
结论：3 层 Token Embedding 模块在性能上表现最佳，能够提供足够的局部特征信息给 LLM。

2. LLM 早期层的可学习性测试

实验目的：验证使 LLM 的早期层可学习对模型性能的影响。
实验设置：在预训练阶段，将 LLM 的前 K 层设置为可学习的，并测试不同 K 值和学习率对性能的影响。
实验结果：
- 设置前 2 层可学习时，分类和描述任务的 GPT-4 分数分别为 41.06% 和 42.23%。
- 设置前 4 层可学习时，分类和描述任务的 GPT-4 分数分别为 49.11% 和 45.39%。
- 设置前 8 层可学习时，分类和描述任务的 GPT-4 分数分别为 48.00% 和 44.49%。
结论：设置前 4 层可学习时，模型性能最佳。较小的学习率（4e-4）通常能带来更好的结果，因为它使优化过程更加稳定。

3. 不同自监督损失函数的测试

实验目的：探索不同自监督损失函数对无编码器 3D LMM 的影响。
实验设置：在预训练阶段，分别使用掩码建模损失、重建损失、对比损失和知识蒸馏损失，并测试它们对分类和描述任务的性能影响。
实验结果：
- 掩码建模损失：分类和描述任务的 GPT-4 分数分别为 49.50% 和 47.35%。
- 重建损失：分类和描述任务的 GPT-4 分数分别为 49.50% 和 46.96%。
- 对比损失：分类和描述任务的 GPT-4 分数分别为 43.50% 和 42.91%。
- 知识蒸馏损失：分类和描述任务的 GPT-4 分数分别为 49.50% 和 45.43%。
结论：掩码建模损失和重建损失对性能提升最为显著，而对比损失的效果最差。基于这些结果，提出了混合语义损失（Hybrid Semantic Loss），它结合了掩码建模和重建策略，进一步提升了性能。

4. 层次几何聚合策略的测试

实验目的：验证层次几何聚合策略在指令微调阶段的有效性。
实验设置：在 LLM 的早期层中应用聚合和传播操作，测试不同聚合和传播次数（l）、LLM 层的数量（H）以及门控自注意力机制对性能的影响。
实验结果：
- 聚合和传播次数 l：当 l = 1 时，分类和描述任务的 GPT-4 分数分别为 53.50% 和 49.13%；当 l = 2 时，性能下降。
- LLM 层的数量 H：当 H = 2 时，性能最佳，分类和描述任务的 GPT-4 分数分别为 53.50% 和 49.13%。
- 门控自注意力机制：引入门控自注意力机制后，分类和描述任务的 GPT-4 分数分别提升至 55.00% 和 50.92%。
结论：层次几何聚合策略能够有效地使 LLM 捕获局部几何结构，提升模型对 3D 数据的理解能力。

5. ENEL 模型的整体性能测试

实验目的：验证提出的 ENEL 模型在 3D 理解任务上的整体性能。
实验设置：在 Objaverse 数据集上评估 ENEL-7B 在分类、描述和 3D-VQA 任务上的性能，并与现有的基于编码器的模型进行比较。
实验结果：
- 分类任务：ENEL-7B 的 GPT-4 分数为 55.00%，超过了 PointLLM-7B 的 53.00%。
- 描述任务：ENEL-7B 的 GPT-4 分数为 50.92%，超过了 PointLLM-7B 的 44.85%。
- 3D-VQA 任务：ENEL-7B 的 GPT-4 分数为 42.70%，超过了 PointLLM-7B 的 41.20%。
结论：ENEL 模型在不使用 3D 编码器的情况下，实现了与现有基于编码器的模型相当甚至更好的性能，证明了无编码器架构在 3D LMM 领域的潜力。

6. 可视化实验

实验目的：通过可视化展示无编码器架构与基于编码器架构在语义编码方面的差异。
实验设置：选择 Objaverse 数据集中的椅子、飞机和台灯三种对象类别，可视化平均文本标记与点标记之间的注意力分数。
实验结果：在基于编码器的 3D LMM 中，文本标记与处理后的点标记之间的语义相关性较低。而在 ENEL 中，文本标记与关键几何结构（如椅子的靠背、飞机的机翼和台灯的灯罩）之间的相关性较高。
结论：无编码器架构能够更好地将文本和 3D 数据的特征对齐，提高跨模态的语义相关性。

论文的主要内容：

本文是关于无编码器架构在三维（3D）大型多模态模型（LMMs）中应用的首次全面研究。研究的核心目标是探索无编码器架构是否能够有效应用于3D理解场景，以解决基于编码器的3D LMMs面临的挑战，例如点云分辨率限制和编码器输出的点特征无法满足大型语言模型（LLMs）的语义需求。研究的主要贡献和发现如下：

背景知识

大型语言模型（LLMs）：LLMs在理解和生成复杂语言场景方面表现出色，基于此，研究者们开发了LMMs，使LLMs能够解释多模态信息，如2D图像和3D点云。
主流LMMs的局限性：主流的LMMs通常依赖于强大的多模态编码器，如CLIP（用于2D图像）和I2P-MAE（用于3D点云）。这些编码器虽然提供了丰富的多模态嵌入，但也带来了诸如点云分辨率限制和嵌入语义差异等问题。

研究方法

无编码器架构的探索：研究者们提出了无编码器架构，直接将点云数据通过一个轻量级的标记嵌入模块转换为离散的点标记，然后将这些点标记与文本标记拼接，作为LLM的输入。
LLM嵌入语义编码策略：在预训练阶段，研究者们提出了LLM嵌入语义编码策略，通过探索不同的点云自监督损失函数（如掩码建模损失、重建损失、对比损失和知识蒸馏损失），并最终提出了混合语义损失（Hybrid Semantic Loss），以补偿移除3D编码器后丢失的高级语义信息。
层次几何聚合策略：在指令微调阶段，研究者们引入了层次几何聚合策略，通过在LLM的早期层中聚合和传播点标记，将归纳偏差整合到LLM中，使其能够更好地感知3D几何结构。

实验

Token Embedding模块的性能测试：通过实验发现，使用3层的Token Embedding模块能够提供最佳的局部特征信息给LLM。
LLM早期层的可学习性测试：实验表明，将LLM的前4层设置为可学习的能够以较高的计算效率将低级特征编码为高级表示。
不同自监督损失函数的测试：掩码建模损失和重建损失对性能提升最为显著，而对比损失的效果最差。基于这些结果，提出的混合语义损失进一步提升了性能。
层次几何聚合策略的测试：层次几何聚合策略能够有效地使LLM捕获局部几何结构，提升模型对3D数据的理解能力。
ENEL模型的整体性能测试：ENEL模型在不使用3D编码器的情况下，实现了与现有基于编码器的模型相当甚至更好的性能，证明了无编码器架构在3D LMM领域具有巨大潜力。

关键结论

无编码器架构的有效性：无编码器架构能够有效地应用于3D LMMs，通过将3D编码器的功能转移到LLM本身，可以补偿因移除3D编码器而导致的性能下降。
LLM嵌入语义编码和层次几何聚合策略的有效性：提出的LLM嵌入语义编码和层次几何聚合策略能够有效地嵌入高级点云语义，同时捕获关键的局部信息。
ENEL模型的性能：ENEL模型在3D分类、描述和3D-VQA任务上取得了与现有基于编码器的模型相当甚至更好的性能，表明无编码器架构在3D LMM领域具有广阔的应用前景。

总结

本文通过系统的分析和实验，展示了无编码器架构在3D LMMs领域的潜力，并提出了有效的策略来实现这一架构。ENEL模型的成功表明，无编码器架构可以作为一种可扩展且有效的路径，用于将3D理解能力集成到LLMs中。

3.RigAnything: Template-Free Autoregressive Rigging for Diverse 3D Assets

标题： RigAnything：适用于各种 3D 资产的无模板自回归索具

作者：Isabella Liu, Zhan Xu, Wang Yifan, Hao Tan, Zexiang Xu, Xiaolong Wang, Hao Su, Zifan Shi

文章链接：https://arxiv.org/abs/2502.09615

项目代码：https://www.liuisabella.com/RigAnything

摘要：

我们介绍了 RigAnything，这是一种基于变压器的新型自回归模型，它通过概率生成关节、骨架拓扑并以无模板的方式分配蒙皮权重，使 3D 资产可用于装配。与大多数现有的自动绑定方法不同，这些方法依赖于预定义的骨架模板，并且仅限于特定类别（如人形），而 RigAnything 以自回归的方式处理绑定问题，根据全局输入形状和之前的预测迭代预测下一个关节。虽然自回归模型通常用于生成顺序数据，但 RigAnything 扩展了其应用程序以有效地学习和表示骨骼，这些骨骼本质上是树结构。为了实现这一点，我们按广度优先搜索（BFS）顺序组织关节，使骨架能够定义为 3D 位置和父索引序列。此外，我们的模型通过利用扩散建模提高了位置预测的准确性，确保关节在层次结构中的精确和一致放置。此公式允许自回归模型有效地捕获骨架内的空间和层次关系。RigAnything 在 RigNet 和 Objaverse 数据集上进行了端到端训练，在各种对象类型（包括类人生物、四足动物、海洋生物、昆虫等）中展示了最先进的性能，在质量、稳健性、泛化性和效率方面超越了以前的方法。请查看我们的网站了解更多详情：此 https URL。

这篇论文试图解决什么问题？

这篇论文提出了一个名为 RigAnything 的新型自动骨骼绑定（auto-rigging）方法，旨在解决如何为多样化 3D 资产自动生成骨骼和蒙皮权重的问题。具体来说，它试图解决以下几个关键问题：

模板依赖限制 ：以往的自动骨骼绑定方法大多依赖预定义的骨骼模板，这使得它们只能应用于特定类别（如类人角色）的 3D 模型，限制了方法的泛化能力。RigAnything 采用无模板的方式，能够处理各种类型的 3D 资产，包括类人角色、四足动物、海洋生物、昆虫等。
骨骼结构的复杂性和模糊性 ：骨骼结构本质上是树状结构，存在多种可能的拓扑结构，且在广度优先搜索（BFS）排序过程中，同一深度的节点顺序不确定，导致了所谓的“兄弟节点模糊性”和“拓扑模糊性”。该方法通过自回归建模和扩散模型来处理这些模糊性，能够以概率分布的形式表示关节配置，从而更好地捕捉骨骼结构的不确定性。
骨骼位置的连续性预测 ：传统的自回归模型通常用于处理离散值，而在骨骼位置预测中，关节位置是连续的。论文中采用扩散采样过程来预测连续值的关节位置，提高了位置预测的准确性。
蒙皮权重的精确分配 ：蒙皮权重决定了骨骼对表面点的影响程度，对于实现自然的动画效果至关重要。RigAnything 通过考虑所有关节与表面点之间的关系，以成对计算的方式推断蒙皮权重，从而为不同表面样本分配合适的蒙皮权重。
多样性和泛化能力 ：现有的自动骨骼绑定方法在处理不同类别、不同姿态的 3D 模型时往往表现不佳。RigAnything 通过在 RigNet 数据集和经过精心筛选的 Objaverse 数据集上进行端到端训练，涵盖了广泛的对象类型和初始姿态，从而实现了在多样化 3D 资产上的泛化能力。

论文如何解决这个问题？

论文通过提出 RigAnything 方法来解决自动骨骼绑定问题，其主要思路和关键步骤如下：

自回归骨骼预测（Autoregressive Skeleton Prediction）

自回归建模 ：将骨骼结构表示为一个序列，采用广度优先搜索（BFS）顺序对关节进行排序，将树状结构的骨骼转换为序列形式。每个关节由 3D 位置和父节点索引定义，模型通过自回归的方式，基于已预测的关节和全局输入形状，迭代预测下一个关节的位置和父节点索引。
关节位置预测的扩散模型 ：为了解决自回归模型在连续值预测上的局限性，采用扩散采样过程来预测关节位置。扩散模型通过逐步添加高斯噪声来生成噪声版本的关节位置，然后训练一个噪声估计器，根据当前的扩散时间步和上下文信息来预测添加的噪声。在推理时，通过逆向扩散过程逐步去除噪声，从而采样得到下一个关节位置。
连接性预测 ：在得到下一个关节位置后，通过一个连接性模块来预测该关节与其祖先关节之间的连接关系。该模块基于更新后的上下文信息和每个已预测的骨骼标记来计算父关节的概率分布，并使用二元交叉熵损失进行监督学习。

蒙皮权重预测（Skinning Prediction）

蒙皮权重计算 ：蒙皮权重由一个矩阵表示，每个元素表示某个关节对某个表面点的影响程度。对于每个表面点，蒙皮权重向量需要满足归一化和非负的约束条件。通过一个蒙皮预测模块，输入形状标记和骨骼标记，输出每个关节对该表面点的预测影响分数，然后使用 softmax 函数计算最终的蒙皮权重。
损失函数 ：采用加权交叉熵损失进行训练，其中真实蒙皮权重作为权重因子，使得模型能够为具有较大真实蒙皮权重的关节产生更高的概率，从而与每个点的正确影响对齐。

自回归 Transformer 架构（Autoregressive Transformer Architecture）

标记化（Tokenization） ：对于形状数据，采样表面点并将其与对应的法线拼接，形成初始的形状标记，然后通过多层感知机（MLP）将其映射到更高维度的空间。对于骨骼数据，先将每个关节位置及其父关节位置通过 MLP 映射到高维空间，再与位置嵌入拼接，最后通过 MLP 得到每个关节的骨骼标记。
Transformer 处理标记 ：将形状标记和已预测的骨骼标记拼接，作为一系列标记输入到 Transformer 块中。Transformer 中的多头自注意力机制使得骨骼标记和形状标记能够相互了解对方的特征，从而捕捉到丰富的全局信息和形状上下文与骨骼结构之间的相互依赖性。采用混合注意力机制，形状标记之间进行全自注意力操作以捕捉全局几何上下文，骨骼标记则先关注所有形状标记，再在其内部应用因果注意力，以保持自回归生成所需的顺序性。
端到端训练 ：整个模型端到端训练，将关节位置、连接性和蒙皮权重的损失结合起来，使网络能够同时学习连贯的骨骼结构和准确的蒙皮分配。

通过上述方法，RigAnything 能够为各种 3D 资产自动生成骨骼和蒙皮权重，无需依赖预定义的骨骼模板，具有更好的泛化能力和鲁棒性。

论文做了哪些实验？

论文中进行了以下实验：

实现细节（Implementation Details）

输入点云包含 1024 个点，每个样本的最大关节数设置为 64。
点云和关节标记器实现为具有隐藏维度 512 和 1024 的两层 MLP。
父节点和蒙皮预测模块均采用隐藏维度为 1024 的两层 MLP。
Transformer 包含 12 层，隐藏维度为 1024，每层 Transformer 块包含 16 个头的多头自注意力层和隐藏维度为 4096 的两层 MLP，以及 GeLU 激活函数。
在训练过程中，采用混合注意力掩码策略，形状标记进行自注意力操作以有效捕捉几何信息，而骨骼标记使用因果注意力，仅关注其在序列中的祖先骨骼标记以促进自回归生成。此外，骨骼标记还关注所有形状标记。
在推理过程中，网络以形状标记作为输入，并以自回归的方式生成骨骼标记。
关节扩散过程遵循相关工作，具有 1000 个训练步骤和 300 个推理过程中的重采样步骤。去噪 MLP 以 Transformer 输出的关节标记为条件，这些标记通过 AdaLN 在层归一化层的时间嵌入中进行整合。
融合模块是具有输入大小 3072 和隐藏维度 2048 和 1024 的两层 MLP。在推理过程中，在通过扩散采样获得下一个关节位置后，形状标记器生成一个潜在形状标记（维度 1024），将其与之前的上下文标记（维度 1024）和位置嵌入拼接。融合模块的输出用作连接性和蒙皮预测的更新上下文。
连接性和蒙皮模块与融合模块具有相似的架构，只是它们的输入大小为 2048。

数据集（Dataset）

使用了 RigNet 数据集和 Objaverse 数据集。RigNet 数据集包含 2354 个具有真实骨骼和蒙皮注释的高质量 3D 模型。Objaverse 数据集提供了大量 3D 模型，但其骨骼绑定质量参差不齐。为了确保数据可靠性，从 Objaverse 数据集中筛选出 9686 个具有准确骨骼和蒙皮信息的模型。
数据集涵盖了广泛的对象类别，包括双足、四足、禽类、海洋生物、昆虫类以及可操作的刚体对象。对于每个模型，从网格表面采样点云和面法线。在训练过程中，通过使用真实骨骼和蒙皮对输入点云进行随机变形来进行在线数据增强，如消融研究和图 6 所示，这种增强提高了方法对不同姿态对象的泛化能力。

评估和基线比较（Evaluation and Baseline Comparisons）

骨骼预测（Skeleton Prediction） ：与真实值和 RigNet 进行了定性比较，结果表明该方法在各种形状类别上都能产生更准确、更令人满意的骨骼。相比之下，RigNet 在恢复不太常见的形状（如带尾巴或翅膀的角色）的合理骨骼方面存在困难，并且经常生成过多的关节。而该方法生成的关节数量合理，重建的骨骼与底层形状对齐良好，确保了更好的结构一致性和保真度。为了定量评估骨骼预测的性能，使用了多个指标来衡量预测骨骼与真实值在 RigNet 数据集上的相似度：骨骼匹配的交并比（IoU）、精确度（Precision）和召回率（Recall），以及关节（CD - J2J）、骨骼线段（CD - B2B）和关节到骨骼线段（CD - J2B）的 Chamfer 距离。表 2 显示了与 Pinocchio 和 RigNet 的比较结果，结果表明该方法显著优于基线，产生的骨骼与真实值对齐得更好。
连接性预测（Connectivity Prediction） ：当给定的关节来自真实值而不是预测值时，评估了连接性预测性能。通过测量二元分类精度（Class. Acc.）来评估关节对连接的性能，以及 CD - B2B 和编辑距离（ED），这些指标衡量预测和参考骨骼之间的几何和拓扑差异。如表 3 所示，该方法在所有指标上均显著优于 RigNet。
蒙皮预测（Skinning Prediction） ：对于蒙皮预测性能，提供了与 RigNet 和 Blender 内置自动蒙皮权重计算的定性比较，后者根据网格顶点与骨骼之间的最短欧几里得距离分配权重。为了公平比较，在蒙皮权重推理过程中提供了真实骨骼。如图 9 所示，该方法产生了更准确、更一致的蒙皮权重。在两个区域在欧几里得空间中距离较近但具有较大测地线距离的挑战性情况下，该方法能够成功区分这些部分并生成一致的蒙皮权重，而基线方法则失败。

消融研究（Ablation Study）

关节扩散（Joint Diffusion） ：在完整模型中，关节扩散模块基于骨骼序列中前一个关节预测下一个关节位置的概率。这种概率方法有效地解决了骨骼树表示中的结构模糊性，例如等价兄弟节点顺序的等价性，通过考虑它们的等价性来解决。在消融研究中，用确定性的 L2 关节位置损失代替关节扩散损失。如图 6 所示，使用 L2 损失会导致关节向中间轴塌陷，代表样本中兄弟节点模糊性的平均位置。相比之下，该方法能够捕捉到多样化的关节位置模态，产生合理且准确的关节位置，而不是平均位置。表 4 中的定量结果进一步证实了关节扩散建模显著提高了该方法的性能，将骨骼 IoU 提高了近两倍。
法线注入（Normal Injecting） ：为了评估将点法线纳入形状标记的影响，进行了不将点法线作为输入的比较实验。表 4 中的数值结果表明，当排除法线信息时，骨骼性能显著下降，突出了点法线作为几何信息对于提高性能的重要性。
在线姿态增强（Online Pose Augmentation） ：分析了通过使用真实骨骼和蒙皮对输入点云进行随机变形来进行在线数据增强的效果。如表 4 中的数值结果所示，姿态增强提高了骨骼预测性能。此外，图 6 比较了具有和不具有姿态增强的结果，对于一个具有随机骨骼姿态且不在数据集中的角色，完整模型生成了与形状对齐得更好的骨骼结构，而没有姿态增强的模型则无法产生与形状对齐的骨骼，并且生成了过多的关节。这种增强提高了该方法对多样化姿态对象的泛化能力。此外，如图 7 所示，该方法即使在输入形状来自真实世界数据且目标处于任意姿态时，也能产生高质量的骨骼。

论文的主要内容：

本文介绍了一种名为 RigAnything 的新型自动骨骼绑定方法，旨在为多样化的 3D 资产自动生成骨骼和蒙皮权重，无需依赖预定义的骨骼模板。该方法采用基于 Transformer 的自回归模型，通过迭代预测下一个关节的位置和父节点索引，以概率分布的形式表示关节配置，从而解决骨骼结构的模糊性问题。具体来说，RigAnything 的主要贡献和特点如下：

自回归骨骼预测

自回归建模 ：将骨骼结构表示为一个序列，采用广度优先搜索（BFS）顺序对关节进行排序，使得每个关节由 3D 位置和父节点索引定义。模型基于已预测的关节和全局输入形状，迭代预测下一个关节的位置和父节点索引，从而生成骨骼序列。
关节位置预测的扩散模型 ：为了解决自回归模型在连续值预测上的局限性，采用扩散采样过程来预测关节位置。扩散模型通过逐步添加高斯噪声来生成噪声版本的关节位置，然后训练一个噪声估计器，根据当前的扩散时间步和上下文信息来预测添加的噪声。在推理时，通过逆向扩散过程逐步去除噪声，从而采样得到下一个关节位置。
连接性预测 ：在得到下一个关节位置后，通过一个连接性模块来预测该关节与其祖先关节之间的连接关系。该模块基于更新后的上下文信息和每个已预测的骨骼标记来计算父关节的概率分布，并使用二元交叉熵损失进行监督学习。

蒙皮权重预测

蒙皮权重计算 ：蒙皮权重由一个矩阵表示，每个元素表示某个关节对某个表面点的影响程度。对于每个表面点，蒙皮权重向量需要满足归一化和非负的约束条件。通过一个蒙皮预测模块，输入形状标记和骨骼标记，输出每个关节对该表面点的预测影响分数，然后使用 softmax 函数计算最终的蒙皮权重。
损失函数 ：采用加权交叉熵损失进行训练，其中真实蒙皮权重作为权重因子，使得模型能够为具有较大真实蒙皮权重的关节产生更高的概率，从而与每个点的正确影响对齐。

自回归 Transformer 架构

标记化（Tokenization） ：对于形状数据，采样表面点并将其与对应的法线拼接，形成初始的形状标记，然后通过多层感知机（MLP）将其映射到更高维度的空间。对于骨骼数据，先将每个关节位置及其父关节位置通过 MLP 映射到高维空间，再与位置嵌入拼接，最后通过 MLP 得到每个关节的骨骼标记。
Transformer 处理标记 ：将形状标记和已预测的骨骼标记拼接，作为一系列标记输入到 Transformer 块中。Transformer 中的多头自注意力机制使得骨骼标记和形状标记能够相互了解对方的特征，从而捕捉到丰富的全局信息和形状上下文与骨骼结构之间的相互依赖性。采用混合注意力机制，形状标记之间进行全自注意力操作以捕捉全局几何上下文，骨骼标记则先关注所有形状标记，再在其内部应用因果注意力，以保持自回归生成所需的顺序性。
端到端训练 ：整个模型端到端训练，将关节位置、连接性和蒙皮权重的损失结合起来，使网络能够同时学习连贯的骨骼结构和准确的蒙皮分配。

实验

实现细节 ：输入点云包含 1024 个点，每个样本的最大关节数设置为 64。点云和关节标记器实现为具有隐藏维度 512 和 1024 的两层 MLP。父节点和蒙皮预测模块均采用隐藏维度 1024 的两层 MLP。Transformer 包含 12 层，隐藏维度为 1024，每层 Transformer 块包含 16 个头的多头自注意力层和隐藏维度为 4096 的两层 MLP，以及 GeLU 激活函数。
数据集 ：使用了 RigNet 数据集和 Objaverse 数据集。RigNet 数据集包含 2354 个具有真实骨骼和蒙皮注释的高质量 3D 模型。Objaverse 数据集提供了大量 3D 模型，但其骨骼绑定质量参差不齐。为了确保数据可靠性，从 Objaverse 数据集中筛选出 9686 个具有准确骨骼和蒙皮信息的模型。
评估和基线比较 ：与真实值和 RigNet 进行了定性比较，结果表明该方法在各种形状类别上都能产生更准确、更令人满意的骨骼。为了定量评估骨骼预测的性能，使用了多个指标来衡量预测骨骼与真实值在 RigNet 数据集上的相似度：骨骼匹配的交并比（IoU）、精确度（Precision）和召回率（Recall），以及关节（CD - J2J）、骨骼线段（CD - B2B）和关节到骨骼线段（CD - J2B）的 Chamfer 距离。表 2 显示了与 Pinocchio 和 RigNet 的比较结果，结果表明该方法显著优于基线，产生的骨骼与真实值对齐得更好。对于连接性预测性能，当给定的关节来自真实值而不是预测值时，通过测量二元分类精度（Class. Acc.）来评估关节对连接的性能，以及 CD - B2B 和编辑距离（ED），这些指标衡量预测和参考骨骼之间的几何和拓扑差异。如表 3 所示，该方法在所有指标上均显著优于 RigNet。对于蒙皮预测性能，提供了与 RigNet 和 Blender 内置自动蒙皮权重计算的定性比较，后者根据网格顶点与骨骼之间的最短欧几里得距离分配权重。为了公平比较，在蒙皮权重推理过程中提供了真实骨骼。如图 9 所示，该方法产生了更准确、更一致的蒙皮权重。在两个区域在欧几里得空间中距离较近但具有较大测地线距离的挑战性情况下，该方法能够成功区分这些部分并生成一致的蒙皮权重，而基线方法则失败。
消融研究 ：通过将关节扩散模块替换为确定性的 L2 关节位置损失，发现使用 L2 损失会导致关节向中间轴塌陷，代表样本中兄弟节点模糊性的平均位置。相比之下，该方法能够捕捉到多样化的关节位置模态，产生合理且准确的关节位置，而不是平均位置。表 4 中的定量结果进一步证实了关节扩散建模显著提高了该方法的性能，将骨骼 IoU 提高了近两倍。此外，通过将点法线纳入形状标记，显著提高了骨骼性能。最后，通过使用真实骨骼和蒙皮对输入点云进行随机变形来进行在线数据增强，提高了该方法对不同姿态对象的泛化能力。

结论

RigAnything 作为一种基于 Transformer 的自回归方法，能够自动为 3D 资产预测骨骼和蒙皮权重，无需依赖任何模板。该方法通过在 RigNet 和多样化的 Objaverse 数据集上进行端到端训练，确保了其泛化能力。广泛的实验结果表明，RigAnything 在各种对象类别上的表现优于现有方法，展示了其有效性和泛化能力。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-02-17，如有侵权请联系 cloudcommunity@tencent.com 删除

论文

本文分享自 AiCharm 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！