蚂蚁集团联手上海财经大学：揭开AI大模型在金融领域的神秘面纱读书笔记 - 9

用户10675374

发布于 2024-11-08 10:23:12

2140

蚂蚁金服携手上海财经大学共同完成的白皮书，即《大模型实在金融领域的应用技术与安全白皮书》。先关注目录。 1.概述 2.大模型应用技术分析 3.大模型的应用安全 4.大模型评测 5.金融大模型发展中的人才培养蚂蚁集团联手上海财经大学：揭开AI大模型在金融领域的神秘面纱读书笔记 - I 蚂蚁集团联手上海财经大学：揭开AI大模型在金融领域的神秘面纱读书笔记 - II 蚂蚁集团联手上海财经大学：揭开AI大模型在金融领域的神秘面纱读书笔记 - III 蚂蚁集团联手上海财经大学：揭开AI大模型在金融领域的神秘面纱读书笔记 - IV 蚂蚁集团联手上海财经大学：揭开AI大模型在金融领域的神秘面纱读书笔记 - V 第三章的目录，注意，这里是为了读者能够更加清晰地了解文章结构。不然，所有算法介绍完，要干嘛都不知道了！本文是这么用的哈！

3.1 大模型在金融风险领域的风险与防御
- 3.1.1 隐私防控。包括成员推断、训练数据、自由文本、对抗、交互
- 3.1.2 攻击与防御。包括窃取、提示注入（jailbreak prompt, target hijacking, PLeak）、数据污染（主要 API 污染数据，后门攻击）、防御（self-reminder, GCG, DAN）
- 3.1.3 可解释性。如何解释？微调范式、提示范式、可解释应用
- 3.1.4 可溯源性。可溯源分类、溯源检测方法、溯源归因方法
- 3.1.5 有害内容防控。内容识别、有害内容消除
3.2 风险智力框架借鉴

3.1.3 可解释性

大模型的可解释性，即以人类可理解的内容呈现模型行为的能力，成为其可靠度在金融业务过程方面重要的衡量维度。 微调范式，通常使用小规模参数的预训练模型，包括 BERT、RoBERTa 和 ELECTRA 等。

01 微调范式，如何解释？

基于特征归因的方法

特征归因通过度量部分模型输入对模型输出的贡献度来解释模型的预测结果。例如，在文本分类任务中，度量的单位可以是词语、短语或者句子，模型的输出是类别，贡献度则用数字表示。常用方法包括：（1）基于输入扰动的方法：删除部分输入，根据删除前后模型输出的变化计算贡献度；（2）基于梯度的方法：根据模型输出对输入的某个部分的梯度计算贡献度；（3）基于代理模型的方法：用结构简单的代理模型解释复杂模型。

基于注意力的方法

注意力机制，注意力权重可以看作是输入对输出的重要程度。这里注意，所谓注意力，即模型认为该单词有多值得被注意。自注意力（Self-Attention），模型动态计算序列内部信息之间的权重,能够建模变长序列内部的依赖关系。相比卷积神经网络,自注意力模型能够将卷积核的固定长度感受野扩大到输入序列长度的范围；相比循环神经网络,自注意力模型对长距离依赖有更强的捕获能力,并且能够并行计算。基于以上优势,自注意力模型 被广泛应用于序列数据建模领域，自然语言处理领域中著名的 Transformer 模型是自注意力模型的典型代表。注意力机制的优势可以归纳为以下三点。 (1)注意力机制能够有效地使模型忽略输入数据中的噪声部分,从而提升信噪比。 (2)注意力机制可以为输入数据中不同元素分配不同的权重系数,以突出与任务最相关的信息元素。 (3)注意力机制为模型结果带来了更好的解释性。例如,在翻译任务中,分析句子中不同单词的权重系数,可以找出句子中的关键词。

基于自然语言的方法

自然语言解释是一种特殊的数据注释形式，可由人工标注员在相应数据集上根据样本的输入和标签用自然语言的形式进行编写。验证解释的同时，输入的样本可以提升模型的决策能力，研究验证了此套方法在常识推理任务中的有效性。然而人工标注的解释存在多变性，且可能包含虚假解释，因此这类方法需要设计合理的解释构建框架并结合过滤的方法来提高标注质量。

02 提示范式，如何解释？

上下文提示

上下文学习，在提示中使用少量示例样本来引导模型在特定上下文中完成任务。此方法不需要修改模型参数和大量示例样本，是大模型使用中非常重要的方法。算法的原理，用不同的概念框架来进行理解，例如梯度下降、贝叶斯推断和逻辑回归集成等。例如，研究发现 GPT 模型在上下文学习场景下，示例样本的标签起到锚点的作用，可通过底层模块聚合示例样本的信息，而模型在高层通过关注锚点实现下一个词的预测，预测词和锚点之间的注意力模块可近似为多个逻辑回归模型的集成。 BERT 模型是涵盖了上下文学习的，正如其名称一样，对每个单词生成注意力的时候，都要考虑上下文。点击阅读《LLMs 基础知识 | BERT 模型族》。

思维链

思维链，提示中引导模型在解决具体任务时不仅有任务的输出，还包含推理的中间步骤。该技术能提升 LLMs 在诸多任务上的表现，尤其是涉及到数学、常识、符号等推理任务，并增强推理过程的可解释性。然而，其工作原理还有待研究。现有工作借助基于扰动的或者基于梯度的特征归因方法对思维链技术进行研究。例如，基于梯度的特征归因方法显著性得分（Saliency Scores）描述了模型输入中不同词对输出的重要性。而利用显著性得分研究思维链技术，发现与标准的少样本提示相比，CoT 提示使得显著性分数更加稳定，通过不同的输入进行测试。

03 可解释性的应用

第一，协助使用者 理解模型行为 以及 提升模型本身 的性能。第二，用来分析模型 行为是否合理。例如，输入主要集中于不重要领域、不重要的特定词汇，不考虑上下文，这可能表明模型依赖于数据偏见，不是真正理解输入序列的含义。第三，用来辅助理解模型决策，金融领域可以利用 思维链（CoT）等技术，在生成投资建议前先生成推理过程。第四，利用解释性来提升性能。例如，研究发现在少样本学习场景下，增加示例样本答案的解释能提升性能，并且性能提升幅度与模型大小和解释的质量相关。Orca 项目利用蒸馏得到的包含解释的数据帮助模型提升其推理能力。其利用 GPT4 生成【指令-解释-回复】三元组数据，并用这些数据微调开源模型，极大提高开源模型的复杂推理能力。

3.1.4 可溯源性

可溯源性的概念是指对于模型推理阶段所生成的文本，能够追溯文本来源。追溯源头，可以提升大模型的安全性质。

01 分类

1.二分类。二分类检测目标为判断文本是由人类还是指定模型生成。大多数模型是这类。 2.多分类。检测目标除了判断文本是由人类还是模型生成之外，还需要进一步识别出生成该文本的具体模型。例如 Sniffer 模型可检测文本由GPT-2、GPT-Neo、GPT-J、LLaMA、人类还是未知模型生成。

02 溯源检测方法

被动检测，通常在内容生成之后，判断文本是否由模型生成，即不需要参与到生成文本的过程中。其中包括 基于分类器的方法（1-1）、基于零样本的方法（1-2）、基于对抗学习的方法（1-3）。主动检测，在生成文本过程中或结束后进行主动干预。可分为 基于检索的方法（2-1）、基于水印的方法（2-2）。

1-1 被动：基于分类器的方法

将待检测的语言模型视为黑盒状态，利用包含真实文本和生成文本的数据集，训练二元分类器进行区分。早期方法利用逻辑回归或支持向量机作为分类器，近期方法大多使用经过微调的预训练语言模型（如 RoBERTa 和GPT-2）作为分类器。例如，OpenAI 利用基于 RoBERTa的模型按此构建二元检测器，其在区分 GPT-2 和人类生成文本的任务上正确率高达 95%。然而此方法的性能在很大程度上取决于训练和测试时的数据分布相似性，容易受到分布外问题的影响。待检测的文本（也是数据集），分为真实文本、生成文本，训练二分类器进行区分。早期是逻辑回归，众所周知了，SVM 也非常常用（点击阅读《SVM、SMO 算法代码解析》）。最近几年流行的算法， RoBERTa, GPT-2，基于微调的预训练语言模型。最近几年非常火的 OpenAI 利用 RoBERTa 构建二分类模型，区分 GPT-2 v.s. 人工生成文本的任务，准确率达到 95%。然而，该方法 强依赖于数据集合分布，即如果测试数据集分布偏差较大，则分类器效果受到影响较大。另外，除了分布之外，其他因素的影响也较大。评注：其实，distribution sensitive 算法还挺多的，且看下去吧。

1-1-1 BERT

BERT, Bidirectional Encoder Representations from Transformers，不仅仅是机器学习术语海洋中的另一个缩写。它代表了机器理解语言方式的转变，使它们能够理解构成人类交流丰富而有意义的复杂细微差别和上下文依赖关系。BERT 核心是由 Transformer 驱动，也是一种神经网络模型。其中包含 Self-attention，使得 BERT 依据双向性质（上下文）作出判断，衡量重要性。这就像 BERT 反复阅读句子以深入理解每个词的作用。点击阅读《LLMs 基础知识 | BERT 模型族》。

1-1-2 RoBERTa

文章工作：

用更长的时间，更大的batch size，更多的数据进行训练
去掉BERT中的NSP目标(next sentence prediction)
在更长的句子上进行训练
根据训练数据动态地改变mask的模式

结果也很显然，团队给出 Batch Size 和 Steps 之前的成本权衡。8 * 32GB 英伟达 GPU，做该论文实验。文章：RoBERTa: A Robustly Optimized BERT Pretraining Approach，2019年。

1-2 被动：基于零样本的方法

此方法无需额外训练分类器，其根据 LLM 生成文本的统计特征，分析 【生成文本】与【真实文本】之间的差别 来实现检测目标。在早期方法中，采用的特征有 n-grams 词频、文本困惑度、熵等。在近期方法中，GLTR 方法通过可视化每个文本位置的单词概率或排序，对比模型生成文本和人工撰写文本的差异。基本假设是由于模型的采样方式，在预测生成下一个单词时，倾向于选择分布 排名靠前的单词，而人类撰写的文本在单词选择上往往具有多样性。 DetectGPT 根据人类文本和生成文本在经过扰动后的对数概率变化差异，来区分文本是否由机器生成。具体做法，修正原始语料，然后输入目标函数，计算差异（该差异才是样本），再计算差异的标准差，进行比较。如果过阈值，则为 Model，否则 Human。点击阅读《LLMs 基础知识 | BERT 模型族》，内涵关于 DetectGPT 解释。

1-3 被动：基于对抗学习的方法

构建对抗网络，包括检测器、复述器。其中，检测器，判断一段文本是否由大模型生成。复述器，通过改写模型生成的文本，使其逃避检测。检测器和复述器通过对抗学习的方式进行参更新，直到趋于稳定。当复述器性能较高时候，这种检测方法适用于较多模型，迁移能力较好。生成对抗网络（GAN）是深度学习的一种创新架构，由Ian Goodfellow等人于2014年首次提出。其基本思想是通过两个神经网络，即检测器（Generator）和复述器（Discriminator），相互竞争来学习数据分布，分别完成生成数据，区别数据的作用。GAN 无需对数据分布进行假设。

我们的文献，还讨论结合对抗网络的算法。

2-1 被动：基于检索的方法

模型生成文本时构建生成内容数据库，将待检测样本与数据库进行匹配，计算相似段落的文本相似度。如果相似度超过阈值，就判定待检测文本是模型生成的。此种检测方式能较好地应对复述攻击，但需要更新和维护大规模数据库，成本大、难度高。这种方法也可能涉及到用户数据的隐私保护问题。因为检索是依据数据库的构造，这里就不展开了。

2-2 被动：基于水印的方法

低小微服务，以及本科以上创始人路子。

水印算法介绍，来自机器之心。

此类方法中，模型在生成文本时嵌入特定的文本水印。文本水印应具备隐蔽性、鲁棒性。隐蔽性，嵌入文本的水印应不影响文本的整体可读性和主要含义，能通过特定的算法识别出来，但人类无法察觉。鲁棒性，水印应具备抗干扰能力，防篡改，海明码也能达到同样效果。水印技术又可分为，基于规则的水印方法、基于统计的水印方法两类。基于规则的水印方法，通过替换、插入、删除、单词变形等操作，使得生成文本具有特定的模式或结构 —— 在文本中不可见，但能被计算机识别。基于统计的水印方法，调整解码过程中 输出文本的概率分布（以这种方式作为水印），利用统计方法进行检测。水印方案，水印添加阶段，估算下一个单词的 logit，依据一定的算法，将下一个单词的红色和绿色的概率估计出来，绿色代表正确。文本水印检测阶段，计算文本中来源于红色和绿色列表的单词所占比例，通过统计显著性检验，检验文本是造出来的，还是自然语言的。点击阅读《LLMs 基础知识 | BERT 模型族》，关于 Watermarking。

03 溯源归因方法

从文献本身来看，所谓的“溯源”，其实就是区分 Model-generated 还是 human-generated 一些语料。不同的方法再作区分，这一小节，都是通过“Attribution（归因）”这种方法来实现分类器的方法。目前大模型归因可分为“协同归因（Collaborative Attributions）”与“贡献归因（Contributive Attributions）”，而目前学界则有“统一归因”的研究融合了这两种基础归因。协同归因。主要通过外部知识验证验证大模型的输出是否正确，其具体措施包括生成相关引文（relate to output of LLMs）、通过独立知识库及外部资源，基于关键词匹配，检索输内容。或者私用数据匹配的算法，与外部事实数据库比对，以验证事实。简言之，所谓的协同归因，同时对内部的、外部的事实（或者知识）库进行匹配和严重。注意，协同归因的数据库选择上，一定要是对立同时存在的。 Yang Xiang，2023年的论文写到，合作问题的问题归因上，常常存在着“双因理论”的责任归属（dual-factor theory），并且归因常常是对立的。贡献归因。用于确定训练数据与大模型输出的关联度，量化训练样本对大模型输出的影响程度。其包括影响函数验证、数据模拟器验证以及数据模型验证。分别从改动训练数据、生成模拟数据以及构建数据模型来分析观察对大模型输出的影响。 Theodora，2023年论文写到，面对大模型日益增多的“语料”，追溯模型生产资料的来源也变得非常关键。这篇文章主要工作是在协同归因和贡献归因的问题上，找到共通的视角，使得抽象层次上升了一个层次，抽取共同部分。文章中，对于贡献归因也是有定义的。贡献归因的含义，识别每个输入样本，对于特定输出样本的重要性。基于 TDA（training data attribution）工作，开发的是 scalar score，涵盖多个方面的模型。例如，influence functions, gradient-based categorization, retraining-based categorization, language-specific summaries。这些方法都是能帮助建模者识别单个样本的重要性的。最好再来讨论归因方法被发现的根本原因，主要是，当你获得一个模型的输出 Y(i)，部分学者认为，知道一系列特征中，哪些特征对这个 Y(i) 其主要作用 —— 这件事很重要。

参考文献

[1] Yinhan Liu（2019），RoBERTa: A Robustly Optimized BERT Pretraining Approach，Cornell University，2019 [2] 未知（2024），第五章图注意力网络，清华大学出版社，2024 [3] Jingyi（2024），LLMs 基础知识 | BERT 模型族，ShoelessCai，2024 [4] 机器之心（2024），大模型×文本水印：清华、港中文、港科广、UIC、北邮联合发布首个大模型时代下的文本水印综述，机器之心，2024 [5] Yang Xiang（2023），Actual and counterfactual effort contribute to responsibility attributions in collaborative tasks，ScienceDirect，2023 [6] Theodora（2023），UNIFYING CORROBORATIVE AND CONTRIBUTIVE ATTRIBUTIONS IN LARGE LANGUAGE MODELS，ScienceDirect，2023

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-08-26，如有侵权请联系 cloudcommunity@tencent.com 删除

读书笔记

本文分享自 ShoelessCai 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度