前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >SEVENLLM | 网安事件分析大模型的训练与评测

SEVENLLM | 网安事件分析大模型的训练与评测

作者头像
公众号-arXiv每日学术速递
发布于 2024-05-31 13:04:46
发布于 2024-05-31 13:04:46
6560
举报

摘要

网络威胁情报(Cyber Threat Intelligence, CTI)在现代网络安全领域日益重要,为了提高安全人员安全事件分析能力,文章提出一个用于基准测试、引导和改进LLMs(Large Language Models, 大语言模型)在安全事件分析和响应方面的能力的框架(SEVENLLM)。并通过收集网络安全网站的大量网络安全原始文本,构建了高质量双语多任务指令语料库SEVENLLM-Instruct,用于训练具备多任务学习目标(包括28个精心设计的任务)的网络安全LLMs。

构造的基准测试(SEVENLLM-Bench)的大量实验结果表明SEVENLLM能够进行更复杂的威胁分析,并强化对不断演变的网络威胁的防御能力。

原文链接:https://arxiv.org/abs/2405.03446

代码链接:https://github.com/CSJianYang/SEevenLLM

一、介绍

PART 01

网络安全厂商Comcast Business发布的《2022年网络威胁态势报告》中复杂的网络态势和专业的网络安全术语给当前网络安全专业从业人员和情报分析人员带来了更大的挑战,并且基于传统人工智能分析方法难以获取规整的语料和专业的背景知识。

大型语言模型(LLMs)在理解和生成基于语言的内容方面带来了革命性变化,通过指令调优领域的特定LLMs进一步提升了特定领域的能力,如代码和数学。

对于CTI,目前还没有包含指令语料库、领域特定LLMs和评估基准的全面工作。文章通过构建大量网络安全事件报告的双语(英文和中文)语料库,解决了安全事件分析高质量、任务特定数据集的稀缺性。使用构造的数据集得到微调后的SEVENLLM与强大的通用LLM GPT-3.5相比能够在参数量级更少的情况下,提供更完整和专业的响应,体现出领域特定LLM对于CTI的重要性。

文章的贡献主要有以下几点:

1、创建高质量双语多任务指令语料库SEVENLLM-Instruct,解决CTI数据稀缺问题,增强数据集在现实场景中的实用性和相关性。

2、基于开源基础LLMs,使用SEVENLLM-Instruct微调针对网络威胁情报定制的SEVENLLM,能够简化分析过程,减少对人类专家的依赖,从而加速并增强分析师在威胁识别和响应方面的能力。

3、构建评估基准SEVENLLM-Bench,填补了网络威胁情报评估的空白。同时结合多种方法综合评估LLMs在网络安全背景下的性能。

二、方法

PART 02

方法介绍:首先使用LLM(GPT-4)生成候选任务,然后由人类专家根据安全组织和机构(如MITRE和OASIS CTI TC)提出的威胁情报分析标准和关注信息修正任务,形成任务池。给定网络安全原始文本后,提示LLM从任务池中选择合适的任务,同时生成所选任务的查询和响应,使用Select-Instruct生成指令语料库SEVENLLM-Instruct。根据不同基础模型定制的开源LLMs在SEVENLLM-Instruct上进行多任务学习微调。通过构建SEVENLLM-Bench有效评估SEVENLLM在网络威胁情报方面的表现,从而弥合通用领域和网络安全领域在理解和生成方面的差异。

2.1

数据集构建

Select-Instruct 为提高生成数据集的质量和价值,研究人员针对网络安全事件分析任务改进了Self-Instruct方法。首先,输入原始语料库,并使用精心设计的提示,使LLM能够从任务池中选择指定数量和格式的任务,生成任务种子。然后,输入任务种子和原始语料库,要求LLM根据任务从语料库中提取有价值的部分,生成指令和相应回答。

SEVENLLM-Instruct&SEVENLLM-Bench 在构建训练和测试数据集时文章将网络安全事件分析任务分为两大类28个子类。一类是理解类任务,属于强定义任务。主要目的是将网络安全事件中的非结构化数据转化为结构化数据,进行关键要素信息的提取,包括的子类任务有恶意软件特征提取 (Malware Feature Extraction)、加解密算法识别 (Encryption-Decryption Algorithm Identification)等;另一类是生成类任务,属于弱定义任务。主要目的是快速分析和应用网络安全事件信息,包括的子类任务有攻击意图分析 (Attack Intent Analysis)、防护策略研究 (Protection Strategy Research)等。构建针对各类任务的训练数据集有90000余条,构建选择题和问答题共1300条作为测试数据集,每一条测试集都经过人类专家的校对,保证测试结果的准确性和有效性。

2.2

模型微调

文章选择了在中英文能力上表现杰出的Llama-2和Qwen-1.5作为模型基座,并针对20B以下的量级进行微调。思维链构建被证实是一种有效的激发模型生成能力的方式,文章在微调的过程中加入这一思想,引导模型通过思考来优化处理网络安全事件分析能力,为了能够对不同量级不同方法进行评估,文章设置了统一的训练参数。

同时随机选择{1k,2k,10k,50k,...,ALL }的样本进行训练,分析数据集量级对模型效果的影响,对训练结果逐一评分。

2.3

模型能力评估

基于匹配相似性评分 使用 Rouge-L 来评估 LLM 的输出和测试集结果的相似性来评分,英文用空格分词,中文用 jieba 分词。

基于语义相似性评分 使用支持多语言的multilingual sentence-transformers model文本映射到 384 维密集向量空间,用于诸如聚类或语义搜索之类的任务,从而评估测试词典中的值是否可以从语义理解的角度进行评分。

基于GPT4评分 采用5分制,使用GPT4对训练后的模型的答案做评分,要求gpt对结果的准确性、相关性和价值性进行打分,并在没有给出满分时需要给出一个优化的结果。

基于选择题评分 针对两种语言和两大类任务设计 100 道选择题,以全面评估模型对网络安全事件专业领域的理解和推理能力。输出结果经过人工验证,以确保有效评估模型处理客观题的能力。

基于人类专家评分 请三位相关领域专家按照五分制对SEVENLLM和Llama-2-Chat生成的结果进行评分。

三、实验结果

PART 03

基于设计的大量实验表明SEVENLLM对网络安全事件分析能力有了较大提升,在模型的非主流语言上更加明显。同时发现,SEVENLLM-Instruct训练后的模型即使在较小的参数量级下也可以具备强于较大量级通用大模型的能力,可用于针对该任务的轻量化部署和快速应用。如下表展示了基于GPT-4的评分结果,文章的工作对大模型在网络安全事件分析和应用领域的研究提供一定参考。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 arXiv每日学术速递 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
DeepSeekMath:突破开放式语言模型中数学推理能力的极限,提出了GRPO,值得关注学习
由于数学推理具有复杂且结构化的特性,这对语言模型构成了重大挑战。在本文中,我们介绍了 DeepSeekMath 7B 模型,该模型在 DeepSeek-Coder-Base-v1.5 7B 模型的基础上,使用从 Common Crawl 获取的 1200 亿个与数学相关的标记,以及自然语言和代码数据继续进行预训练。在不依赖外部工具包和投票技术的情况下,DeepSeekMath 7B 在竞赛级 MATH 基准测试中取得了 51.7% 的优异成绩,接近 Gemini-Ultra 和 GPT-4 的性能水平。通过对 DeepSeekMath 7B 生成的 64 个样本进行自洽性验证,其在 MATH 基准测试上的准确率达到了 60.9%。DeepSeekMath 的数学推理能力归因于两个关键因素:首先,我们通过精心设计的数据选择流程,充分利用了公开可用的网络数据的巨大潜力。其次,我们引入了组相对策略优化(Group Relative Policy Optimization,GRPO)算法,这是近端策略优化(Proximal Policy Optimization,PPO)算法的一个变体,它在增强数学推理能力的同时,还能优化 PPO 的内存使用。
AI浩
2025/06/08
950
DeepSeekMath:突破开放式语言模型中数学推理能力的极限,提出了GRPO,值得关注学习
人工智能 | NatMed | 用于疾病诊断辅助的通用医学语言模型
生信菜鸟团
2025/01/16
5160
人工智能 | NatMed | 用于疾病诊断辅助的通用医学语言模型
用GPT4进行指令微调
代码:https://instruction-tuning-with-gpt-4.github.io/
西西嘛呦
2023/04/08
1.5K0
用GPT4进行指令微调
Nat. Commun. | 迈向医学大语言模型!上海交通大学团队构建数据集与评估基准
今天为大家介绍的是来自上海交通大学的王延峰与谢伟迪团队的一篇论文。开源的多语言医学语言模型的发展可以惠及来自不同地区、语言多样化的广泛受众。为了推动该领域的发展,作者做出了以下贡献:首先,作者构建了一个包含大约255亿tokens、覆盖6种主要语言的多语言医学语料库——MMedC,使得通用LLM能够进行自回归领域适应;其次,为了监测多语言医学LLM的发展,作者提出了一个多语言医学多项选择问答基准(包含推理过程),称为MMedBench;第三,作者在该基准上评估了多个开源大型语言模型,以及那些在MMedC上进行进一步自回归训练的模型。作者的最终模型MMed-Llama 3,仅有80亿参数,在MMedBench和英语基准上表现优异,甚至可以与GPT-4媲美。总之,在这项工作中,作者提供了一个大规模语料库、一个评估基准以及一系列模型,以支持多语言医学LLM的发展。
DrugAI
2024/11/23
1660
Nat. Commun. | 迈向医学大语言模型!上海交通大学团队构建数据集与评估基准
从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
本文尝试梳理一个完整的多模态LLM的训练流程。包括模型结构选择、数据预处理、模型预训练、指令微调、对齐、融合多模态以及链接外部系统等环节。
zenRRan
2023/08/22
7K0
从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
一篇关于LLM指令微调的综述
指令微调(IT)是提高大型语言模型(LLM)能力和可控性的关键技术。其本质是指在由(INSTRUCTION, OUTPUT)对组成的数据集上以监督的方式进一步训练LLM的过程,它弥合了LLM的下一个词预测目标与用户让LLM遵循人类指令的目标之间的差距。这篇文章对现有研究进行了系统的回顾、包括IT的一般方法、IT数据集的构建、IT模型的训练、以及不同模式,领域和应用的应用。
zenRRan
2023/09/11
7.1K0
一篇关于LLM指令微调的综述
每周AI论文速递(240610-240614)
最近在大语言模型 (LLMs) 方面的进展显示了其在自然语言理解和生成任务中的显著能力。随着LLMs数量的增加,如何利用多个LLMs的集体智慧成为一个令人期待的研究方向。为此,我们提出了一种新的方法,通过Mixture-of-Agents (MoA) 方法来利用多个LLMs的集体优势。在我们的方法中,我们构建了一个分层的MoA架构,每层包含多个LLM智能体。每个智能体在生成响应时将前一层所有智能体的输出作为辅助信息。MoA模型在AlpacaEval 2.0、MT-Bench和FLASK上实现了最先进的性能,超过了GPT-4 Omni。例如,我们仅使用开源LLMs的MoA在AlpacaEval 2.0中以65.1%的得分显著领先,而GPT-4 Omni的得分为57.5%。
叶子的技术碎碎念
2025/04/08
740
每周AI论文速递(240610-240614)
基于AIGC的写作尝试:A Survey of Large Language Models(论文翻译)(上)
自从图灵测试在20世纪50年代提出以来,人类一直在探索机器掌握语言智能的方法。语言本质上是一个由语法规则控制的复杂、精细的人类表达系统。开发能够理解和掌握语言的能力强大的人工智能(AI)算法是一个重大挑战。作为一种主要方法,语言建模在过去二十年中已经被广泛研究,从统计语言模型发展到神经语言模型。最近,通过在大规模语料库上预训练Transformer模型,提出了预训练语言模型(PLMs),在解决各种自然语言处理(NLP)任务方面表现出强大的能力。由于研究人员发现模型扩展可以提高模型容量,他们进一步通过将参数规模增加到更大的尺寸来研究扩展效果。有趣的是,当参数规模超过一定水平时,这些扩大的语言模型不仅可以实现显著的性能提升,而且还表现出一些特殊的能力(例如上下文学习),这些能力在小规模语言模型(例如BERT)中不存在。为了区分不同参数规模的语言模型,研究界为具有显著规模(例如包含数十亿或数百亿个参数)的PLMs创造了大型语言模型(LLM)这个术语。最近,学术界和工业界对LLMs的研究取得了很大进展,其中一个显著的进展是ChatGPT的推出(一种基于LLMs开发的强大AI聊天机器人),引起了社会的广泛关注。LLMs的技术进化对整个AI社区产生了重要影响,这将革命性地改变我们开发和使用AI算法的方式。考虑到这种快速的技术进步,在本次调查中,我们通过介绍背景、关键发现和主流技术,回顾了LLMs的最新进展。特别是,我们关注LLMs的四个主要方面,即预训练、适应调整、利用和容量评估。此外,我们还总结了开发LLMs的可用资源,并讨论了未来方向的剩余问题。本次调查提供了LLMs文献的最新综述,可供研究人员和工程师使用。
jhonye
2023/05/29
1.7K0
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料,目前收录的资源已达100+个!
汀丶人工智能
2024/04/29
3.2K0
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
2024年6月上半月30篇大语言模型的论文推荐
大语言模型(LLMs)在近年来取得了快速发展。本文总结了2024年6月上半月发布的一些最重要的LLM论文,可以让你及时了解最新进展。
deephub
2024/07/01
6790
2024年6月上半月30篇大语言模型的论文推荐
大模型与软件供应链安全的融合探索
软件供应链安全指的是确保软件供应链中的各个环节和组件不受恶意攻击或未经授权的篡改,以保证软件交付的完整性、可信性和可靠性。软件供应链是指涉及开发、测试、集成、部署等多个环节的软件开发和交付过程,其中包括了供应商、开发者、第三方库、依赖组件、工具和用户等各种参与者。
绿盟科技研究通讯
2023/11/05
1.4K0
大模型与软件供应链安全的融合探索
一个用于疾病诊断辅助的通用医学语言模型 | Nat.Med |
错误!!! cannot unpack non-iterable NoneType object
生信菜鸟团
2025/03/21
1330
一个用于疾病诊断辅助的通用医学语言模型 | Nat.Med |
微软祭出代码大模型WaveCoder!4项代码任务2万个实例数据集,让LLM泛化能力飙升
对此,微软研究团队训练了一个CodeOcean数据集,包含了2万个指令实例的数据集,以及4个通用代码相关任务。
新智元
2024/01/11
4740
微软祭出代码大模型WaveCoder!4项代码任务2万个实例数据集,让LLM泛化能力飙升
LLM评测
当前开源大模型中,Mixtral-8x22B-Instruct-v0.1在 MT-Bench(多轮会话&指令遵循)、MMLU(信息知识)中表现基本持平头部开源模型,并比GPT3.5略好,但在TruthfulQA(客观事实)上略逊于头部开源模型。Mixtral模型当前处于开源大模型第一梯队。 但通过Mixtral Demo体验,其支持语言主要为欧洲语系,且在回复质量上还是存在诸如指令遵循、信息冗余、misinfo等明显问题。
孔西皮
2024/08/05
5020
最强API调用模型来了!基于LLaMA微调,性能超过GPT-4
虽说目前LLM风头正旺,进展颇多,在各种任务中的性能表现也可圈可点,但这些模型通过API调用有效使用工具的潜力还亟待挖掘。
新智元
2023/08/05
3440
最强API调用模型来了!基于LLaMA微调,性能超过GPT-4
【AI大模型展】风云卫AI安全能力平台——打造AI+安全新范式
该AI大模型由绿盟科技投递并参与数据猿与上海大数据联盟联合推出的《2024中国数智产业AI大模型先锋企业》榜单/奖项评选。
数据猿
2024/07/16
3010
【AI大模型展】风云卫AI安全能力平台——打造AI+安全新范式
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
“ 本文及上一篇综述了最近关于语言模型中幻觉问题的研究进展,主要集中在ChatGPT发布后的研究。文章讨论了如何评估、追踪和消除幻觉,并探讨了现有挑战和未来方向。希望本文能为对LLM幻觉问题感兴趣的朋友提供有价值的资源,促进LLM的实际应用。”
技术人生黄勇
2024/07/19
8440
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
ChatGPT 网络安全秘籍(四)
事故响应是任何网络安全策略的关键组成部分,涉及确定、分析和缓解安全漏洞或攻击。 及时和有效地响应事故对于最小化损害和防止未来攻击至关重要。 在本章中,我们将深入探讨如何利用 ChatGPT 和 OpenAI 的 API 来增强事故响应过程的各个方面。
ApacheCN_飞龙
2024/05/24
5540
ChatGPT 网络安全秘籍(四)
以中文为中心!复旦 & 北大 | 从头训练中文大模型:CT-LLM
当前,绝大多数大模型(LLMs)基本上都是以英文语料库训练得到的,然后经过SFT来匹配不同的语种。然而,今天给大家分享的这篇文章旨在从头开始训练中文大模型,在训练过程中「主要纳入中文文本数据」,最终作者得到了一个2B规模的中文Tiny LLM(CT-LLM)。结果表明,该模型在中文任务上表现出色,且通过SFT也能很好的支持英文。
ShuYini
2024/04/12
9330
以中文为中心!复旦 & 北大 | 从头训练中文大模型:CT-LLM
微调都不要了?3个样本、1个提示搞定LLM对齐,提示工程师:全都回来了
我们知道,仅在无监督文本语料库上预训练的基础大语言模型(LLM)通常无法直接用作开源域的 AI 助手(如 ChatGPT)。因此,为了让这些基础的 LLM 成为有用且无害的 AI 助手,研究人员往往使用指令调优和偏好学习对它们进行微调。
机器之心
2023/12/12
4780
微调都不要了?3个样本、1个提示搞定LLM对齐,提示工程师:全都回来了
推荐阅读
相关推荐
DeepSeekMath:突破开放式语言模型中数学推理能力的极限,提出了GRPO,值得关注学习
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档