
当前网络安全领域在探索大语言模型(LLM)驱动的自动化渗透测试(AutoPT)时,普遍面临战略层面的盲区与执行层面的瓶颈。行业内严重缺乏针对AutoPT的系统性架构分析以及统一基准下的大规模实证比较,以往工作多局限于深度强化学习(DRL)方法或宏观分析,缺乏细粒度的架构解构。
在实际业务场景中,企业面临着理想与现实的巨大落差:框架的复杂性并未带来效能的提升。在多漏洞组合利用场景下,70%的日志显示智能体未能有效进行多漏洞利用;面对已知CVE漏洞,56.7%的执行日志未能构造出有效payload。此外,“Flag幻觉”现象在13个主流框架中的8个中普遍存在,且多智能体设计常因功能重叠、规划器建议冲突及通信信息损耗(如摘要交互导致信息丢失)而陷入死循环或任务执行阻塞。
针对上述痛点,四川大学 DAS-Lab、清华大学 NISL-VUL337 与 腾讯云安全 联合开展研究(分享人:彭佳仁),首次提出了基于LLM的AutoPT系统化知识体系,构建了包含智能体架构、规划、记忆、执行、外部知识与基准测试(Benchmarks)的6维架构分类标准。
该体系摒弃了盲目堆砌组件的传统思路,提出“架构复杂性是一把双刃剑,经过精细的简洁设计在效能上往往优于复杂编排”的核心观点。研究明确指出,标准ReAct闭环的单智能体设计由于能维护完整上下文、决策-执行-反馈链路极短,且具备零通信开销的优势,天然适配渗透测试(CTF)强耦合与快速试错的场景要求。
通过对核心组件的消融实验与日志审查,研究揭示了决定投资回报率(ROI)与执行效能的3个核心业务指标及反直觉洞察:
为了确保结论的数据驱动与真实性,研究团队构建了极具规模的实证测试床。本次实证研究采用 DeepSeek-Chat-v3.2 作为主要骨干模型,在严格控制LLM训练数据污染的前提下,选取了22个涵盖简单、中等、困难三个层级的XBOW挑战。
在相同环境条件下,团队对13个具有代表性的开源AutoPT框架及2个基线框架(Kimi CLI, Claude Code)进行了端到端评估。整个验证过程消耗了超过100亿 Token,计算成本超过2500美元,并由15名以上的专业网络安全研究人员,历时4个多月对1500多份执行日志进行了深度的人工审查与错误归因。
通用Benchmark领先并不等于AutoPT场景最优,框架设计必须与底层LLM的行为特征进行深度适配(如Claude-Opus-4.6综合能力强,而GPT-5.2易过早终止)。腾讯云安全及联合高校团队的研究指明了下一代自动化渗透测试平台的演进路径:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。