首页
学习
活动
专区
圈层
工具
发布
首页标签模型测试

#模型测试

基于大语言模型的反钓鱼培训内容生成与效果评估

草竹道人

中国互联网络信息中心 | 工程师 (已认证)

用户教育是组织防御钓鱼攻击的关键环节,但传统培训材料存在更新滞后、场景单一、缺乏个性化等问题,难以应对日益逼真的现代钓鱼邮件。本文基于意大利巴里大学开展的两阶段...

100

小型语言模型在钓鱼网站检测中的应用研究

草竹道人

中国互联网络信息中心 | 工程师 (已认证)

随着网络钓鱼攻击的持续演进与规模化,传统基于规则或浅层机器学习的检测方法在面对高度伪装、动态生成的恶意页面时逐渐显现出局限性。近年来,大型语言模型(LLM)在网...

5600

Claude Opus 4.5深度评测:如何以1/3成本实现旗舰级AI性能

AI日志

当前AI模型的价格战已经发展到一个出人意料的程度。Anthropic发布的Claude Opus 4.5不仅在性能方面得以实现突破,还把旗舰级模型的价格进行下调...

58720

编码设计场景下的AI 模型选择分析

李福春

小冰跃动 | 架构师 (已认证)

通用编码冠军: GPT-5 在 SWE-bench Verified 上得分 74.9%,是目前代码能力最强的模型,并且在前端开发中 70% 的时间优于 o3

18300

快递AI-模型测试评估

默默的开发

为公司选择外部大模型并开展场景化测试,需结合场景需求、模型能力、数据安全、定制化及成本等维度综合评估。以下是分阶段的解决方案:

22210

AI对齐审计代理技术解析

用户11764306

当AI模型试图过度迎合用户或自行其是时,可能对企业构成风险。因此除性能评估外,对齐测试至关重要。但传统人工审计存在两大挑战:可扩展性和验证有效性。

12010

飞凌RK3588四摄+AI模型,助力安防网关从“看见”向“看懂”进化

飞凌嵌入式

在智慧城市与工业4.0加速发展的背景下,安防监控系统正经历从"看得见"到"看得懂"的智能化升级。尤其在智慧交通、智能楼宇及公共安全领域,实时视频分析与快速决策能...

36110

智能触屏万用表的科技优势在哪

时频专家

在科技飞速发展的今天,电子测量仪器也在不断进化。智能触屏万用表作为新一代的测量工具,正以其独特的优势和创新的功能,为电子工程师、技术人员以及电子爱好者带来了前所...

18010

mlop.ai: 全部开源的超高效实验追踪及数据管理平台

用户11639969

mlop.ai 是一个主流解决方案的平替(如ClearML, Comet, WandB),并专为中国企业提供优化支持。

39710

大模型测试技术与实践(文末送书)

CKL的思考

《大模型测试技术与实践》不仅深入探讨了大模型测试的独特挑战和机遇,还提出了将传统软件测试的原则和方法与 AI 系统的测试方法相结合的实践方案,双管齐下来确保大模...

66213

性能测试成熟模型业务模型

漫谈测试

要达到预期目标的最佳实践效果,往往离不开理论的指导,对性能测试体系建设来说也不例外,性能测试体系理论的核心价值是在项目实践过程中体现的。我们针对具体方案的设计进...

31120

TiDB 资源管控的对撞测试以及最佳实践架构

PingCAP

在现代数据库管理系统中,资源管控是优化系统性能、提高用户密度和降低成本的关键因素之一。TiDB 作为一个具有存算分离架构的分布式数据库,面临着在动态业务环境下如...

26910

iOS开发之集成目标检测模型YOLOv8

YungFan

YOLO(You Only Look Once)是一种使用卷积神经网络进行目标检测的算法。YOLO 系列模型集成度很高、使用简单,是实际开发中常用的目标检测模型...

1.1K10

llama3&open-webui快速实现本地模型搭建

司夜

腾讯 | 后端开发 (已认证)

开始本地模型测试,断网后也可以离线使用了,完全不用担心信息外泄,不过一般个人电脑也仅仅是运行起来,速度比较慢,只能满足下自己日常的好奇心,真正要投入生产还是需要...

2.1K50
领券