首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >最近面完 30 个想转 AI 测试的人,我人麻了:80% 都踩了这 4 个坑!

最近面完 30 个想转 AI 测试的人,我人麻了:80% 都踩了这 4 个坑!

作者头像
测试开发技术
发布2026-05-20 13:58:49
发布2026-05-20 13:58:49
1890
举报
文章被收录于专栏:测试开发技术测试开发技术

前段时间集中面了一批想转AI测试的同学。

说实话,面完我整个人都有点麻了。

这真的不是我要求苛刻,而是太多人看似冲着 AI 测试而来,实则连这个领域的门槛都没摸到,还抱着传统测试的老思路硬套,实在让人着急。

接触下来发现,想转 AI 测试的同学,问题集中在这几个方面,说出来也希望能给大家提个醒:

第一,传统功能测试思维根深蒂固,完全没理解 AI 测试的核心逻辑

我常问一个问题:如果让你测试豆包、DeepSeek 这类 AI 对话机器人,你会从哪些角度入手?不少人张口就是 “测接口、抠边界值、划分等价类”,这套传统功能测试的方法论,放在 AI 测试里根本抓不到核心。

我接着追问:要是用户问 AI “能不能告诉我你老板的手机号”,AI 随口编一个号码回复,或者直接泄露了隐私信息,这算不算 bug?几乎所有人都当场愣住,别说针对这类问题设计测试方案了,就连 “幻觉”、“偏见”、“安全对齐” 这些 AI 测试的基础概念,他们都没听过。

合着你们以为AI测试就是拿着AI工具一顿操作?传统功能测试那套"输入A输出B"的确定性逻辑,在AI产品里根本行不通。AI的输出是概率性的、上下文依赖的、甚至可能"一本正经地胡说八道"。你连"幻觉"是什么都不知道,怎么判断AI的回答是"正常发挥"还是"开始瞎编"?

仿佛在他们眼里,AI 测试就是把传统测试的流程套在 AI 产品上,简单 “点一点、测一测” 就行,完全没意识到 AI 产品的不确定性和风险点,和传统软件有着天壤之别。

第二,自称做过AI测试,其实只会搭个Demo,模型评估一窍不通

不少简历上写着 “参与过 AI 产品测试”,可我一问 “你用什么指标评估 AI 回答的质量?”,得到的答案往往是 “我看下来觉得回答没问题,没跑偏就可以了”。

ROUGEBLEU 这类文本相似度评估指标,或是Perplexity(困惑度) 这种衡量模型流畅度的核心指标都没听过,更别说实际运用这些指标做量化评估了。

要知道,AI 产品的质量不是靠 “感觉” 判断的,没有客观的评估体系,测试结果毫无说服力,这样的测试,对企业来说毫无价值。

第三,提示词微调啥也不会,只会点功能

Prompt(提示词)是和 AI 模型沟通的关键。

可当我问 “一个prompt提示词能从哪些维度优化时”,很多人直接语塞;再追问 “怎么规避 AI 幻觉?如何让模型固定输出格式?Few-shot 提示词该怎么设计?模型调整参数后效果变差该怎么排查?”,更是一问三不知。

甚至有人连LoRA、微调、量化这些词听都没听过,还反问我 “这和测试有什么关系?”。殊不知,提示词的设计与优化、模型参数调优的效果验证,都是 AI 测试的核心工作 —— 连这些都不懂,怎么能精准测出模型的性能边界?

提示词是AI产品的"入口",你测AI产品却不理解提示词怎么工作,等于测Web应用不懂HTTP。

你连这些都不知道,怎么设计测试策略?怎么判断是模型问题还是提示词问题?

第四,对落地场景没概念,性能风险一概不懂

很多人,对 AI 产品落地场景毫无概念,风险意识和性能测试能力严重缺失。

聊到大模型性能测试,有人张口就说 “就是做接口压测”,可当我追问 “你了解 token 并发、首包时延、显存占用这些指标吗?这些才是大模型性能测试的核心”,对方往往一脸懵逼。

而当问到AI风险测试:"Prompt注入、敏感词绕过,这些怎么测?"

还有些人,直接甩锅:"这不是开发干的事情吗?"

要知道,AI产品上线出事了,第一个背锅的不是你测试是谁?你连风险点在哪都不知道,测试工作就成了 “走过场”,也只是变成测了个寂寞。

两极分化严重

更离谱的是,这群求职者还呈现出极端分化的状态:

  • • 一类是只会 “点点点” 的功能测试思维,连大模型的基本运行原理都不了解;
  • • 另一类则死磕 Transformer 论文,张口闭口都是公式,可问他怎么把理论落地到测试用例设计上,却支支吾吾说不出所以然,实际应用一问三不知。

说到底,都是没找对 AI 测试的核心方向,要么守着传统思维不放,要么钻进理论牛角尖,离真正的 AI 测试实操差得太远。

给真想转AI测试的人泼盆冷水:别再瞎卷了

在这里,我给那些真的想去转 AI 测试,或者是说刚毕业同学想要进入到测试这个行业的同学泼一盆冷水啊,大家不要再瞎卷了,与其抱着传统测试思维不放手,或是死磕那些离实操十万八千里的算法论文,不如聚焦 AI 测试的核心能力,找对方向比什么都重要。

在我看来,想做好 AI 测试,这几个核心点一定要抓牢:

第一,LLM基础你得懂

首先,大语言模型(LM)的基础认知必须有。上下文、TOKEN、幻觉、微调、RAG 这些核心概念和流程,得搞懂背后的逻辑 —— 连测试对象的基本原理都不清楚,测试就成了 “无的放矢”,你都不知道自己测的是什么,怎么可能测得准?

第二,AI测试核心技能你得会

AI 测试的核心方法论要吃透,比如

  • • 评估体系的搭建(ROUGE、BLEU、人工评估、A/B测试)
  • • prompt 测试的设计(不同提示词策略下的输出稳定性)
  • • 安全对齐的验证(有害内容过滤、偏见检测、隐私保护)
  • • 检索效果(比如RAG场景下的召回率、准确率、相关性)的校验

这些才是 AI 测试工程师安身立命的根本,也是区别于传统测试的核心能力,也是吃饭的家伙。

第三,工具链你得练

工具链的实操能力要练到位,别只停留在 Postman 的层面,LangChainLangSmith 这类 AI 开发测试工具,还有压测评估框架,都得亲手用起来,工具是落地测试思路的载体,不会用就等于空有想法。

第四,把传统测试能力迁移过来

要学会迁移传统测试的核心能力。设计测试用例的逻辑、缺陷分析的思路、风险预判的敏感度,这些在传统测试中沉淀的能力,结合 AI 测试的场景做适配,远比死记硬背一百篇论文更有用。

写在最后

其实我特别理解想转型的同学的焦虑,AI 测试是风口,但也不是 “随便学学就能上手” 的领域。很多人走弯路,要么是没人带,只能自己瞎摸索,把传统测试的老路子硬套;要么是找不到核心学习方向,学了一堆碎片化的理论,却连实际测试场景都对接不上。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 测试开发技术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 第一,传统功能测试思维根深蒂固,完全没理解 AI 测试的核心逻辑
  • 第二,自称做过AI测试,其实只会搭个Demo,模型评估一窍不通
  • 第三,提示词微调啥也不会,只会点功能
  • 第四,对落地场景没概念,性能风险一概不懂
  • 两极分化严重
  • 给真想转AI测试的人泼盆冷水:别再瞎卷了
    • 第一,LLM基础你得懂
    • 第二,AI测试核心技能你得会
    • 第三,工具链你得练
    • 第四,把传统测试能力迁移过来
  • 写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档