微软最近推出了其所有软件的新版,增加了一个人工智能(AI)助手,可以为你完成各种任务。
Copilot可以总结团队在线会议上的口头对话,根据口头讨论提出支持或反对某一特定观点的论点,并回答你的部分电子邮件。它甚至可以编写计算机代码。
这种快速发展的技术似乎让我们更接近这样一个未来:人工智能使我们的生活更轻松,并消除我们作为人类必须做的所有无聊和重复的事情。
但是,虽然这些进步都非常令人印象深刻和有用,但我们必须谨慎使用这些大型语言模型(LLM)。尽管它们具有直觉性,但仍然需要技巧才能有效、可靠和安全地使用它们。
大型语言模型
LLM是一种“深度学习”神经网络,旨在通过根据提供的提示,分析不同反应的概率来理解用户的意图。因此,当用户输入提示时,LLM检查文本并确定最可能的响应。
ChatGPT是LLM的一个突出例子,它可以为各种主题的提示提供答案。然而,尽管ChatGPT的响应看起来很有知识,但它并不具备实际的知识。它的响应只是基于给定提示的最可能的结果。
当人们向ChatGPT、Copilot和其他LLM提供他们想要完成的任务的详细描述时,这些模型可以提供高质量的响应。这可能包括生成文本、图像或计算机代码。
但是,作为人类,我们经常挑战技术所能做的和它最初设计的目的的界限。因此,我们开始使用这些系统来做我们应该自己做的跑腿工作。
为什么过度依赖人工智能会成为一个问题
尽管LLM的回答看起来很聪明,但我们不能盲目地相信它们是准确或可靠的。我们必须仔细评估和验证它们的输出,确保我们最初的提示反映在所提供的答案中。
为了有效地核实和确认LLM的产出,我们需要对主题有很强的了解。如果没有专业知识,我们就无法提供必要的质量保证。
在我们利用LLM课程来弥补自身知识差距的情况下,这一点尤为重要。在这里,知识的缺乏可能会导致我们无法确定输出是否正确。在生成文本和编码时可能出现这种情况。
使用人工智能参加会议和总结讨论,在可靠性方面存在明显的风险。
虽然会议记录以文字记录为基础,但会议记录仍然与LLM的其他文本的生成方式相同。它们仍然基于语言模式和所说内容的概率,因此在采取行动之前需要进行验证。
由于同音异义词,即发音相同但含义不同的单词,它们也面临着翻译问题。由于谈话的背景,人类很善于理解在这种情况下的意思,但人工智能不擅长推断上下文,也不理解细微差别。因此,指望它根据一份可能错误的文字记录来阐述论点,还会带来更多的问题。
如果我们使用人工智能来生成计算机代码,验证就更难了。用测试数据测试计算机代码是验证其功能的唯一可靠方法。虽然这表明代码按预期运行,但并不能保证其行为与现实世界的期望一致。
假设我们使用生成式人工智能为情感分析工具创建代码。目标是分析产品评论,并将评论分为正面、中性或负面。我们可以测试系统的功能,并正确地验证代码功能 —— 从技术编程的角度来看,它是合理的。
然而,想象一下,我们在现实世界中部署了这样的软件,它开始将讽刺的产品评论归类为积极的。情绪分析系统缺乏必要的语境知识,无法理解讽刺不会被用作积极的反馈,而恰恰相反。
在这种微妙的情况下,验证代码的输出与期望的结果相匹配需要专业知识。
非程序员将不会了解用于确保代码正确的软件工程原则,例如计划、方法、测试和文档。编程是一门复杂的学科,软件工程是作为管理软件质量的领域而出现的。
正如我自己的研究所显示的那样,存在一个重大的风险,即非专业人员会忽略或跳过软件设计过程中的关键步骤,从而导致代码的质量未知。
确认和验证
像ChatGPT和Copilot这样的LLM是我们都能从中受益的强大工具。但我们必须小心,不要盲目相信给我们的输出。
我们正处于一场基于这项技术的伟大革命的开端。人工智能有无限的可能性,但它需要被塑造、检查和验证。目前,人类是唯一能做到这一点的。
如果朋友们喜欢,敬请关注“知新了了”!
领取专属 10元无门槛券
私享最新 技术干货