就在刚刚,OpenAI正式推出了第一组基础构建模块,旨在助力开发者和企业打造实用且可靠的Agent系统。
在过去一年中,OpenAI不断拓展模型能力,新增了高级推理、多模态交互以及新型安全技术等功能,这些都为模型处理复杂多步骤任务奠定了坚实基础。
然而将这些能力转化为生产就绪的代理仍面临诸多挑战,通常需要大量的提示迭代和自定义编排逻辑,同时缺乏足够的可视化支持和内置辅助功能。
为攻克这些难题,他们精心打造了一套全新设计的 API 和工具,致力于简化代理型应用程序的开发流程:
这些新工具优化了核心代理逻辑、编排和交互流程,极大地降低了开发者构建代理应用的门槛。在未来几周乃至数月内,还将陆续推出更多工具和功能,进一步简化和加速基于我们平台构建智能体应用的开发进程。
推出 Responses API
Responses API 是一个全新 API 原语,旨在利用 OpenAI 内置工具构建智能体。融合了 Chat Completions 的简洁性与 Assistants API 的工具使用能力。
随着模型能力的持续演进, Responses API 将为开发者构建智能体应用提供更灵活的基础架构。通过单次 Responses API 调用,开发者将能够使用多种工具和模型轮次解决日益复杂的任务。
Responses API 将支持网络搜索、文件搜索和计算机使用等新型内置工具。这些工具旨在协同工作,将模型与现实世界连接,使其在完成任务时更具实用性。
网络搜索
通过网络快速获取最新答案,并附带清晰且相关的引用来源。在 Responses API 中,使用 gpt-4o 和 gpt-4o-mini 时,网络搜索可作为工具使用,并可与其他工具或函数调用结合使用。
const response = await openai.responses.create({
model: "gpt-4o",
tools: [ { type: "web_search_preview" } ],
input: "What was a positive news story that happened today?",
});
console.log(response.output_text);
文件搜索
通过改进的文件搜索工具轻松从海量文档中检索相关信息。该工具支持多种文件类型,具备查询优化、元数据过滤和自定义重新排序功能,能够提供快速、准确的搜索结果。通过 Responses API,仅需几行代码即可完成集成。
const productDocs = await openai.vectorStores.create({
name: "Product Documentation",
file_ids: [file1.id, file2.id, file3.id],
});
const response = await openai.responses.create({
model: "gpt-4o-mini",
tools: [{
type: "file_search",
vector_store_ids: [productDocs.id],
}],
input: "What is deep research by OpenAI?",
});
console.log(response.output_text);
计算机使用
可利用 Responses API 中的计算机使用工具构建能在计算机上完成任务的智能体,该工具由赋能 Operator 的同款计算机使用代理(CUA)模型驱动。
内置计算机使用工具可捕获模型生成的鼠标和键盘动作,使开发者能够通过直接将这些动作转化为其运行环境中的可执行命令,实现计算机使用任务的自动化。
const response = await openai.responses.create({
model: "computer-use-preview",
tools: [{
type: "computer_use_preview",
display_width: 1024,
display_height: 768,
environment: "browser",
}],
truncation: "auto",
input: "I'm looking for a new camera. Help me find the best one.",
});
console.log(response.output);
该 API 还带来了多项可用性改进,包括统一的项目式设计、简化的多态性、直观的流式事件以及类似 response.output_text 的 SDK 辅助工具,可轻松获取模型的文本输出。
Agents SDK
除了构建智能体的核心逻辑并为其提供工具访问权限以使其发挥作用外,开发人员还需要编排智能体工作流程。
全新的开源 Agents SDK 简化了多智能体工作流程的编排,相比 Swarm(实验性 SDK)实现了重大改进——该 SDK 已被开发者社区广泛采用,并被多个客户成功部署。
改进包括:
from agents import Agent, Runner, WebSearchTool, function_tool, guardrail
@function_tool
def submit_refund_request(item_id: str, reason: str):
# Your refund logic goes here
return "success"
support_agent = Agent(
name="Support & Returns",
instructions="You are a support agent who can submit refunds [...]",
tools=[submit_refund_request],
)
shopping_agent = Agent(
name="Shopping Assistant",
instructions="You are a shopping assistant who can search the web [...]",
tools=[WebSearchTool()],
)
triage_agent = Agent(
name="Triage Agent",
instructions="Route the user to the correct agent.",
handoffs=[shopping_agent, support_agent],
)
output = Runner.run_sync(
starting_agent=triage_agent,
input="What shoes might work best with my outfit so far?",
)
Agents SDK 适用于多种现实应用场景,包括客户支持自动化、多步骤研究、内容生成、代码审查和销售线索挖掘。
Agents SDK 可与 Responses API 和 Chat Completions API 配合使用。只要其他供应商的模型提供 Chat Completions 风格的 API 端点,该 SDK 也能与其配合使用。
开发者可立即将其集成到 Python 代码库中,Node.js 支持即将推出。
来源信息: