首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Anthropic重磅升级Claude 3.5 系列模型,像人一样操作电脑!

人工智能公司 Anthropic 宣布Claude3.5系列模型的重磅升级,包括全新的 Claude3.5Sonnet 和 Claude3.5Haiku。升级后的版本号称可以让人工智能全面接管你的个人电脑,它能够执行多种基本任务,比如模拟输入键盘和鼠标点击,从而使用你电脑上安装的任何应用程序。

编码能力显著提升,超越OpenAI o1-preview 模型

新的 Claude3.5Sonnet 在各方面都有显著提升,尤其是在编码能力方面。它在 SWE-bench Verified 上的得分从33.4% 提升到49.0%,超越了所有公开可用的模型,包括 OpenAI 的 o1-preview 模型。

此外,它在 TAU-bench 上的表现也有所提升,特别是在零售和航空领域。这一切都在保持与前产品相同的价格和速度下实现。

客户的反馈显示,升级后的 Claude3.5Sonnet 在 AI 编码方面有了质的飞跃。例如,GitLab 测试了这个模型用于 DevSecOps 任务,发现其推理能力有了明显提升,且没有增加延迟。

Claude3.5Haiku 是Claude下一代最快的模型,以相同的成本和速度超越了 Claude3Opus,并在多个智能基准测试中表现出色,特别是在编码任务上。Claude3.5Haiku 的低延迟和更精准的指令跟随能力,使其非常适合用户界面产品和个性化体验的生成。

像人类一样操纵电脑

新推出的电脑使用功能是一个全新的尝试。官方表示这并不是为 Claude 开发特定的工具,而是教授它通用的计算机技能,让它能够使用各种标准工具和软件程序。开发者可以利用这一能力来自动化重复的流程、构和测试软件,以及进行开放性研究等。

当然,目前 Claude 在使用计算机时的能力仍然有待提高。一些简单的操作,比如滚动和拖动,目前对于 Claude 来说仍然存在挑战。为了确保安全,官方还开发了新的分类器,能够识别电脑使用是否造成了潜在的危害。

Anthropic 的首席科学官贾里德・卡普兰在接受采访时表示:“我们即将进入一个新时代,人工智能可以利用你作为个人所使用的所有工具来完成任务。” 这项更新标志着 Anthropic 在将商业 AI 模型从传统的聊天框架扩展为全面的 “AI 代理” 方面迈出了重要一步。

在一段演示中,Claude 被要求为朋友计划一次去金门大桥观看日出的旅行。AI 不仅打开了网页,还在谷歌上查找了一个合适的观景地点,并将行程添加到日历应用中。虽然这个表现令人印象深刻,但《连线》指出,它并没有提供一些额外的信息,比如如何到达目的地。

此外,在另一个演示中,Claude 被要求搭建一个简单的网站,结果它使用微软的 Visual Studio Code 成功创建了一个网站,并打开本地服务器进行测试。不过,在这个过程中,它遇到了一些小错误,但在提示下成功修复了代码。

Claude 3.5 Sonne通过从客户关系管理系统(CRM)中检索所需信息,自主完成一份供应商申请表,展示了其在不同软件平台上执行多步骤任务的能力。

升级后的 Claude3.5Sonnet 现在可供所有用户使用。从今天开始,开发人员可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用计算机测试版进行构建。而新的 Claude3.5Haiku 将于本月晚些时候发布。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OzTW3DlUdqFGY8IGP2JvQAaw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券