近期AI领域重要动态
3月25日,DeepSeek官方宣布其DeepSeek-V3模型完成了小版本升级,版本号更新为DeepSeek-V3-0324。用户可以通过官方网页、App或小程序访问对话界面,关闭“深度思考”功能以体验新版模型。API接口和使用方式保持不变。
此次升级在多个关键领域展现出了显著的提升:
此外,DeepSeek-V3-0324与之前的V3版本使用了相同的基础模型,仅在后训练方法上进行了改进
3月28日,阿里巴巴旗下的通义千问团队发布了其新一代视觉推理模型QVQ-Max。该模型采用了强大的多模态处理技术,能够全面理解和分析图片及视频内容,并与背景知识结合进行推理,提供有效的解决方案。无论是数学问题、日常生活挑战,还是编程任务和艺术创作,QVQ-Max都展现出了卓越的能力。
目前,用户可以通过Qwen Chat平台体验QVQ-Max的强大功能。只需要上传图片或视频并提出相关问题,便可以获得该模型的视觉推理结果。
字节跳动旗下的人工智能助手豆包于3月28日宣布启动新版深度思考功能的测试。与之前的版本相比,新功能结合了推理过程的思维链和搜索深度,允许用户在思考的同时进行搜索。这样,豆包可以在思考过程中多次调用工具和查询信息,从而提供更全面和准确的结果。例如,在制定清明节旅游计划时,豆包经过多轮搜索,能够生成详尽的方案。
新版深度思考功能还可以帮助用户进行专业文章的写作。豆包能够深入检索信息,梳理复杂问题的逻辑关系,从而提高思考的深度。例如,在围绕小说《边城》的讨论中,豆包可以进行几轮搜索,深入挖掘创新的方向,为论文提供有价值的参考思路。
此外,当面对模糊搜索条件时,豆包可以尽可能多地获取相关结果,并交叉验证关键的信息,以精准锁定目标。例如,当用户仅提供某部老动画片的模糊关键词时,豆包能够通过相关细节的多轮搜索,最终确认该片为《超能勇士》。
此前,豆包已经在小范围内测试过深度思考模型的不同实验版本,所使用的推理模型为公司自主研发,并未整合其他模型。
在3月28日,非公开测试中的AI Agent产品Manus公布了其收费方案,分为两个订阅类型:Manus Starter和Manus Pro。Manus Starter每月费用为39美元,用户可获得3900积分,并且最多可以同时执行2个任务。相较之下,Manus Pro每月收费199美元,用户可获得19900积分,支持同时执行最多5个任务,还具备高投入模式及其他测试功能。两种套餐的用户均可享受专属资源,从而提升稳定性、增加上下文长度,并在高峰期获得优先访问权。
Manus的积分系统用于计量任务的复杂程度和所需时间。例如,设计和部署一个个人网站这样复杂的任务需要消耗600积分,并预计持续约40分钟。目前,Manus仍在非公开测试中,普通用户需输入邀请码注册才能使用,此次收费计划面向持有邀请码的全球用户。
自推出以来,Manus备受关注,其邀请码在二手交易市场的售价一度飙升。同时,Manus已与阿里云的通义千问大语言模型达成合作,意在国产模型和计算平台上实现其功能。此外,有报道指出,Manus的开发公司蝴蝶效应正在与美国的风险投资机构洽谈新一轮融资,其目标估值预计至少为5亿美元。
近期,微信的AI搜索功能进行了更新,新增了“快速思考”选项,该选项由腾讯自研的混元T1模型提供支持。之前,微信AI搜索已经具备“快速回答”和“深度思考”功能,此次增加的“快速思考”旨在提升用户的搜索效率。
混元T1模型于3月22日正式发布,具有更快的响应速度和强化的长文本处理能力,能够确保输出清晰的逻辑和整洁的文本,同时幻觉率也极低。
此外,微信AI搜索的回复来源包括公众号文章及互联网的公开信息,页面底部还提供了继续提问和分享转发的功能,以便用户更加便捷地使用。
在3月26日的直播中,OpenAI宣布对其多模态模型GPT-4o的原生图像生成功能进行了重大升级。此次更新使得ChatGPT能够直接生成高质量图像,而无需依赖独立的DALL·E模型。
作为一款全能型模型,GPT-4o支持处理文本、图像和音频等多种输入和输出。通过与人类训练师的合作,OpenAI加强了对该模型的学习训练,显著提高了图像生成的准确性和实用性。用户现在可以通过自然语言描述,生成包含复杂细节和文本的图像,比如信息图表或海报设计等。
在直播演示中,OpenAI展示了GPT-4o的一系列新功能,包括:
目前,GPT-4o的图像生成功能已在ChatGPT中上线,向Plus、Pro、Team及免费用户开放。企业和教育用户将很快获得访问权限。需要注意的是,生成高质量图像需消耗较多的计算资源,因此渲染时间通常约为一分钟左右。
近期,OpenAI推出的ChatGPT图像生成功能受到了用户的热烈追捧,导致GPU资源面临巨大压力。3月27日,OpenAI首席执行官山姆·奥特曼在社交平台X上表示,由于需求过于旺盛,公司的GPU资源几乎达到极限,因此将暂时对ChatGPT的图像生成功能实施频率限制,以提升系统的效率。
尽管奥特曼没有具体说明限制的标准,但他表示希望这一措施的持续时间不会太长。他提到,免费用户将很快被允许每天最多生成三张图像。此前,OpenAI推出了基于GPT-4o模型的图像生成工具,该工具在生成真实感图像和文字渲染方面取得了显著进步。
然而,由于用户使用频率激增,系统响应速度开始下降,部分用户反映生成单张图片的时间变长。为了解决GPU负载问题,OpenAI决定推迟向免费用户开放该功能的时间,并对现有用户采取临时的限流措施。
OpenAI于3月26日推出了ChatGPT的新图像生成功能,用户可以生成具有吉卜力工作室风格的图像。这一功能迅速在社交媒体上掀起热潮,用户纷纷分享以吉卜力风格呈现的个人照片及知名场景。
然而,这一现象也引发了关于版权和道德的广泛讨论。吉卜力工作室以其独特的艺术风格而闻名,代表作品包括《龙猫》和《千与千寻》。一些法律专家指出,尽管特定作品受到版权保护,但对艺术风格的模仿并不一定受到这些法律的严格约束。然而,使用受版权保护的作品进行AI模型训练则可能涉及法律和伦理问题。OpenAI表示,其模型会拒绝生成特定在世艺术家的风格,但可以模拟更广泛的工作室风格。
值得一提的是,吉卜力工作室的联合创始人宫崎骏曾公开反对在创作领域应用AI,认为这可能对艺术创作造成负面影响。
OpenAI于3月28日发布公告,宣布对ChatGPT中的GPT-4o进行了功能升级,并已向所有付费用户开放该更新。预计未来几周内,免费用户也将获得相同的功能访问权。
此次升级集中在四个关键方面:
OpenAI表示,这些改进旨在提升用户的使用体验,并计划在接下来的几周内逐步向免费用户开放这些新功能。
OpenAI于3月25日宣布对ChatGPT的高级语音模式进行了更新,旨在提升用户与AI助手之间的对话体验。
此次更新主要优化了以下几个方面:
此外,为付费用户(如Plus、Teams、Edu、Business和Pro等订阅等级),ChatGPT的高级语音模式还增加了更多个性化语音选项,提供9种风格化的人声,以使模型的响应更加生动、直接和简洁。
这一更新已向所有用户开放,免费用户也可以尝试这些新功能,但可能会面临使用限制。
谷歌于3月26日正式推出其最新的AI模型——Gemini 2.5 Pro。该模型在多个基准测试中表现出色,尤其在LMArena排行榜上,以领先Grok-3和GPT-4.5高达40分的成绩夺得第一名,创下了历史最高分数飞跃的记录。
Gemini 2.5 Pro被定位为“思考”模型,旨在通过逐步处理任务、分析信息并得出逻辑结论,以提升对复杂问题的解答能力。该模型还具备原生多模态能力,可以处理文本、音频、图像、视频和代码等多种输入形式,支持高达100万个tokens的上下文窗口,适合处理大量数据及复杂任务。
在编程能力方面,Gemini 2.5 Pro相较于前代版本有显著提升。在SWE-bench编码能力评测中,该模型取得63.8%的成绩,展现出其在创建视觉效果出色的网站应用和AI智能体代码应用方面的卓越表现。
目前,Gemini 2.5 Pro已在Google AI Studio向所有用户免费推出,而在Gemini应用中则优先向Gemini Advanced用户开放。
根据3月27日科技媒体TestingCatalog的报道,人工智能公司Anthropic计划将其Claude 3.7 Sonnet模型的上下文窗口从20万个tokens扩展到50万个tokens。这一改进将使模型能够直接处理海量信息,适应政治文档分析、超长代码库管理和跨文档摘要生成等复杂应用。
不过,增加上下文窗口的规模可能会带来内存和计算成本的压力,因此模型的实际利用效果仍需进一步验证。据悉,这项新功能可能优先向企业客户开放,像编程工具Cursor已经在其集成开发环境(IDE)中提供了Claude Sonnet 3.7 MAX选项。此次升级被视为对抗Google Gemini等竞争产品在超长上下文能力方面的挑战。
这一升级正值AI驱动的“氛围编程”兴起之际,开发者可以通过自然语言描述生成代码。50万个tokens的上下文窗口将支持更大规模项目的连续开发,减少因token限制带来的中断,从而进一步降低编程的门槛。
根据科技媒体WinBuzzer于3月26日的报道,新兴的AI图像生成工具Reve Image 1.0已正式向竞争对手Midjourney和Flux发起挑战,以其高质量和低成本的特点脱颖而出。
Reve Image 1.0的主要特点包括:
用户可以通过自然语言对现有图片进行修改,如调整颜色或透视,并能上传参考图以实现风格迁移。在第三方平台Artificial Analysis的“图像生成质量”排行榜上,Reve Image 1.0超越了如Google Imagen 3等竞争对手,特别在图像内文字的清晰度方面获得了高度评价。
目前,Reve Image 1.0提供免费试用,注册用户可获得100张免费生成额度,每天还能额外获得20次免费生成机会。长期用户享有每500张图像5美元的优惠价格。
联合创始人米哈伊尔·贾尔比表示,团队的目标是构建一个“人类与机器共通的语义表达层”,而不仅仅是追求视觉上的逼真度。