部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >AI巨头集体放大招!DeepSeek优化、豆包变强、ChatGPT画图不靠DALL·E、Gemini 2.5挑战GPT-5?

AI巨头集体放大招!DeepSeek优化、豆包变强、ChatGPT画图不靠DALL·E、Gemini 2.5挑战GPT-5?

作者头像
福大大架构师每日一题
发布2025-03-31 20:10:55
发布2025-03-31 20:10:55
1550
举报

近期AI领域重要动态

  1. 1. DeepSeek-V3升级发布:新版本 DeepSeek-V3-0324 上线,全面提升了推理能力、前端开发和中文写作,推理性能超过了 GPT-4.5。
  2. 2. 视觉推理模型发布:阿里巴巴的通义千问团队推出了 QVQ-Max 模型,具备细致观察、深入推理和灵活应用的核心能力。
  3. 3. 豆包新版深度思考推出:新版支持“边想边搜”的功能,使用户可以在思考的过程中多次调用工具和搜索信息,以提供更全面和准确的结果。
  4. 4. Manus收费方案公布:提供两种订阅方案,39 美元和 199 美元,分别对应 3900 积分和 19900 积分,并支持不同数量的并行任务。
  5. 5. 微信 AI 搜索功能更新:新增“快速思考”功能,依托腾讯自研混元 T1 模型,改善搜索体验。
  6. 6. OpenAI发布GPT-4o图像生成能力:新功能无需依赖DALL·E,可以直接生成高质量图像,文本渲染效果优异。
  7. 7. ChatGPT生图功能限流:由于需求激增,OpenAI暂时实施频率限制,以优化系统效率。
  8. 8. 版权争议涌现:ChatGPT生成吉卜力风格图像引发广泛讨论,涉及艺术风格模仿与版权保护的法律边界。
  9. 9. GPT-4o功能升级:优化了多指令解析、技术问题处理、逻辑推理和创造力,同时简化了交互界面。
  10. 10. ChatGPT语音模式更新:减少了不必要的打断并新增了暂停功能,付费用户可以选择9种风格化人声。
  11. 11. 谷歌发布Gemini 2.5 Pro:在LMArena评测中,该模型以领先 Grok-3 和 GPT-4.5 整整40分,创下历史最大分数飞跃。
  12. 12. Claude扩展上下文窗口:Claude 3.7 Sonnet计划将上下文窗口从20万扩展至50万 tokens。
  13. 13. Reve Image 1.0挑战行业巨头:新推出的AI文生图工具以其高质量和低成本特性挑战Midjourney,同时展现出色的文字渲染能力。

1. DeepSeek-V3 迎来重大升级,性能实现全面提升

3月25日,DeepSeek官方宣布其DeepSeek-V3模型完成了小版本升级,版本号更新为DeepSeek-V3-0324。用户可以通过官方网页、App或小程序访问对话界面,关闭“深度思考”功能以体验新版模型。API接口和使用方式保持不变。

此次升级在多个关键领域展现出了显著的提升:

  1. 1. 推理能力提升:新版V3模型借鉴了DeepSeek-R1模型中的强化学习技术,在数学和代码相关的评测集上表现超过了GPT-4.5,从而大幅增强了推理能力。
  2. 2. 前端开发能力增强:新版模型在生成HTML等前端代码方面提高了代码的可用性,所生成的视觉效果更为美观,设计感更强。
  3. 3. 中文写作优化:在中文写作任务中,新版模型针对中长篇文本的创作进行了优化,生成的文本在条理性和连贯性方面有了显著提高。

此外,DeepSeek-V3-0324与之前的V3版本使用了相同的基础模型,仅在后训练方法上进行了改进

2. 阿里推出新型视觉推理模型QVQ-Max

3月28日,阿里巴巴旗下的通义千问团队发布了其新一代视觉推理模型QVQ-Max。该模型采用了强大的多模态处理技术,能够全面理解和分析图片及视频内容,并与背景知识结合进行推理,提供有效的解决方案。无论是数学问题、日常生活挑战,还是编程任务和艺术创作,QVQ-Max都展现出了卓越的能力。

QVQ-Max的主要功能包括:
  1. 1. 细致观察:该模型具备对复杂图表和日常照片的详细解析能力,可以快速识别其中的关键元素,如物体和文字。
  2. 2. 深入推理:在识别内容的基础上,QVQ-Max能够进一步分析信息,结合背景知识得出推论。例如,可以在几何问题中通过图形推导出答案,或在视频中预测可能的发展情节。
  3. 3. 灵活应用:除了分析和推理,QVQ-Max还可以执行插画设计、生成短视频脚本等创作任务,甚至能够根据用户的需求定制角色扮演内容。

目前,用户可以通过Qwen Chat平台体验QVQ-Max的强大功能。只需要上传图片或视频并提出相关问题,便可以获得该模型的视觉推理结果。

3. 字节豆包的新版深度思考功能现已开启测试。

字节跳动旗下的人工智能助手豆包于3月28日宣布启动新版深度思考功能的测试。与之前的版本相比,新功能结合了推理过程的思维链和搜索深度,允许用户在思考的同时进行搜索。这样,豆包可以在思考过程中多次调用工具和查询信息,从而提供更全面和准确的结果。例如,在制定清明节旅游计划时,豆包经过多轮搜索,能够生成详尽的方案。

新版深度思考功能还可以帮助用户进行专业文章的写作。豆包能够深入检索信息,梳理复杂问题的逻辑关系,从而提高思考的深度。例如,在围绕小说《边城》的讨论中,豆包可以进行几轮搜索,深入挖掘创新的方向,为论文提供有价值的参考思路。

此外,当面对模糊搜索条件时,豆包可以尽可能多地获取相关结果,并交叉验证关键的信息,以精准锁定目标。例如,当用户仅提供某部老动画片的模糊关键词时,豆包能够通过相关细节的多轮搜索,最终确认该片为《超能勇士》。

此前,豆包已经在小范围内测试过深度思考模型的不同实验版本,所使用的推理模型为公司自主研发,并未整合其他模型。

4. Manus公布了其收费方案,提供两个价格选项:39美元和199美元

在3月28日,非公开测试中的AI Agent产品Manus公布了其收费方案,分为两个订阅类型:Manus Starter和Manus Pro。Manus Starter每月费用为39美元,用户可获得3900积分,并且最多可以同时执行2个任务。相较之下,Manus Pro每月收费199美元,用户可获得19900积分,支持同时执行最多5个任务,还具备高投入模式及其他测试功能。两种套餐的用户均可享受专属资源,从而提升稳定性、增加上下文长度,并在高峰期获得优先访问权。

Manus的积分系统用于计量任务的复杂程度和所需时间。例如,设计和部署一个个人网站这样复杂的任务需要消耗600积分,并预计持续约40分钟。目前,Manus仍在非公开测试中,普通用户需输入邀请码注册才能使用,此次收费计划面向持有邀请码的全球用户。

自推出以来,Manus备受关注,其邀请码在二手交易市场的售价一度飙升。同时,Manus已与阿里云的通义千问大语言模型达成合作,意在国产模型和计算平台上实现其功能。此外,有报道指出,Manus的开发公司蝴蝶效应正在与美国的风险投资机构洽谈新一轮融资,其目标估值预计至少为5亿美元。

5. 微信AI搜索推出了新的“快速思考”功能

近期,微信的AI搜索功能进行了更新,新增了“快速思考”选项,该选项由腾讯自研的混元T1模型提供支持。之前,微信AI搜索已经具备“快速回答”和“深度思考”功能,此次增加的“快速思考”旨在提升用户的搜索效率。

混元T1模型于3月22日正式发布,具有更快的响应速度和强化的长文本处理能力,能够确保输出清晰的逻辑和整洁的文本,同时幻觉率也极低。

此外,微信AI搜索的回复来源包括公众号文章及互联网的公开信息,页面底部还提供了继续提问和分享转发的功能,以便用户更加便捷地使用。

6. OpenAI推出了GPT-4o的原生图像生成功能

在3月26日的直播中,OpenAI宣布对其多模态模型GPT-4o的原生图像生成功能进行了重大升级。此次更新使得ChatGPT能够直接生成高质量图像,而无需依赖独立的DALL·E模型。

作为一款全能型模型,GPT-4o支持处理文本、图像和音频等多种输入和输出。通过与人类训练师的合作,OpenAI加强了对该模型的学习训练,显著提高了图像生成的准确性和实用性。用户现在可以通过自然语言描述,生成包含复杂细节和文本的图像,比如信息图表或海报设计等。

在直播演示中,OpenAI展示了GPT-4o的一系列新功能,包括:

  1. 1. 文本渲染:模型可以准确地在图像中呈现文字,适用于制作带有说明的图表或标注。
  2. 2. 多轮交互生成:用户可以与模型进行多轮对话,以逐步优化生成的图像,确保所有细节符合预期。
  3. 3. 指令遵循:模型能够准确理解并执行用户的具体指令,生成符合特定要求的图像。

目前,GPT-4o的图像生成功能已在ChatGPT中上线,向Plus、Pro、Team及免费用户开放。企业和教育用户将很快获得访问权限。需要注意的是,生成高质量图像需消耗较多的计算资源,因此渲染时间通常约为一分钟左右。

7. 由于ChatGPT的原生图像生成功能受到了极大的欢迎,OpenAI决定临时实施限流措施

近期,OpenAI推出的ChatGPT图像生成功能受到了用户的热烈追捧,导致GPU资源面临巨大压力。3月27日,OpenAI首席执行官山姆·奥特曼在社交平台X上表示,由于需求过于旺盛,公司的GPU资源几乎达到极限,因此将暂时对ChatGPT的图像生成功能实施频率限制,以提升系统的效率。

尽管奥特曼没有具体说明限制的标准,但他表示希望这一措施的持续时间不会太长。他提到,免费用户将很快被允许每天最多生成三张图像。此前,OpenAI推出了基于GPT-4o模型的图像生成工具,该工具在生成真实感图像和文字渲染方面取得了显著进步。

然而,由于用户使用频率激增,系统响应速度开始下降,部分用户反映生成单张图片的时间变长。为了解决GPU负载问题,OpenAI决定推迟向免费用户开放该功能的时间,并对现有用户采取临时的限流措施。

8. ChatGPT的新图像生成器引发了关于吉卜力风格的版权争议

OpenAI于3月26日推出了ChatGPT的新图像生成功能,用户可以生成具有吉卜力工作室风格的图像。这一功能迅速在社交媒体上掀起热潮,用户纷纷分享以吉卜力风格呈现的个人照片及知名场景。

然而,这一现象也引发了关于版权和道德的广泛讨论。吉卜力工作室以其独特的艺术风格而闻名,代表作品包括《龙猫》和《千与千寻》。一些法律专家指出,尽管特定作品受到版权保护,但对艺术风格的模仿并不一定受到这些法律的严格约束。然而,使用受版权保护的作品进行AI模型训练则可能涉及法律和伦理问题。OpenAI表示,其模型会拒绝生成特定在世艺术家的风格,但可以模拟更广泛的工作室风格。

值得一提的是,吉卜力工作室的联合创始人宫崎骏曾公开反对在创作领域应用AI,认为这可能对艺术创作造成负面影响。

9. OpenAI对GPT-4o进行了升级,付费用户将率先体验这一改进

OpenAI于3月28日发布公告,宣布对ChatGPT中的GPT-4o进行了功能升级,并已向所有付费用户开放该更新。预计未来几周内,免费用户也将获得相同的功能访问权。

此次升级集中在四个关键方面:

  1. 1. 多指令解析优化:显著增强了对含有多重需求的复杂指令的理解能力。
  2. 2. 技术问题处理提升:强化了对复杂技术和编程问题的解析能力及解决方案的生成。
  3. 3. 逻辑推理与创造力加强:增强了创新思维及跨领域知识结合的能力。
  4. 4. 交互界面简化:减少了表情符号的使用频率,以优化专业场景下的对话体验。

OpenAI表示,这些改进旨在提升用户的使用体验,并计划在接下来的几周内逐步向免费用户开放这些新功能。

10. OpenAI对ChatGPT进行了升级,推出了新的高级语音模式

OpenAI于3月25日宣布对ChatGPT的高级语音模式进行了更新,旨在提升用户与AI助手之间的对话体验。

此次更新主要优化了以下几个方面:

  1. 1. 减少不必要的打断:新版本解决了用户在思考或深吸气时,AI助手可能会不当插话的问题。现在,用户可以在对话中停顿而不会被AI打断,从而实现更加自然和流畅的交流。
  2. 2. 新增暂停功能:用户可以在语音对话中随时暂停,整理思路后再继续交流,这增强了对话的灵活性和控制感。

此外,为付费用户(如Plus、Teams、Edu、Business和Pro等订阅等级),ChatGPT的高级语音模式还增加了更多个性化语音选项,提供9种风格化的人声,以使模型的响应更加生动、直接和简洁。

这一更新已向所有用户开放,免费用户也可以尝试这些新功能,但可能会面临使用限制。

11. 谷歌推出了Gemini 2.5 Pro,显著提升了其性能

谷歌于3月26日正式推出其最新的AI模型——Gemini 2.5 Pro。该模型在多个基准测试中表现出色,尤其在LMArena排行榜上,以领先Grok-3和GPT-4.5高达40分的成绩夺得第一名,创下了历史最高分数飞跃的记录。

Gemini 2.5 Pro被定位为“思考”模型,旨在通过逐步处理任务、分析信息并得出逻辑结论,以提升对复杂问题的解答能力。该模型还具备原生多模态能力,可以处理文本、音频、图像、视频和代码等多种输入形式,支持高达100万个tokens的上下文窗口,适合处理大量数据及复杂任务。

在编程能力方面,Gemini 2.5 Pro相较于前代版本有显著提升。在SWE-bench编码能力评测中,该模型取得63.8%的成绩,展现出其在创建视觉效果出色的网站应用和AI智能体代码应用方面的卓越表现。

目前,Gemini 2.5 Pro已在Google AI Studio向所有用户免费推出,而在Gemini应用中则优先向Gemini Advanced用户开放。

12. Claude 3.7 Sonnet计划将上下文窗口扩展至50万个tokens

根据3月27日科技媒体TestingCatalog的报道,人工智能公司Anthropic计划将其Claude 3.7 Sonnet模型的上下文窗口从20万个tokens扩展到50万个tokens。这一改进将使模型能够直接处理海量信息,适应政治文档分析、超长代码库管理和跨文档摘要生成等复杂应用。

不过,增加上下文窗口的规模可能会带来内存和计算成本的压力,因此模型的实际利用效果仍需进一步验证。据悉,这项新功能可能优先向企业客户开放,像编程工具Cursor已经在其集成开发环境(IDE)中提供了Claude Sonnet 3.7 MAX选项。此次升级被视为对抗Google Gemini等竞争产品在超长上下文能力方面的挑战。

这一升级正值AI驱动的“氛围编程”兴起之际,开发者可以通过自然语言描述生成代码。50万个tokens的上下文窗口将支持更大规模项目的连续开发,减少因token限制带来的中断,从而进一步降低编程的门槛。

13. Reve Image 1.0成为AI文生图领域的一股新兴挑战力量

根据科技媒体WinBuzzer于3月26日的报道,新兴的AI图像生成工具Reve Image 1.0已正式向竞争对手Midjourney和Flux发起挑战,以其高质量和低成本的特点脱颖而出。

Reve Image 1.0的主要特点包括:

  1. 1. 精准理解用户指令:该工具能够准确解读用户的文本描述,并生成符合预期的图像。
  2. 2. 卓越的美学表现:Reve Image 1.0在图像质量和艺术表现力方面表现优异,所生成的图像具备专业级的视觉效果。
  3. 3. 强大的文字渲染能力:该工具突破了行业中渲染清晰文字的难题,其性能与专注于LOGO设计的Ideogram相当。

用户可以通过自然语言对现有图片进行修改,如调整颜色或透视,并能上传参考图以实现风格迁移。在第三方平台Artificial Analysis的“图像生成质量”排行榜上,Reve Image 1.0超越了如Google Imagen 3等竞争对手,特别在图像内文字的清晰度方面获得了高度评价。

目前,Reve Image 1.0提供免费试用,注册用户可获得100张免费生成额度,每天还能额外获得20次免费生成机会。长期用户享有每500张图像5美元的优惠价格。

联合创始人米哈伊尔·贾尔比表示,团队的目标是构建一个“人类与机器共通的语义表达层”,而不仅仅是追求视觉上的逼真度。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 福大大架构师每日一题 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. DeepSeek-V3 迎来重大升级,性能实现全面提升
  • 2. 阿里推出新型视觉推理模型QVQ-Max
    • QVQ-Max的主要功能包括:
  • 3. 字节豆包的新版深度思考功能现已开启测试。
  • 4. Manus公布了其收费方案,提供两个价格选项:39美元和199美元
  • 5. 微信AI搜索推出了新的“快速思考”功能
  • 6. OpenAI推出了GPT-4o的原生图像生成功能
  • 7. 由于ChatGPT的原生图像生成功能受到了极大的欢迎,OpenAI决定临时实施限流措施
  • 8. ChatGPT的新图像生成器引发了关于吉卜力风格的版权争议
  • 9. OpenAI对GPT-4o进行了升级,付费用户将率先体验这一改进
  • 10. OpenAI对ChatGPT进行了升级,推出了新的高级语音模式
  • 11. 谷歌推出了Gemini 2.5 Pro,显著提升了其性能
  • 12. Claude 3.7 Sonnet计划将上下文窗口扩展至50万个tokens
  • 13. Reve Image 1.0成为AI文生图领域的一股新兴挑战力量
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档