Grok 1.5获得视觉升级
埃隆·马斯克的xAI刚刚推出了Grok-1.5 Vision,这是一个多模态的升级版本,可以处理视觉信息。
Grok 1.5V现在可以处理文档、图表、屏幕截图和照片等视觉信息,重点是实现对真实世界的理解。
xAI创建了一个新的“RealWorldQA”基准来评估空间理解能力,Grok-1.5V在性能上超过了GPT-4V和Gemini。
xAI表示1.5-V将很快提供给测试人员和现有用户使用,并预计在未来几个月内在图像、音频和视频方面有显著改进。
尽管Grok在更广泛的LLM讨论中似乎没有得到足够的赞赏,但令人印象深刻的视觉升级显示出这个开源模型竞争的实力。凭借埃隆在X和特斯拉拥有的数据资源以及他的野心,也许是时候让行业开始关注了。
Adobe Firefly在Midjourney图像上进行训练
根据一份令人惊讶的新报告,Adobe的Firefly AI图像生成器在其训练数据中使用了来自Midjourney等竞争对手创建的数千张图像。
报告显示,用于训练Firefly的图像中约有5%是由AI生成的,其中包括一些由竞争对手Midjourney创建的图像。
Adobe将Firefly推广为一种“商业安全”的选择,声称其主要是在自己的Adobe Stock库中的经过许可的图像上进行训练的。
Adobe为这种做法进行了辩护,称所有图像(包括AI生成的图像)都经过了审查过程。
据报道,Adobe内部存在意见分歧,员工质疑使用AI图像进行训练的道德问题。
尽管Adobe将Firefly定位为一种道德、合法的替代品,但在训练数据中使用Midjourney的图像严重削弱了这个主要卖点。这可能也会破坏其艺术家和企业客户之间的信任,他们可能被吸引到现在看起来像是虚假承诺的产品上。
谷歌DeepMind机器人踢足球
谷歌DeepMind和剑桥大学的研究人员刚刚教会了迷你人形机器人相互踢足球,展示了复杂技能学习和灵活适应性。
研究人员首先教授基本的行走和起身技能,然后让机器人与逐渐提高的自身版本进行比赛。
与基准机器人相比,经过AI训练的版本走得几乎快3倍,转身速度快5倍,并且能够在摔倒后以63%的速度迅速站起来。
研究人员发现AI有助于学习聪明的策略,例如在没有明确指示的情况下,在防守时采取短而快的步伐。
尽管这些笨拙但可爱的机器人可能不会很快参加世界杯,但这项研究展示了AI在实现复杂技能学习和适应性方面的潜力,甚至能够自主发展出独特的行为和策略。
领取专属 10元无门槛券
私享最新 技术干货