产业资讯
微软推进LLM训练和服务的最新技术
DeepSpeed是一种算法和系统,已被用于训练一些最大的开放模型。通过改进内存、吞吐量和易用性,它刚刚升级。DeepSpeed是大多数从事人工智能开发的开发人员的标准工具之一。
谷歌发布AudioPaLM
谷歌推出了AudioPaLM,一种用于语音理解和生成的大型语言模型。AudioPaLM将基于文本和基于语音的语言模型融合为统一的多模态架构,可以处理和生成文本和语音,应用包括语音识别和语音翻译。
Midjourney5.2更新让AI艺术家惊叹不已
Midjourney发布了其基于AI的图像合成模型的5.2版本,其中包括一项新的“缩小”功能,可以在自动构建出更大场景的同时保持中央合成图像,模拟使用摄像头镜头进行缩小。
工程研究
AI的“越大越好”方法正在走到尽头
传统的AI方法涉及构建越来越大的模型,但由于训练和部署这些模型的高成本,这种方法正达到极限。因此,研究人员现在将注意力转向使AI模型更加高效,而不仅仅是更大。这可能导致一个新的AI发展时代,模型能够在不需要大量资源的情况下实现超人类的性能。
再次探索图像编辑中的解缠
学习解缠表示是计算机视觉中令人兴奋的研究领域。像CLIP这样的大规模对比方法一度使其失去了市场。然而,现在,通过开源扩散模型,我们可以利用文本令牌的力量来解缠图像中的对象,并允许对AI生成的图像进行单图像编辑。
现代代码模型能自我修复吗?
程序合成是自动编写计算机代码的过程。大多数最好的模型,如GPT-4、Turbo、WizardCoder和StarCoder,在编写代码方面表现出色。然而,许多模型在代码出错时无法修复自己的代码。本文测量了自我修复能力,并发现GPT-4是仅有的几个展现出自我修复能力的模型之一。我猜测这是由OpenAI明确训练而非自发出现的。
SoftGPT:教会机器人处理脆弱物品
SoftGPT是一个模型,帮助机器人学习处理软性、可变物品(如衣物或枕头),这些物品通常在家庭中出现,对机器人来说往往是棘手的任务。这个经过大量探索数据训练的模型使机器人能够理解物体的形状和运动,并预测行动的结果。
经过验证的计算机视觉工具包
许多顶级计算机视觉模型存储在TIMM中,但在处理生产系统时,通常需要更多的工具。OpenMMlab拥有一套高质量的系统,用于各种视觉任务,如姿态和分割。
效率资源
ExLlama
ExLlama是HF transformers Llama的一种更节省内存的重写版本,用于与量化权重一起使用。
3HAN发现假新闻的工具
3HAN是一个新工具,用于帮助发现假新闻。它将文章分解为单词、句子和标题,并在创建文章的“新闻向量”或表示时,特别关注最重要的部分。3HAN已被证明在检测假新闻方面非常有效,甚至可以突出文章的关键部分供人类进一步事实核查。
领取专属 10元无门槛券
私享最新 技术干货