首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

手机即可运行,微软推出最小AI大模型

微软公司今日宣布推出一款名为Phi-3-mini的新型语言模型,该模型在保持小巧体积的同时,性能却可与目前市场上的一些大型模型如Mixtral 8x7B和GPT-3.5相媲美。

这一成就标志着人工智能技术的又一次飞跃,为未来AI技术的普及和应用开辟了新的可能性。

Phi-3-mini是一个拥有38亿参数的语言模型,它在3.3万亿个token上进行了训练。

根据学术基准测试和微软内部测试,Phi-3-mini在多语言理解(MMLU)上达到了68.8%的准确率,在机器翻译(MT-bench)上达到了8.38的评分。

更令人瞩目的是,这个模型小到足以部署在现代智能手机上,但其性能却与一些大型模型不相上下。

微软的这一创新完全归功于其独特的训练数据集,该数据集是Phi-2所用数据集的扩展版本,包含了大量经过严格筛选的网络数据和合成数据。

此外,Phi-3-mini在设计上也更加注重鲁棒性、安全性和聊天格式的适配。

微软还提供了一些初步的参数扩展结果,包括7B参数的Phi-3-small和14B参数的Phi-3-medium模型,这两个模型的性能都显著优于Phi-3-mini。

例如,在MMLU上分别达到了75%和78%的准确率,在MT-bench上分别达到了8.7和8.9的评分。

Phi-3-mini采用了transformer解码器架构,具有4K的默认上下文长度,并通过LongRope技术扩展至128K的长上下文版本。

为了更好地服务于开源社区,Phi-3-mini的构建基于与Llama-2相似的模块结构,并使用了具有320641个词汇量的相同分词器。

这意味着为Llama-2系列模型开发的包可以直接适配到Phi-3-mini上。

微软的这一新模型不仅在技术上取得了突破,还在安全性方面进行了深入的考量。

Phi-3-mini的开发遵循了微软负责任的AI原则,包括在后训练阶段进行安全对齐、红队测试、自动化测试和评估等。

通过使用精心策划的训练数据、针对性的后训练以及红队洞察的改进,大大降低了有害响应率。

尽管Phi-3-mini在某些任务上由于模型大小的限制而存在一定的局限性,例如在存储大量“事实知识”方面的不足,微软相信通过与搜索引擎的结合可以解决这一问题。

此外,Phi-3-mini目前主要限制在英语使用上,而小型语言模型的多语言能力探索将是未来的重要一步。

微软的这一新模型不仅为研究人员和开发者提供了强大的工具,也为智能手机用户带来了前所未有的AI体验。

随着技术的不断进步,未来将有更多的智能设备能够实现高级的AI功能,从而极大地丰富和改善人们的生活。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OwG0pGyMUXt4U_l_hfOklU7g0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券