Google 在2021年提出了Pathways的构想:
当前模型的主要问题:
Pathways 的愿景 —— 一个跟接近人脑的框架:
2022年3月,Google发布了Pathways系统,用于更高效地训练大型模型:
这个太工程的东西我也看不懂,所以就不评论了。
2022年4月,Google发布了一个鸿篇巨制——PaLM:
说实话,在看完Jeff Dean介绍Pathways愿景博客之后,再看这篇文章前本来是充满期待的,比较牛皮已经吹了一年了,论文一开打一屏幕的作者,文83页(比GPT-3的paper都长),结果浏览一遍,满脑子都是”就这???“
Anyway,还是介绍一下:
一句话介绍:
PaLM 是第一款基于 Google Pathways 系统训练的超大规模的语言模型(但依然是经典结构:a dense, decoder-only, full-attention Transformer model),再次展现了“大力出奇迹”还有很大空间。但是离Google的Pathways愿景还有很大距离。
Key Points:
Model:
Training Dataset:
Results:
Few-shot 实验:
Finetune实验:
比最好的encoder-decoder模型效果要差一点,但是显著高于之前的decoder-only的模型。
Big-Bench:
PaLM自己的总结:
虽然文章没有给人惊喜,但是论文自己的总结也还是挺中肯的:
PaLM只是构建Pathways这个愿景迈出的第一步,PaLM的意义在于进一步扩展了大模型的能力边界(尤其是few-shot),说明了传统的模型架构和训练方法依然有很大的提升空间。另一方面,PaLM验证了Pathways训练系统的有效性,为下一代的模型架构研发做了经验积累。
其实在这个PaLM之前,Google探索过很多基于MoE(Mixture-of-experts)的大型sparse model,包括 GShard,Switch-Transformer,GLaM。这些模型,通过MoE的形式,实现了一个大模型中包含很多子网络,且针对不同的token自动选择不同的子网络(experts)进行推理的能力。其实看了PaLM之后,我觉得MoE这条线才更接近与Jeff Dean所说的Pathways的愿景,但我也猜测可能一个超大的类MoE模型正在Pathways系统上训练呢(我赌一根钟薛高hhh)......
参考链接:
写作不易 如果觉得有所收获的话
大家就点一个赞吧 :)
2022年的第11/52篇原创笔记 和我一起挖掘有趣的AI研究吧!