在2023年,Large Language Model(LLM) 给了我们一点小小的GPT震撼,GPT在某些领域极速的提高的人类的生产效率,甚至于我觉得已经可以取代了一些普通的文职工作,之后的新一代文盲定义可以定义为不会使用AI model的人类。当然,我们未来也会推出一些基于AI生成内容。作为一个偏好开源的设计美学自媒体hhh,并不是购买不起GPT Apikey,而是觉得开源LLM更具有性价比。
目前来说,开源的LLM越来越向着GPT 3.5进化,有些在部分领域已经接近GPT 3.5,而有些LLM有着自己的独特优点。在这里,我们列出一些开源的LLM Model以供学习,参考。你可以pick one randomly,但是本文排名并没有先后顺序,毕竟我们不是预言家日报。
发表于2023年7月,来自于Meta和微软合作的优秀的LLM模型,其温馨的给予了不同的参数选择,从7B到70B,不管你使用的是2080 TI还是A100,总有一款适合你。其使用了2万亿的tokens进行了预训练,其文本支持的词汇长度为4096。
在hugging face上,最流行的模型为Llama-2-7B的模型,迄今为止,下载次数已经达到90万次。看起来似乎大家都比较偏好小尺寸NLP模型,可能是偏向于轻型化和便捷性的应用,也有可能是大部分开源工作者由于资源限制而不得不向小尺寸模型靠拢。而在其表现程度上。
在Github上,开发者对于llama模型也显示出了极大的兴趣,以llama为关键词搜索共有9800个仓库,头部的15个仓库,star数达到了10K,其中python和c开发者居多。从issue提问来看,大家的问题集中于approved,下载问题,硬件适配,模型微调等等。
与GPT相比而言,从anyscale的比较数据来看,Llama-2-70b轻松胜过了gpt-3.5-turbo,并且接近人类/gpt-4的性能水平。在描写摘要的事实准确性方面,Llama 2几乎与GPT-4相当,并且成本降低了30倍。而根据,Prompt Engineering Institute的报告看,Llama 2在准确性上具有竞争力,但是对于高度复杂的任务处理以及创造性方面,GPT-4仍然保持领先。
GPT4All是一个生态系统, 旨在消费级CPU上训练和部署定制的LLM。 其目标是帮助任何企业或者个人创建具有自己独特个性的语言模型,并且LLM可以自由使用,分发和构建,其整体模型大概在3GB-8GB之间,无需使用GPU,支持Windows,Mac和Ubuntu,并且支持可视化界面,其界面和GPT 3.5非常相似,易与上手。
其在hugging face上,开发者偏好的模型为nomic-ai/gpt4all-j,下载次数为3890次,而在gihub上其star 数目为56k,fork次数为6.1k。
而在部分测试集上的表现,GPT4ALL的部分模型较为优秀,也非常期待其在未来的表现。
Model | BoolQ | PIQA | HellaSwag | WinoGrande | ARC-e | ARC-c | OBQA | Avg |
---|---|---|---|---|---|---|---|---|
Nous-Hermes2 | 83.9 | 80.7 | 80.1 | 71.3 | 75.7 | 52.1 | 46.2 | 70.0 |
Nous-Puffin | 81.5 | 80.7 | 80.4 | 72.5 | 77.6 | 50.7 | 45.6 | 69.9 |
Falcon 7b | 73.6 | 80.7 | 76.3 | 67.3 | 71 | 43.3 | 44.4 | 65.2 |
Falcon 180B是一个拥有1800亿参数的super power LLM,由3.5万亿tokens训练而来。目前,它位于Hugging Face预训练开放LLM榜单的榜首,可供研究使用和商业使用。
根据公司所述:该模型在推理、编码、熟练度和知识测试等各种任务中表现出色,甚至超过了Meta的LLaMA 2等竞争对手。而在闭源模型中,它仅次于OpenAI的GPT 4,在性能上与谷歌的PaLM 2 Large持平,且Falcon 180B的模型尺寸仅为PaLM2 Large的一半。
在MMLU上表现优于Llama 2 70B和OpenAI的GPT-3.5。在HellaSwag、LAMBADA、WebQuestions、Winogrande、PIQA、ARC、BoolQ、CB、COPA、RTE、WiC、WSC、ReCoRD等方面,与Google的PaLM 2-Large持平。根据测试来看,Falcon 180B应该位于GPT 3.5和GPT4之间。
而有趣的是,在hugging face上,大家最热衷下载的是falcon-40b,和7b系列,看来开发者更倾向于小尺寸语言模型。
BLOOM是一种自回归大语言模型(LLM),经过来自70多个国家的志愿者和Hugging Face的研究人员一年的协作。BLOOM呈现出一种集体合作式开发LLM的典范。BLOOM能够以46种语言和13种编程语言输出与人类编写的文本几乎相同连贯文本。其训练数据集涵盖了1.5 TB 文本信息。其引入独特的功能区别于其他语言模型。其卓越的文本优化能力使用户能够生成符合特定参数(如风格、语气或可读性)的文本。BLOOM模型也展示了多模态的能力,使其能够在处理和优化文本的同时处理其他模态。通过整合视觉、听觉或其他感官数据,它可以基于多个维度来丰富自己生存的文本内容。
以下是一份来自于deepcheck的summary table:
Feature/Model Parameters | GPT-4 1.5 Trillion | Bard 1.6 Trillion | LLaMA 1.2 Trillion | Flan-UL2 20 Billion | BLOOM 176 Billion |
---|---|---|---|---|---|
Training Data | WebText-like corpus | WebText-like corpus | WebText-like corpus | Publicly available data | Multilingual web corpus |
Training Objectives | Language modeling | Language modeling | Language modeling | Mixture-of-Denoisers (MoD) | Not specified |
Special Features | Improved prompt design | Improved prompt design | Improved prompt design | Universally effective across NLP tasks | Open-access, multilingual |
How to Access | Via OpenAI API | Via Google Workspace | Application required | Not specified | Open-source |
Released By | OpenAI | Meta AI | Google Research | BigScience Workshop | |
Dataset Used for Training | WebText-like corpus | WebText-like corpus | WebText-like corpus | Publicly available dat | Multilingual web corpus |
Multimodal Capabilities | No | No | No | No | Yes |
Multilingual Support | Yes | Limited | Yes | Yes | Yes |
[1]. https://www.techopedia.com/6-best-open-source-llms-to-watch-out-for-in-2024
[2]. https://harrypotter.fandom.com/zh/wiki/预言家日报?variant=zh
[3]. https://ai.meta.com/resources/models-and-libraries/llama/
[4]. https://ai.meta.com/results/?amp%3Bsort_by=most_recent&content_types%5B0%5D=publication
[5]. https://www.anyscale.com/blog/llama-2-is-about-as-factually-accurate-as-gpt-4-for-summaries-and-is-30x-cheaper
[6]. https://promptengineering.org/how-does-llama-2-compare-to-gpt-and-other-ai-language-models/
[7]. https://medium.com/@abhishek.mathada/introduction-to-gpt4all-and-how-to-use-it-423792154862
[8].GPT4All: An Ecosystem of Open Source Compressed Language Models: https://arxiv.org/abs/2311.04931
[9]. https://huggingface.co/blog/falcon-180b
[10] https://bigscience.notion.site/BLOOM-BigScience-176B-Model-ad073ca07cdf479398d5f95d88e218c4
[11] https://deepchecks.com/llm-models-comparison/