小模型的战场打起来了!继GPT-4o mini、Mistral NeMo发布之后,苹果也入局了。
苹果日前发布了小模型DCLM,性能碾压Mistral-7B。
DCLM小模型包含两种参数规模——70亿和14亿,发布即开源,性能接近Llama 3、Gemma。
根据苹果ML小组研究科学家Vaishaal Shankar(也是DCLM研发人员)的说法,这是迄今为止性能最好的「真正开源」的模型,不仅有权重和训练代码,而且是基于开放数据集DCLM-Baseline。上下文长度为2048,小于Mistral7B和Gemma29B的8k长度。
DCLM的开源策略有助于推动行业创新,同时,其性能的优越性可能会对现有市场格局产生影响。
其实一直以来,AI社区中,并不缺少小模型,比如微软Phi系列模型多次迭代,谷歌更新Gemma27B,OpenAI发布GPT-4o mini,Mistral AI联手英伟达发布Mistral NeMo,HuggingFace的SmoLLM等小模型的发布,为小模型的领域再次添了一把火。
小模型和大模型实际上并不是一种竞争关系,而是面对算力成本和应用推广两大难题下的一种优化合作。就如同三体人操控地球的方式是阻止基础物理的发展一样,没有大模型奠基,也就没有站在其肩膀上的小模型。
领取专属 10元无门槛券
私享最新 技术干货