Loading [MathJax]/jax/output/CommonHTML/config.js
部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >套壳丑闻让斯坦福AI Lab主任怒了!抄袭团队2人甩锅1人失踪、前科经历被扒,网友:重新认识中国开源模型

套壳丑闻让斯坦福AI Lab主任怒了!抄袭团队2人甩锅1人失踪、前科经历被扒,网友:重新认识中国开源模型

作者头像
量子位
发布于 2024-06-04 07:52:09
发布于 2024-06-04 07:52:09
2090
举报
文章被收录于专栏:量子位量子位

斯坦福团队抄袭清华系大模型事件后续来了——

Llama3-V团队承认抄袭,其中两位来自斯坦福的本科生还跟另一位作者切割了。

最新致歉推文,由Siddharth Sharma(悉达多)和Aksh Garg(阿克什)发出。

不在其中、来自南加利福尼亚大学的Mustafa Aljadery(简称老穆)被指是主要过错方,并且自昨天起人就失踪了:

我们希望由老穆首发声明,但自昨天以来一直无法联系到他。 悉达多、我(阿克什)和老穆一起发布了Llama3-V,老穆为该项目编写了代码。 悉达多和我的角色是帮助他在Medium和Twitter上推广这个模型。我俩查看了最近的论文以验证工作的创新性,但我们没有被告知和发现面壁智能先前的工作。

被指跑路的老穆本人,X主页目前已经开启保护锁定状态,申请才能关注:

整体来看,这条致歉推文和昨天那条发出后又急忙删掉的推文内容大差不差,主要是突出了道歉和进一步甩锅

毕竟连斯坦福人工智能实验室主任Christopher Manning都下场开喷:

这是典型的不承认自己错误!

他认为团队在事发后避重就轻,用“架构相似”、“MiniCPM比我们更快实现”的借口推脱,拒不承认是抄袭。

但全新道歉声明,并没有止住网友们的质疑。并且最新爆料还指出,这几位老哥根本就是抄袭惯犯,之前写的教材也是一整个大抄特抄。

而原作者团队面壁智能这边,除CEO李大海昨天回应“也是一种受到国际团队认可的方式”外,首席科学家刘知远也已在知乎出面“亲自答”:

已经比较确信Llama3-V是对我们MiniCPM-Llama3-V 2.5套壳。 人工智能的飞速发展离不开全球算法、数据与模型的开源共享,让人们始终可以站在SOTA的肩上持续前进。我们这次开源的MiniCPM-Llama3-V 2.5就用到了最新的Llama3作为语言模型基座。而开源共享的基石是对开源协议的遵守,对其他贡献者的信任,对前人成果的尊重和致敬,Llama3-V团队无疑严重破坏了这一点。他们在受到质疑后已在Huggingface删库,该团队三人中的两位也只是斯坦福大学本科生,未来还有很长的路,如果知错能改,善莫大焉。

新的证据

还是先来简单回顾一下这个大瓜。

一句话总结就是,有网友发现,最近在开源社区大火的斯坦福团队多模态大模型Llama3-V,架构和代码与国产MiniCPM-Llama3-V 2.5几乎一毛一样,并列举了诸多证据直指Llama3-V抄袭。

随着事件逐渐发酵,斯坦福AI团队删库跑路,面壁智能团队也就此事展开了调查。

面壁智能首席科学家、清华大学长聘副教授刘知远给出的判断Llama3-V是MiniCPM-Llama3-V 2.5套壳的一大理由,正是对于清华简的识别能力

这是MiniCPM-Llama3-V 2.5的“彩蛋”能力,是他们用了从清华简逐字扫描并标注的数据集训练的,并未公开。而Llama3-V的表现和MiniCPM-Llama3-V 2.5一模一样,不仅做对的题一样,出错的地方都一样

今天,在第一波证据的基础之上,又有其他网友扒出了新线索。

有人研究后发现,Llama3-V几乎每一层的权重差值都符合均值为0、标准差为1.4e-3的高斯分布。

于是推测,Llama3-V只是直接在MiniCPM的权重上添加了低方差噪声

除此之外,那个跑路的大兄弟老穆还被曝之前写了本关于“计算机网络设计”的书,也是抄的

从书中随便抽出一章,用抄袭检测器检测一下就是一堆红点:

以及,这本书的作者栏里,据网友爆料也有悉达多的名字。

也有网友认为抄书这事儿是不是真的还有待考究。不过,现在这本书也404了。

说回这次的抄袭,悉达多和阿克什的致歉声明中也有提到他们之所以和穆哥一起宣传这个项目,最初也是被这个多模态模型惊艳到了,特别喜欢穆哥所描述的基于Idefics、SigLip和UHD的架构扩展。

但实际上网友一早扒出Llama3-V在空间模式等很多方面的具体实现都和LLaVA-UHD不同,却跟MiniCPM-Llama3-V 2.5出奇一致。

根据MiniCPM-Llama3-V 2.5主页介绍,MiniCPM-Llama3-V 2.5是面壁智能MiniCPM-V系列的最新开源模型,基于SigLip-400M和Llama3-8B-Instruct构建,总共8B参数。

从性能上讲,MiniCPM-Llama3-V 2.5在OpenCompass上取得了65.1的平均分,性能超过如GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max等专有模型,且显著超越其他基于Llama 3的多模态语言模型。

此外,MiniCPM-Llama3-V 2.5的OCR能力也很强,在OCRBench上得分700+,超越GPT-4o、GPT-4V-0409、Qwen-VL-Max和Gemini Pro。

基于最新的RLAIF-V方法,MiniCPM-Llama3-V 2.5在Object HalBench上的幻觉率为10.3%,也低于GPT-4V-1106的13.6%。

“中国大模型被忽视了”

尽管甩锅甩得飞快,但网友们很快又从阿克什和悉达多童鞋的道歉声明里发现了华点:

合着你俩啥也没干,帮着搞搞推广就算项目作者啦?

宣发的时候说是你们仨的项目,出事了就把锅全甩给一个人?

如果是老穆一个人写了所有代码,那你俩是干啥的,就发发帖吗?

还有网友挑起了一个更关键的话题,进一步引发热议——

开源社区是否忽视了来自中国的大模型成果?

谷歌DeepMind研究员、ViT作者Lucas Beyer就提到,Llama3-V是抄的,但成本低于500美元,效果却能直追Gemini、GPT-4的开源模型确实存在:

但相比于Llama3-V,MiniCPM得到的关注要少得多,包括我自己也有所忽略。 主要原因似乎是这样的模型出自中国实验室,而非常春藤盟校。

抱抱脸平台和社区负责人Omar Sanseviero说的更加直接:

社区一直在忽视中国机器学习生态系统的工作。他们正在用有趣的大语言模型、视觉大模型、音频和扩散模型做一些令人惊奇的事情。 包括Qwen、Yi、DeepSeek、Yuan、WizardLM、ChatGLM、CogVLM、Baichuan、InternLM、OpenBMB、Skywork、ChatTTS、Ernie、HunyunDiT等等。

对此,不少网友表示赞同,“他们推出了目前最好的开源VLM”。

从更客观的大模型竞技场的角度看,此言不虚。

在模型一对一PK的视觉大模型竞技场中,来自零一万物的Yi-VL-Plus排名第五,超过了谷歌的Gemini Pro Vision。智谱AI和清华合作的CogVLM也跻身前十。

此外,DeepSeek、通义千问和这次遭到抄袭的MiniCPM系列多模态模型,也都有不错的表现。

在更受到广泛认可的LMSYS Chatbot Arena Leaderboard竞技场榜单中,来自中国的大模型也同样在不断刷新“最强开源”的新纪录。

正如刘知远老师所说:

从横向来看,我们显然仍与国际顶尖工作如Sora和GPT-4o有显著差距;同时,从纵向来看,我们已经从十几年前的nobody,快速成长为人工智能科技创新的关键推动者。

此瓜甚巨,吃瓜者众,或许更重要的是,一些成见正在破壁。你觉得呢?

MiniCPM原论文 https://arxiv.org/abs/2404.06395

参考链接: [1]https://x.com/AkshGarg03/status/1797682238961914370 [2]https://x.com/siddrrsh/status/1797682242145464814 [3]https://x.com/teortaxesTex/status/1797712605286645846 [4]https://x.com/chrmanning/status/1797664513367630101 [5]https://x.com/RylanSchaeffer/status/1797690302167417322 [6]https://x.com/giffmana/status/1797603355919028547 [7]https://x.com/RylanSchaeffer/status/1797690302167417322 [8]https://x.com/osanseviero/status/1797635895610540076 [9]https://huggingface.co/spaces/WildVision/vision-arena

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
26岁的“天才少年”,带队面壁打通高效大模型之路
当大模型代表的人工智能浪潮席卷全球,作为移动互联网“原住民”的年轻开发者,可以说是最活跃的群体。他们的脸庞还有些稚嫩,但在技术和方向上有着自己的想法,在火热的AI赛道里加速狂奔,努力打下一片新天地。
Alter聊科技
2024/06/18
1660
26岁的“天才少年”,带队面壁打通高效大模型之路
超越GPT-4,斯坦福团队手机可跑的大模型火了,一夜下载量超2k
近日,斯坦福大学研究人员推出的 Octopus v2 火了,受到了开发者社区的极大关注,模型一夜下载量超 2k。
机器之心
2024/04/12
1750
超越GPT-4,斯坦福团队手机可跑的大模型火了,一夜下载量超2k
斯坦福 AI 团队“套壳”清华系开源大模型被实锤!被揭穿后全网删库跑路
5 月 29 日,一个来自斯坦福的作者团队在 Medium 上发布了一篇名为《Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars》的文章,文章中称他们训练出了一个比 GPT-4V、Gemini Ultra、Claude Opus 更强的 SOTA 开源多模态模型,尺寸比 GPT4-V 小 100 倍,训练成本仅需 500 美元。
深度学习与Python
2024/06/17
1790
斯坦福 AI 团队“套壳”清华系开源大模型被实锤!被揭穿后全网删库跑路
斯坦福爆火Llama3-V竟抄袭国内开源项目,作者火速删库
在 GPT-4o 出世后,Llama3 的风头被狠狠盖过。GPT-4o 在图像识别、语音理解上卓越的性能展现了它强大多模态能力。开源领域的领头羊 Llama3 曾在几乎所有基准测试中都超越了 GPT-3.5,甚至在某些方面超越了 GPT-4。这次就要闷声「吃瘪」了吗?
机器之心
2024/06/04
2350
斯坦福爆火Llama3-V竟抄袭国内开源项目,作者火速删库
重磅!斯坦福 AI 团队被曝抄袭中国大模型开源成果,推特舆论开始发酵
过去一年,中国大模型一直被贴上「追赶美国」的标签,但近日,推特上却有人曝出:美国斯坦福大学的一个 AI 团队疑似抄袭、「套壳」一家中国大模型公司的开源成果,模型架构与代码完全相同。
AI科技评论
2024/06/03
4850
重磅!斯坦福 AI 团队被曝抄袭中国大模型开源成果,推特舆论开始发酵
📝《开源vs闭源:大模型时代的技术伦理之争》
2023年全球大模型参数量突破万亿级,GPT-4、LLaMA等模型推动AI进入“工业化生产”阶段。开源社区(如Hugging Face)与闭源巨头(如OpenAI、Google)形成两大阵营:
Jimaks
2025/03/24
2691
AI日报|斯坦福团队被曝抄袭国内大模型已删库跑路!英伟达打破摩尔定律,机器人时代到来
AI日报|下个月苹果Siri终于变智能了,语音控制所有App;OpenAI机器人团队即将重出江湖!
可信AI进展
2024/06/04
2200
斯坦福的「虚拟小镇」开源了:25个AI智能体照进《西部世界》
看过《西部世界》的朋友们都知道,在这部剧中,故事设定在未来世界,在一个庞大的高科技成人主题乐园中,有着拟真人的机器可以像人类一样行事,记得自己看到的东西、说过的话…… 每天,机器人都会被重置,然后回到它们的核心故事情节中。
机器之心
2023/09/08
7530
斯坦福的「虚拟小镇」开源了:25个AI智能体照进《西部世界》
专访面壁曾国洋:踩过 1000 次大模型的坑后 ,造一个性能小钢炮
2月1日,刚成立一年的面壁智能发布了两个在海内外大模型领域「炸裂级」的存在——面壁 MiniCPM 2B 旗舰端侧大模型与面壁OmniLMM多模态大模型。
AI科技评论
2024/02/06
5640
专访面壁曾国洋:踩过 1000 次大模型的坑后 ,造一个性能小钢炮
26岁的“天才少年”,带队面壁打通高效大模型之路
当大模型代表的人工智能浪潮席卷全球,作为移动互联网“原住民”的年轻开发者,可以说是最活跃的群体。他们的脸庞还有些稚嫩,但在技术和方向上有着自己的想法,在火热的AI赛道里加速狂奔,努力打下一片新天地。
Alter聊科技
2024/06/14
1010
26岁的“天才少年”,带队面壁打通高效大模型之路
可信度超越GPT-4V,清华&面壁揭秘「小钢炮」模型背后的高效对齐技术
本文主要作者来自 MiniCPM-V 团队,其中第一作者余天予是清华大学 2021 级硕士研究生,他的主要研究方向是通用多模态基础大模型构建及其对齐方法。
机器之心
2024/06/17
2000
可信度超越GPT-4V,清华&面壁揭秘「小钢炮」模型背后的高效对齐技术
斯坦福AI科研神器开源,一键成文GPT-4o mini加持!科研写作彻底解放双手
在OpenAI与Perplexity绞尽脑汁去动谷歌搜索的蛋糕时,斯坦福研究团队却「于无声处响惊雷」,一鸣惊人推出了支持避开信息盲点、全面整合可靠信息、从头写出维基长文的STORM&Co-STORM系统。
新智元
2025/02/15
870
斯坦福AI科研神器开源,一键成文GPT-4o mini加持!科研写作彻底解放双手
端侧大模型浪潮奔涌而至:态势、影响与建议
10月10日,Vivo推出蓝心端侧大模型 3B,其AI能力已覆盖60多个国家和地区,服务超5亿手机用户,大模型token输出量超过3万亿;随后,字节发布首款AI智能体耳机Ola Friend,与豆包深度集成;18日,荣耀同期发布了Magic OS 9.0 ,打造AI OS,其上的YOYO智慧助手已经打通了多款APP,可以实现一句话充值、一句话点外卖等服务。中国信通院与荣耀等企业还共同发布了《终端智能化分级研究报告》,推出了行业首个终端智能化分级体系。
小腾资讯君
2024/10/31
4400
Llama 4 先后被 DeepSeek、英伟达暴击,Meta 不再是大模型开源“霸主”了
当地时间 4 月 8 日,英伟达宣布推出其最新大语言模型 Llama3.1 Nemotron Ultra 253B。该模型基于 Meta 的 Llama-3.1-405B-Instruct 构建,并利用创新的神经架构搜索(NAS)技术进行了深度优化。其性能超越了最近发布的 Llama4,如 Behemoth、Maverick,并在 Hugging Face 平台上开源,引起 AI 社区广泛关注的同时,也再次“暴击”了 Meta。
深度学习与Python
2025/04/13
670
Llama 4 先后被 DeepSeek、英伟达暴击,Meta 不再是大模型开源“霸主”了
国产端侧小模型超越 GPT-4V,「多模态」能力飞升
在刚刚过去的机器人学术顶会 ICRA 2024 上,「具身智能」成为热议,其中围绕具身智能的一个普遍疑问是:若将 AI 大模型应用到消费级机器人领域,首先是模型适配终端,还是终端适配模型?
AI科技评论
2024/05/22
9770
国产端侧小模型超越 GPT-4V,「多模态」能力飞升
MiniCPM,能被斯坦福抄袭究竟有何魅力?我们一起看看论文吧!
https://arxiv.org/pdf/2404.06395 随着开发具有高达数万亿参数的大型语言模型(LLMs)的兴趣激增,关于资源效率和实际成本的担忧也随之而来,特别是考虑到实验的巨大成本。这一情形突显了探索小型语言模型(SLMs)作为资源高效替代方案的潜力。在此背景下,我们介绍了MiniCPM,特别是其1.2B和2.4B非嵌入参数变体,这些变体不仅在各自的类别中表现出色,而且在能力上与7B-13B的LLMs不相上下。尽管我们专注于SLMs,但我们的方法在模型和数据维度上都表现出可扩展性,为未来LLM的研究提供了可能。
AI浩
2024/10/22
3760
MiniCPM,能被斯坦福抄袭究竟有何魅力?我们一起看看论文吧!
端侧AI的终极形态
作为争夺下一代流量入口的关键机遇,端侧AI(运行在手机等设备端的生成式AI模型)已然成为各大厂商必争之地。虽然,站在当下的时间点,除了少数工程样机之外,我们仍难以在终端设备上获得理想的AI体验,这主要是因为大模型在终端设备落地时,仍然面临诸多挑战。比如,短期内,从突破难度来排序,电池续航和散热问题>显存带宽>GPU算力和显存容量,成为一系列亟待解决的难点。尽管如此,终端生态多方的信心并没有受到影响,大家正在使尽浑身解数共同促进端侧AI的实现。
小腾资讯君
2024/08/28
3990
【AI大模型】LLM主流开源大模型介绍
随着ChatGPT迅速火爆,引发了大模型的时代变革,国内外各大公司也快速跟进生成式AI市场,近百款大模型发布及应用。
小言从不摸鱼
2024/09/24
4950
【AI大模型】LLM主流开源大模型介绍
OpenAI 终于发布 GPT-4o mini,但比中国大模型晚了半年
美国时间 7 月18 日,OpenAI 正式发布了多模态小模型 GPT-4o mini,在海内外引起了广泛关注。
AI科技评论
2024/07/29
2560
OpenAI 终于发布 GPT-4o mini,但比中国大模型晚了半年
斯坦福AI团队被曝抄袭中国大模型开源成果,面壁回应;传沙特将参与智谱4亿美元投资;OpenAI重启机器人团队丨AI情报局
AI软件开发公司Poolside AI正在筹集4.5亿美元的融资:Poolside AI正在研发一种为软件开发者专门设计的大型语言模型,目前正在与投资者进行谈判,以筹集4.5亿美元的融资。该轮融资由贝恩资本风险投资公司的Enrique Salem领投。
AI科技评论
2024/06/03
3430
斯坦福AI团队被曝抄袭中国大模型开源成果,面壁回应;传沙特将参与智谱4亿美元投资;OpenAI重启机器人团队丨AI情报局
推荐阅读
26岁的“天才少年”,带队面壁打通高效大模型之路
1660
超越GPT-4,斯坦福团队手机可跑的大模型火了,一夜下载量超2k
1750
斯坦福 AI 团队“套壳”清华系开源大模型被实锤!被揭穿后全网删库跑路
1790
斯坦福爆火Llama3-V竟抄袭国内开源项目,作者火速删库
2350
重磅!斯坦福 AI 团队被曝抄袭中国大模型开源成果,推特舆论开始发酵
4850
📝《开源vs闭源:大模型时代的技术伦理之争》
2691
AI日报|斯坦福团队被曝抄袭国内大模型已删库跑路!英伟达打破摩尔定律,机器人时代到来
2200
斯坦福的「虚拟小镇」开源了:25个AI智能体照进《西部世界》
7530
专访面壁曾国洋:踩过 1000 次大模型的坑后 ,造一个性能小钢炮
5640
26岁的“天才少年”,带队面壁打通高效大模型之路
1010
可信度超越GPT-4V,清华&面壁揭秘「小钢炮」模型背后的高效对齐技术
2000
斯坦福AI科研神器开源,一键成文GPT-4o mini加持!科研写作彻底解放双手
870
端侧大模型浪潮奔涌而至:态势、影响与建议
4400
Llama 4 先后被 DeepSeek、英伟达暴击,Meta 不再是大模型开源“霸主”了
670
国产端侧小模型超越 GPT-4V,「多模态」能力飞升
9770
MiniCPM,能被斯坦福抄袭究竟有何魅力?我们一起看看论文吧!
3760
端侧AI的终极形态
3990
【AI大模型】LLM主流开源大模型介绍
4950
OpenAI 终于发布 GPT-4o mini,但比中国大模型晚了半年
2560
斯坦福AI团队被曝抄袭中国大模型开源成果,面壁回应;传沙特将参与智谱4亿美元投资;OpenAI重启机器人团队丨AI情报局
3430
相关推荐
26岁的“天才少年”,带队面壁打通高效大模型之路
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档