斯坦福抄袭中国大模型冲上热搜!各方最新回应

艾媒咨询 | 2023年中国协同办公行业及标杆案例研究报告

在企业降本增效诉求不断凸显的环境下,低代码、零代码开发平台迎来增量市场。互联网头部厂商纷纷入局,细分领域厂商新星顺势而起,推动了企业数字化转型的进程,低代码、零代码技术成为协同办公行业的价值增长点。

艾媒咨询 | 2023年中国协同办公行业及标杆案例研究报告 精品决策

今日,#斯坦福抄袭中国大模型#冲上微博热搜。

斯坦福AI团队被曝抄袭中国大模型

据了解,事件起因是5月29日,一个由斯坦福学生组成的AI团队发布了一篇名为《Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars》的文章,称训练出了一个开源多模态模型Llama 3-V。这一模型比GPT-4、Gemini Ultra、Claude Opus等模型能力更强,而且训练成本只需要500美元。

Llama 3-V模型的团队成员 Aksh Garg在社交平台X上发帖介绍了这一模型。该帖很快阅读量便超过30万,Llama 3-V 也很快冲上了全球知名开源社区HuggingFace的趋势榜首页。

随后,有热心网友发现,Llama 3-V与清华系大模型创业公司面壁智能的MiniCPM-Llama3-V 2.5在模型结构、代码、配置文件等方面几乎一模一样,只是斯坦福AI团队将其中的变量名称做了更改。该网友更是直接将相关的关键证据一一截图,进行列举证明。

简言之,Llama3-V疑似套壳抄袭了面壁智能的MiniCPM-Llama3-V 2.5。发现了这一问题的网友在Llama3-V页面上提出了质疑,但Llama3-V页面很快就被作者删除了。目前,Llama3-V 的GitHub项目主页已显示为“404”,HuggingFace上的Llama3-V项目已不可见。作者社交媒体账号上,此前宣传Llama3-V的内容页已被删除。

6月3日,Aksh Garg在其社交平台上发文回应了质疑,他艾特另外两名成员Siddharth Sharma和Mustafa Aljadery,并表示:“我和Siddharth都忙于自己的全职工作,所以Mustafa为该项目编写了所有代码。我俩都对多模态模型感到非常兴奋,并且喜欢他向我们描述的架构扩展,所以我们帮助他推广该产品。”他还进一步表示:“在看到这些(抄袭)指控后,我们与Mustafa讨论了Llama3-V的原创性证明,并要求提供训练代码,但到目前为止还没有看到任何证据。我们向原作者道歉,也对自己没有尽职尽责地验证其作品的原创性感到非常失望。”

公开资料显示,Siddharth Sharma与Aksh Garg都是斯坦福大学计算机系的本科生,发表过数篇机器学习相关的论文。Siddharth Sharma曾在亚马逊实习过一段时间,目前主要从事与AI和数据相关工作。Aksh Garg 则在SpaceX、斯坦福大学和加州理工学校等知名企业机构都实习过。Aksh Garg 所说的“编写了所有代码”的Mustafa Aljadery则就读于南加州大学,目前其社交平台X账号已被设为隐私状态。

值得注意的是,斯坦福 AI 实验室主任Christopher David Manning在社交平台发帖谴责了抄袭行为,同时还对清华的开源模型表达了赞赏。

面壁智能回应被抄袭

这一事件中的另外一个主角面壁智能也进行了公开回应。

6月2日深夜,面壁智能团队证实,斯坦福大模型项目Llama3-V与MiniCPM一样,可以识别出“清华简”战国古文字,“不仅对得一模一样、连错得都一模一样”。这一古文字数据为研究团队花费数月从清华简上逐字扫描并人工标注得来,并未对外公开,证实抄袭事实。

面壁智能CEO李大海在朋友圈发声,表示对这件事深表遗憾:“技术创新不易,每一项工作都是团队夜以继日的奋斗结果”。“希望团队的好工作被更多人关注与认可,但不是以这种方式”。

面壁智能联合创始人、首席科学家刘知远也在朋友圈发表了一篇真诚恳切且意味深长的回应。他表示Llama3-V团队未能遵守开源协议对前人成果尊重和致敬,严重破坏了开源共享的基石。但他也提到,三位作者还很年轻,有两位仅是斯坦福大学的本科生,未来还有很长的路要走,“如果知错能改,善莫大焉”。

除了抄袭本身这个学术不端的行为之外,本次事件还引发热议的点在于,AI行业一直存在部分国内大模型被质疑套壳国外开源大模型的刻板印象。在业内,关于大模型“套壳”的争议,也由来已久。

批评者认为“套壳”掩盖了原创性缺失,对开源模型简单调整,而非实质创新;支持者则认为,基于成熟开源架构进行定制化改进是技术发展的常态,类似于在iOS、Android基础上开发App。

实际上,当今所有大模型的核心,均是基于谷歌大脑团队在2017年推出的Transformer神经网络架构及其随后衍生出的三种变体。从大模型的发展轨迹观察,现今模型的构建无不在“借鉴”Transformer及其变体架构的基础上展开。

面壁智能最新一轮融资数亿元,华为哈勃领投

公开资料显示,面壁智能成立于2022年8月,专注于大模型技术创新与应用转化。创始团队主要来自于清华大学自然语言处理实验室(THUNLP),公司CEO李大海是知乎首席技术官(CTO),联合创始人刘知远是清华大学计算机系副教授、博士生导师。

天眼查显示,面壁智能目前已完成两轮融资。去年4月,公司完成由知乎、智谱AI投资的数千万人民币天使轮融资;今年4月,公司宣布完成新一轮数亿元融资,由春华创投、华为哈勃领投,北京市人工智能产业投资基金等跟投,知乎作为战略股东持续跟投支持。

值得注意的是,李大海曾表示面壁智能是他作为知乎CTO发起的唯一一个项目。作为中等梯队的互联网上市企业,知乎面对全新的技术浪潮,想要热情拥抱,又无法如创业公司一样全情投入其中,于是选中面壁智能,作为AI大模型浪潮中对知乎技术力量的补充。而知乎所掌握大量中文互联网优质语料,也为面壁智能开展大模型训练提供了丰富的数据。

去年4月,知乎与面壁智能宣布联合研发的首个中文大模型“知海图AI”和应用“热榜摘要”正式面世。除此以外,双方在面壁智能研发的中文基座大模型CPM-Bee10b、对话类模型产品“面壁露卡”,以及内测第二款知乎场景下的模型应用“搜索聚合”等方面,也开展了广泛深入的合作。

本文综合证券时报、财联社旗下《科创板日报》、公开信息

艾媒咨询 | 2023年中国协同办公行业及标杆案例研究报告

在企业降本增效诉求不断凸显的环境下,低代码、零代码开发平台迎来增量市场。互联网头部厂商纷纷入局,细分领域厂商新星顺势而起,推动了企业数字化转型的进程,低代码、零代码技术成为协同办公行业的价值增长点。

艾媒咨询 | 2023年中国协同办公行业及标杆案例研究报告 精品决策