Meta硬刚OpenAI:谁能代表“世界模型”?丨GAI进化论
Sora独占鳌头,光芒掩盖了其他科技巨头,很少有人注意到Meta同期推出了视频模型技术架构V-JEPA。
惊叹过后,Sora到底能不能代表“世界模型”,也成为新的争议点。
Meta首席人工智能科学家Yann LeCun坚决指出,Sora并不能真的理解物理世界,“这样的视频生成与世界模型的因果预测仍然存在巨大差异”,并在接下来的几天里就此话题与网友展开了唇枪舌剑的争执。
源源不断的观点输出中,Yann LeCun更是直言,“通过生成像素来模拟真实世界,不仅是一种浪费,更是注定失败”。
作为“世界模型”的理论先驱,虽然Yann LeCun并未否认Sora在视频生成方面的杰出表现,但他始终强调Sora的生成式模型与“世界模型”相去甚远,反而是JEPA架构更能接近“世界模型”路线。
国内也有技术分析人士指出:“Sora只是二维视觉的压缩扩散和时空表达,既不是物理引擎,也不是世界模型。”
“世界模型”是目前技术流派中难度最高的一种,其特点在于让机器能够像人类一样对真实世界有一个全面而准确的认知,不仅包括对事物的描述和分类,还包括对事物的关系、规律、原因和结果的理解和预测,从而进行推理和决策。
“世界模型”也被认为是通往AGI的最优解。如果就这么被OpenAI抢去了“世界模型”的帽子,Yann LeCun是坚决不同意的,这位图灵奖得主甚至在社交平台愤怒表示:“我从没想过,会看到这么多从未为人工智能或机器学习做过任何事情的人告诉我,我对人工智能和机器学习的观点是错误、愚蠢、盲目、无知、误导、嫉妒、偏见、脱节的。”
Yann LeCun炮轰Sora背后,Meta与OpenAI关于“世界模型”的路径之争,同样激烈。
V-JEPA才是“世界模型”?
在Sora的技术文档中,OpenAI并不是那么“open”,文中大量篇幅是在介绍Sora的厉害之处,除了文生视频,还可以图生视频、拓展视频等,并未披露技术原理,而是使用了一种结论式表达——通过扩大视频生成模型的规模,我们有望构建出能够模拟物理世界的通用模拟器,这无疑是一条极具前景的发展道路。
随后,英伟达AI研究员Jim Fan的观点引领了舆论走向,他认为,Sora是一款数据驱动的物理引擎,是个可学习的模拟器或“世界模型”。
Meta的Yann LeCun明确反对,他指出,Sora只是经过训练可以生成像素,但如果这样的方式用来了解世界是如何运作的,那注定是个失败的命题。
“视频生成与‘世界模型’的因果预测有很大不同。” Yann LeCun表示,视频生成似是而非的空间非常大,只需要产生一个合理的样本就能视为成功,而真实视频的合理延续空间要小得多,尤其是在特定动作条件下,难度就更大了。
Yann LeCun认为,实现“世界模型”更理想的方式,应该是让机器智能像人类般学习、建立起周遭世界的内部模型,从而高效学习、适应并制定计划以完成种种复杂的任务。
这也正是他提出的JEPA(Joint Embedding Predictive Architectures,联合嵌入预测架构)的核心思想:不是填充缺失像素的生成式,而是预测。
人类最初对世界的理解,是从最自然的“观察”开始,在此基础上进行学习,总结经验,形成认知模型,即应对每一种情况应该采取什么态度或措施的“数据库”。LeCun表示,JEPA就是基于这种逻辑。
JEPA在2022年由Yann LeCun首次提出。两类模型I-JEPA和V-JEPA分别基于图像、视频进行抽象性预测。
Meta在官网上给出了参考视频。笔记本被遮挡了一部分,而V-JEPA能够对笔记本上的内容做出不同预测并形成视频图像。Meta表示,这是V-JEPA在观看200万个视频后才获取的能力。
V-JEPA生成被遮挡的部分,即以“人类理解的方式”看世界,不是通过手动标注,而是通过像人类一样的被动观察来建立对视频片段的概念理解。
Meta2月14日发布的论文中较为详细地介绍了V-JEPA的主要特点和工作原理。V-JEPA采取了一种特殊的网络架构,其中包括一个编码器(x-encoder)和一个预测器(predictor)。编码器负责提取视频帧的特征表示,而预测器则基于这些特征来预测目标帧的特征。
与以变分自编码器(Variational AE)、掩码自编码器(Masked AE)、去噪自编码器(Denoising AE)等为代表的重建像素的生成型架构相比,JEPA联合嵌入架构能够产生更优秀的视觉表达。
艾媒咨询|2023年中国AIGC行业发展研究报告
随着人工智能技术的不断发展,AIGC技术也日益成熟,广泛应用于更多领域,其广阔的应用前景将推动AIGC市场规模快速增长。艾媒咨询预测,预计2023年中国AIGC核心市场规模将达79.3亿元,2028年将达2767.4亿元。