新生活方式倡导者

Corporate
news

首页 新闻中心 推荐新闻
OpenAI路线遭质疑!Meta研究员:根本无法构建超级智能
2025-06-22浏览:

  许多人已经讨论过★★■,如果文本数据用完了,我们应该如何应对★★★。这种情况被称为◆★■★“数据墙◆◆◆■★★”或“token危机”,人们已经探讨了如果我们真的用完了数据该怎么办■◆◆★■◆,以及如何扩展我们的模型。

  事实证明,当前的LLM在预训练后能够很好地处理任意任务,它们可以对AIME问题做出合理的猜测,而我们可以利用RL来训练它们,使其随着时间的推移做出越来越好的猜测。(最酷的部分,我们在此不做展开,是它们在这一过程中会生成越来越多的“思考token★★■■”,从而为我们提供如上文o1博客文章中所示的测试时计算图。)

  目前最好的系统都依赖于从互联网的文本数据中学习★■★◆。截至本文撰写时(2025年6月)★◆■★■★,我认为将非文本数据整合到模型中并未带来整体性能的提升。这包括图像、视频、音频以及机器人技术的超感官数据——我们尚不清楚如何利用这些模态来提升ChatGPT的智能水平。

  ◆★■★◆■“我谦卑的预测是:LLM 将继续在训练分布内的任务上变得更好。随着我们收集更多类型的任务并进行训练,这将产生在广泛任务上越来越有用的 LLM◆■★◆★■。但它不会成为一个单一的超级智能模型。★◆■★★■”

  实际上,这类数据的收集成本极高◆■◆。典型的RLHF设置中★◆,需要训练一个奖励模型来模拟人类反馈信号。奖励模型是必要的,因为它们使我们能够提供远超实际人类反馈量的反馈◆◆■★★★。换言之,它们是计算上的辅助工具。我们将把奖励模型视为工程细节★■◆◆,暂且忽略它们。

  我认为架构(神经网络的结构)并不是最关键的因素。因此◆◆★★◆★,我们将略过有关架构的细节,并做出一个大胆的假设:超级智能将采用Transformers构建,这是目前在大型数据集上训练这类系统的最流行架构★■★★。

  导致ChatGPT诞生的许多重大突破,很大程度上源于对互联网上庞大的人类知识宝库的学习★◆◆★★■。尽管它的大部分复杂性都被现代工程巧妙地隐藏了起来■■,但让我们花点时间试图弄清楚这一切。

  有一段时间,人们普遍认为大量的SL★★◆■,特别是以“next-token prediction”的形式■◆,可能导致超级智能AI的出现。值得注意的是,Ilya Sutskeve曾发表过一场演讲★◆,指出next-token prediction本质上是在学习压缩★◆“(信息)宇宙■■■◆”,因为要做好这一点需要模拟所有可能的程序(或者类似的东西)。

  扎克伯格不惜以一亿美金年薪挖角 OpenAI 等竞争对手的动作背后,便暴露了 Meta 等头部玩家追求“超级智能■■■”的巨大野心★◆◆■★★。

  我们假设实现这一技术的基本构建模块已经确定:即采用神经网络作为基础架构★★■◆◆,并通过反向传播算法以及某种形式的机器学习方法对其进行训练。

  同样地■◆★■,如果人类能够验证超级智能,那么可能可以通过RLHF来训练一个超级智能模型★◆★◆■★。以具体例子来说★★◆★,你可以让一个LLM撰写大量小说,根据人类对“好小说”的定义对其进行奖励,然后多次重复这个过程,直到你得到一个能够撰写小说的超级智能机器■◆★。

  我个人认为◆■,这种逻辑存在一些缺陷,首先◆◆★★,我们似乎已经创建了在next-token prediction方面远超人类水平的系统★◆◆★,但这些系统仍无法展现人类级别的通用智能。某种程度上,我们构建的系统虽然学会了我们要求它们学习的内容(next-token prediction),却仍无法完成我们期望它们完成的任务(如不凭空杜撰地回答问题、完美遵循指令等)。

  当我们让计算机评估RL算法的阶段性性能时★■◆,可以使用模型或自动验证器。对于自动验证器◆■◆■,可以参考国际象棋或编程场景◆★■★■◆。我们可以编写规则来检查计算机是否赢得了国际象棋比赛,并在将死对手时给予奖励。在编程中,我们可以运行单元测试,对编写符合某些规格的代码的计算机给予奖励。

  假设这种情况确实成立,且RL能够完美迁移到各种任务上。这将产生巨大影响。人工智能公司将展开军备竞赛■■★,争夺训练LLM的最丰富、实用且工程设计精良的任务集。很可能◆■■★■■,有多家公司以这种方式推出■★★★■“超级智能LLM◆■”。

  这些问题可能在规模扩展后消失■■◆★■。拥有数十亿参数的模型■★◆■★◆,如Llama◆★★◆,会产生幻觉,但仅有10^9个参数。当我们训练拥有10^19个参数的模型时会发生什么■◆◆?或许这足以让单个LLM独立给全球80亿人类建模,并为每个人提供独立的数据驱动预测。

  为什么会这样呢?这可能只是一个科学或工程挑战,我们可能没有采用正确的方法;但也有可能文本本身具有某种特殊性■★◆■◆。毕竟,互联网上的每一段文本(在LLM出现之前)都是人类思维过程的反映。从某种意义上说,人类撰写的文本经过预处理,具有非常高的信息含量。

  那么,超级智能将如何实现◆★◆◆?现有大语言模型(LLM)的研究路径是否正确■■★★?Scaling Laws 能够在这一过程中继续奏效■★★?

  需要注意的是,围棋具有许多现实世界任务所不具备的重要特性,围棋具有固有的可验证性。我们可以将围棋对局输入到基于规则的计算机程序中,并获得一个信号★■■,指示我是否获胜。从长远来看,你可以根据某一步棋对游戏以胜利结束的概率的影响◆★★,判断这一步棋是否“好■■★◆◆★”。这基本上就是RL的工作原理★■。

  这可能仅仅是机器学习的失败◆★◆■。我们一直在训练一个模型★■◆◆,以预测每种情况下的人类平均结果。这种学习目标鼓励模型避免给任何一种可能的结果赋予过低的概率。这种范式常常导致所谓的“模式崩溃”(mode collapse)★■★◆◆,即模型在预测平均结果方面非常出色,却未能学习分布的尾部◆★★★■。

  借助这种可验证性,AlphaGo 实现了AI实验室长期以来追求的一个重要目标:AlphaGo 在思考时间更长时表现更佳。语言模型默认无法做到这一点。

  让我们来分析一下这种乐观的设想。我们已知的可验证任务包括编程(可以通过运行代码来验证其正确性)以及数学(不是证明,而是有数值解的问题)。如果我们能够收集世界上所有可验证的事物■◆■★,并同时对它们进行训练(或分别训练,然后进行模型合并)——这真的会产生通用超级智能吗?

  图|杨立昆(Yann LeCun)曾表示他知道通向智能的秘诀。事实上,智能就像一块蛋糕◆◆,而RL只是上面的一小颗樱桃。

  幸运的是■◆◆◆,这里可能还有另一个数据源可用(可验证的环境★◆!),但我们稍后再讨论这个。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点■◆◆,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问■■■。

  使用验证器会更加实用——它将使我们能够完全去除人类的参与(尽管人类曾用于编写整个互联网)。使用验证器实现超级智能的方案大致如下:

  此外,他还认为,将非文本数据整合到模型中并不能带来模型整体性能的提升,“由实际人类撰写的文本携带某种内在价值,而我们周围世界纯粹的感官输入永远无法具备这种价值★■。”

  既然我们了解了这一分类,就清楚任何潜在的超级智能系统都必须通过SL或RL(或两者结合)进行训练◆◆■★。

  图|2016年,AlphaGo以四胜一负的成绩击败了当时的人类围棋冠军李世石。最初的AlphaGo是通过SL进行训练的。接下来的AlphaGo版本通过RL进行学习:通过自我对战数百万局进行学习。

  作为一名AI研究员■★◆■★,我并不清楚如何构建超级智能——我甚至不确定这是否可能。因此,在这篇文章中★★★,我希望深入探讨一些细节◆◆,并推测是否有人能够从第一性原理出发来尝试构建超级智能◆★。

  但这正是OpenAI去年秋季宣布的突破性成果■■★◆。他们利用可验证奖励强化学习(RLVR)训练了o1模型,该模型与AlphaGo一样,能够通过更长时间的思考产生更优的输出:

  在上文中,我们发现了一个重要的原则:通向超级智能的最佳路径在于文本数据。换句话说★★■■,AGI很可能就是LLM,或根本不存在★■★■。其他一些有前景的领域包括从视频和机器人技术中学习,但这些领域似乎都远未达到在2030年前产生独立智能系统的水平。它们也需要大量数据■■◆★■;从文本中学习自然非常高效。

  Morris 在一篇题为“Superintelligence◆◆, from First Principles★■◆◆★★”的博客中★◆◆■◆,探讨了构建超级智能的 3 种可能方式:完全由监督学习(SL)、来自人类验证者的强化学习(RL)、来自自动验证器的 RL。

  在此第一种范式下,我们为模型提供基于人类的奖励★■。我们希望模型具备超级智能,因此希望对其生成更接近超级智能(由人类评判)的文本进行奖励。

  早在 2023 年,OpenAI 首席执行官 Sam Altman 便表示,构建 AGI 是一个科学问题◆★,而构建超级智能却是一个工程问题。这似乎暗示了他们知道构建超级智能的可行路径★■★。

  让我们重新梳理RL的范式:模型尝试各种操作,然后我们告知模型这些操作的表现好坏。这可通过两种方式实现◆◆★★:要么由人类评估者告知模型表现优劣(这大致是典型RLHF的工作原理)★■■◆★,要么由自动化系统完成此任务■★◆◆。

  超级智能(Superintelligence)是处于 AGI 之上◆■★◆■◆、甚至通用能力超过人类的更高维 AI 发展方向◆★■★◆■。

  原标题◆■★:《OpenAI路线遭质疑!Meta研究员:根本无法构建超级智能》

  而这种情况似乎真的正在发生。许多大型人工智能实验室的工程师已经花费了无数小时,从网络的各个角落刮取每一个有用的文本片段,甚至转录了数百万小时的YouTube视频,并购买了大量新闻故事来进行训练★■★★。

  图|在o1博客文章中★◆★■★◆,OpenAI介绍了一系列“推理模型”★★■★★◆,这些模型通过RLVR进行学习

  还记得2023年吗★★◆◆■?那正是人们开始对scaling laws感到兴奋的时候;GPT-4发布后◆■★■◆★,人们担心如果模型继续规模化◆★,可能会变得危险。

  准确的next-token prediction需要对任何人在任何情境下会写的内容进行建模

  这里存在几个逻辑跳跃。最重要的是■◆★★★,我们并不清楚RL在可验证任务上的迁移能力是否能够有效扩展到其他领域。训练模型解决数学问题是否能够自然地教会它如何预订机票?或者★■◆,在可验证环境中训练模型提升编程能力★★■◆★,是否能使其成为更优秀的软件工程师?

  相比之下,图像只是我们周围世界未经人类干预的原始视角■◆。确实有可能,由实际人类撰写的文本携带某种内在价值◆■◆,而我们周围世界纯粹的感官输入永远无法具备这种价值。

  因此,设想这样一个世界:我们拥有无限数量的人类来为LLM标注数据,并提供任意奖励,其中高奖励意味着模型的输出更接近超级智能。

  许多人都在讨论如何利用当前技术实现AGI(通用人工智能)或ASI(超级人工智能)◆■◆◆。Meta最近宣布★■◆,他们正在建立一个秘密的★★■★■★“超级智能”实验室◆■★■★★,投入了数十亿美元的资金。OpenAI■★■、Anthropic和Google DeepMind都以不同方式表达了构建超级智能机器的目标。

  显然,OpenAI、谷歌和其他AI实验室对这种基于LLM的RL非常兴奋■★◆◆,并认为这可能为他们带来超级智能。我认为■★◆■★◆,这种范式正是Altman在文章最前面模糊推文中提到的内容。超级智能的“工程问题”在于构建大量适用于不同任务的RL环境,并训练LLM同时处理所有这些任务。

  图|大约在2023年,很多人开始担心■■,LLM通过简单的监督学习扩展后,很快会演化为超级智能■◆◆★★。

  换个方式问◆◆◆■:我们能否◆■◆★“验证◆■★■■★”超级智能的存在,即便我们自己不能生成它?记住,人类从定义上来说不是超级智能。但当我们看到超级智能时★★■,能否识别出它?我们能否以足够可靠的方式识别,从而为LLM提供有用的梯度信号,使其可以收集大量此类反馈自我提升至超级智能?

  但事实证明,这已无关紧要,因为我们可能永远无法扩展到10^19个参数(的规模)。这一假设基本上源于2022年左右的深度学习学派,他们受语言模型scaling laws的巨大成功驱动,认为持续扩展模型和数据规模将实现完美智能。

  图|◆■★◆“一千只猴子在一千台打字机前工作★◆★★。很快★◆,它们将写出人类历史上最伟大的小说。■■■★”——伯恩斯先生■■★◆◆★,《辛普森一家》

  这暗示着OpenAI的研究人员知道如何构建超级智能,只需要投入时间和精力来建立所需的系统就行了■★◆■■。

  RL是非常难的◆■■◆★■。你可能会好奇◆◆,为什么我们不能全程使用RL。从实际角度来看◆★■■,RL有许多缺点。简而言之,SL比RL稳定且高效得多。一个易于理解的原因是★★★■■,由于RL通过让模型生成动作并对其进行评分来工作◆■◆◆★★,一个随机初始化的模型基本上是糟糕的★◆◆■,所有动作都毫无用处★★★◆■,它必须偶然做好一些事才能获得任何形式的奖励。这就是所谓的冷启动问题◆★■,而这只是RL众多问题中的一个。基于人类数据的SL被证明是解决冷启动问题的有效方法■■◆★■。

  忽略所有程序复杂性。假设这种方法能够实现大规模应用(尽管目前可能无法实现,但未来或许可行)。这会有效吗?一个仅通过人类奖励信号学习的机器,能否沿着智能阶梯不断进步,并最终超越人类?

  有人会指出■★■★■★“生成自然会比验证更难”。你看一部好电影时就知道它好◆■★■★,但这并不意味着你可以自己去制作一部。这种二分法在机器学习中经常出现★■■★。区分猫的照片和狗的照片在计算上要比生成完整的猫容易得多。

  观察上方的美丽图表(注意对数x轴!)★■■★◆,我们可以看到o1的确随着思考时间的增加而表现更好。但请注意标题★★■■★:这是在AIME数据集上的结果——AIME是一组极为困难◆★★★◆、答案为整数的数学题。换言之,这不是开放式任务,而是可验证的任务◆■◆,因为我们可以检查LLM是否生成正确答案★■■■,并据此奖励模型。

  但这种结果在我看来似乎不太可能◆■★■◆。我猜如果RL确实能够极好地迁移到其他领域,那我们现在应该已经知道了。我谦卑的预测是:LLM将继续在训练分布内的任务上变得更好。随着我们收集更多类型的任务并进行训练,这将产生在广泛任务上越来越有用的LLM。但它不会成为一个单一的超级智能模型◆◆★◆。

  众所周知,DeepMind的AlphaGo通过RL与SL的结合实现了“围棋霸主地位”(即击败所有人类选手,甚至那些训练了数十年的高手)。AlphaGo的第二个版本AlphaGo Zero通过连续40天与自己对弈来学习。

  由于互联网包含许多人撰写的文本,因此在大型文本预训练数据集上进行训练,就需要准确建模许多人的智能

  除了模型规模★◆★★,我们可能还面临数据不足的问题。没有人知道每个模型在训练过程中使用了多少互联网数据,但可以肯定的是,数量相当庞大。过去几年,大型人工智能实验室投入了巨大的工程努力,从互联网文本数据中榨取最后一点价值◆■■:例如■◆,OpenAI似乎已经转录了整个YouTube★◆◆★■,而像Reddit这样的高质量信息网站也被反复抓取。

  那么,我们已经知道很多:超级智能将是一个Transformers神经网络■◆,它将通过某种机器学习目标函数和基于梯度的反向传播进行训练。这里仍然有两个主要的开放性问题■■■。我们使用哪种学习算法,以及使用什么数据★★◆★?

  现在是2025年。这一理论论点仍未被挑战,scaling laws也一直有效。但事实证明,当规模超过一定阈值后■★★◆■◆,扩展模型变得非常困难(而早在2022年,我们已经非常接近能够有效处理的极限)。企业已经远远超出了我们用单台机器能够做到的范围——所有最新模型都是在由数百台机器组成的巨型网络上训练的。

  在机器学习领域,从大型数据集中学习的基本方法(经过验证)有两种■◆★。一种是SL,即训练模型以增加某些示例数据的概率。另一种是RL,涉及从模型中生成数据★◆★◆■,并因其采取“良好”行动(由用户定义的“良好■■”标准)而给予奖励。

  继续将模型规模扩展到万亿级参数,正引发硬件短缺和电力短缺。更大的模型将消耗如此多的电力◆◆◆■,以至于无法集中部署于单一地点;企业正在研究如何将模型训练分布到多个遥远的数据中心◆★◆,甚至收购、修复废弃核电站来训练下一代更大规模的AI模型★★。我们正处于一个疯狂的时代。

  还有另一种方法■◆。RL领域提供了一整套方法■◆■,可通过反馈而非仅依赖演示进行学习■◆★。

  然而,在 Meta AI 研究员 Jack Morris 看来,Altman 提到超级智能的★■★■★“工程问题”◆■,在于◆■★■“构建大量适用于不同任务的 RL 环境,并训练 LLM 同时处理所有这些任务”。他认为,这一由 OpenAI 等公司当前大力推进的路径——基于 LLM 的 RL——根本无法构建超级智能。

  将模型规模扩展到超过1000亿参数似乎很困难,同样★◆■★,将数据规模扩大到20T tokens以上也很困难◆★◆★■。这些因素似乎表明,在未来三到四年内,SL的规模很难再扩展10倍以上——因此◆■◆★■◆,对超级智能的探索可能不得不从其他地方寻找突破口◆◆★。

  也许你认同上述观点之一:要么我们在很长一段时间内都无法将预训练规模再提升几个数量级◆■◆■★,要么即使我们做到了,在预测人类token方面表现得非常出色,也无法构建比人类更聪明的系统。

预约免费量尺

Appointment free scale

投资加盟

Investment alliance

加盟合作
加盟热线

全国统一服务热线

4008-788-588

顶部

Join message

加盟K8凯发·(中国)天生赢家·一触即发,凯发天生赢家一触即发首页,凯发k8旗舰平台定制 抢占财富先机

提交
*市场有风险,投资需谨慎