k8·凯发(国际) - 官方网站

OpenAI路线遭质疑！Meta研究员：根本无法构建超级智能

2025-06-22浏览：

　　许多人已经讨论过★★■，如果文本数据用完了，我们应该如何应对★★★。这种情况被称为◆★■★“数据墙◆◆◆■★★”或“token危机”，人们已经探讨了如果我们真的用完了数据该怎么办■◆◆★■◆，以及如何扩展我们的模型。

　　事实证明，当前的LLM在预训练后能够很好地处理任意任务，它们可以对AIME问题做出合理的猜测，而我们可以利用RL来训练它们，使其随着时间的推移做出越来越好的猜测。（最酷的部分，我们在此不做展开，是它们在这一过程中会生成越来越多的“思考token★★■■”，从而为我们提供如上文o1博客文章中所示的测试时计算图。）

　　目前最好的系统都依赖于从互联网的文本数据中学习★■★◆。截至本文撰写时（2025年6月）★◆■★■★，我认为将非文本数据整合到模型中并未带来整体性能的提升。这包括图像、视频、音频以及机器人技术的超感官数据——我们尚不清楚如何利用这些模态来提升ChatGPT的智能水平。

　　◆★■★◆■“我谦卑的预测是：LLM 将继续在训练分布内的任务上变得更好。随着我们收集更多类型的任务并进行训练，这将产生在广泛任务上越来越有用的 LLM◆■★◆★■。但它不会成为一个单一的超级智能模型。★◆■★★■”

　　实际上，这类数据的收集成本极高◆■◆。典型的RLHF设置中★◆，需要训练一个奖励模型来模拟人类反馈信号。奖励模型是必要的，因为它们使我们能够提供远超实际人类反馈量的反馈◆◆■★★★。换言之，它们是计算上的辅助工具。我们将把奖励模型视为工程细节★■◆◆，暂且忽略它们。

　　我认为架构（神经网络的结构）并不是最关键的因素。因此◆◆★★◆★，我们将略过有关架构的细节，并做出一个大胆的假设：超级智能将采用Transformers构建，这是目前在大型数据集上训练这类系统的最流行架构★■★★。

　　导致ChatGPT诞生的许多重大突破，很大程度上源于对互联网上庞大的人类知识宝库的学习★◆◆★★■。尽管它的大部分复杂性都被现代工程巧妙地隐藏了起来■■，但让我们花点时间试图弄清楚这一切。

　　有一段时间，人们普遍认为大量的SL★★◆■，特别是以“next-token prediction”的形式■◆，可能导致超级智能AI的出现。值得注意的是，Ilya Sutskeve曾发表过一场演讲★◆，指出next-token prediction本质上是在学习压缩★◆“（信息）宇宙■■■◆”，因为要做好这一点需要模拟所有可能的程序（或者类似的东西）。

　　扎克伯格不惜以一亿美金年薪挖角 OpenAI 等竞争对手的动作背后，便暴露了 Meta 等头部玩家追求“超级智能■■■”的巨大野心★◆◆■★★。

　　我们假设实现这一技术的基本构建模块已经确定：即采用神经网络作为基础架构★★■◆◆，并通过反向传播算法以及某种形式的机器学习方法对其进行训练。

　　同样地■◆★■，如果人类能够验证超级智能，那么可能可以通过RLHF来训练一个超级智能模型★◆★◆■★。以具体例子来说★★◆★，你可以让一个LLM撰写大量小说，根据人类对“好小说”的定义对其进行奖励，然后多次重复这个过程，直到你得到一个能够撰写小说的超级智能机器■◆★。

　　我个人认为◆■，这种逻辑存在一些缺陷，首先◆◆★★，我们似乎已经创建了在next-token prediction方面远超人类水平的系统★◆◆★，但这些系统仍无法展现人类级别的通用智能。某种程度上，我们构建的系统虽然学会了我们要求它们学习的内容（next-token prediction），却仍无法完成我们期望它们完成的任务（如不凭空杜撰地回答问题、完美遵循指令等）。

　　当我们让计算机评估RL算法的阶段性性能时★■◆，可以使用模型或自动验证器。对于自动验证器◆■◆■，可以参考国际象棋或编程场景◆★■★■◆。我们可以编写规则来检查计算机是否赢得了国际象棋比赛，并在将死对手时给予奖励。在编程中，我们可以运行单元测试，对编写符合某些规格的代码的计算机给予奖励。

　　假设这种情况确实成立，且RL能够完美迁移到各种任务上。这将产生巨大影响。人工智能公司将展开军备竞赛■■★，争夺训练LLM的最丰富、实用且工程设计精良的任务集。很可能◆■■★■■，有多家公司以这种方式推出■★★★■“超级智能LLM◆■”。

　　这些问题可能在规模扩展后消失■■◆★■。拥有数十亿参数的模型■★◆■★◆，如Llama◆★★◆，会产生幻觉，但仅有10^9个参数。当我们训练拥有10^19个参数的模型时会发生什么■◆◆？或许这足以让单个LLM独立给全球80亿人类建模，并为每个人提供独立的数据驱动预测。

　　为什么会这样呢？这可能只是一个科学或工程挑战，我们可能没有采用正确的方法；但也有可能文本本身具有某种特殊性■★◆■◆。毕竟，互联网上的每一段文本（在LLM出现之前）都是人类思维过程的反映。从某种意义上说，人类撰写的文本经过预处理，具有非常高的信息含量。

　　那么，超级智能将如何实现◆★◆◆？现有大语言模型（LLM）的研究路径是否正确■■★★？Scaling Laws 能够在这一过程中继续奏效■★★？

　　需要注意的是，围棋具有许多现实世界任务所不具备的重要特性，围棋具有固有的可验证性。我们可以将围棋对局输入到基于规则的计算机程序中，并获得一个信号★■■，指示我是否获胜。从长远来看，你可以根据某一步棋对游戏以胜利结束的概率的影响◆★★，判断这一步棋是否“好■■★◆◆★”。这基本上就是RL的工作原理★■。

　　这可能仅仅是机器学习的失败◆★◆■。我们一直在训练一个模型★■◆◆，以预测每种情况下的人类平均结果。这种学习目标鼓励模型避免给任何一种可能的结果赋予过低的概率。这种范式常常导致所谓的“模式崩溃”（mode collapse）★■★◆◆，即模型在预测平均结果方面非常出色，却未能学习分布的尾部◆★★★■。

　　借助这种可验证性，AlphaGo 实现了AI实验室长期以来追求的一个重要目标：AlphaGo 在思考时间更长时表现更佳。语言模型默认无法做到这一点。

　　让我们来分析一下这种乐观的设想。我们已知的可验证任务包括编程（可以通过运行代码来验证其正确性）以及数学（不是证明，而是有数值解的问题）。如果我们能够收集世界上所有可验证的事物■◆■★，并同时对它们进行训练（或分别训练，然后进行模型合并）——这真的会产生通用超级智能吗？

　　图｜杨立昆（Yann LeCun）曾表示他知道通向智能的秘诀。事实上，智能就像一块蛋糕◆◆，而RL只是上面的一小颗樱桃。

　　幸运的是■◆◆◆，这里可能还有另一个数据源可用（可验证的环境★◆！），但我们稍后再讨论这个。

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点■◆◆，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问■■■。

　　使用验证器会更加实用——它将使我们能够完全去除人类的参与（尽管人类曾用于编写整个互联网）。使用验证器实现超级智能的方案大致如下：

　　此外，他还认为，将非文本数据整合到模型中并不能带来模型整体性能的提升，“由实际人类撰写的文本携带某种内在价值，而我们周围世界纯粹的感官输入永远无法具备这种价值★■。”

　　既然我们了解了这一分类，就清楚任何潜在的超级智能系统都必须通过SL或RL（或两者结合）进行训练◆◆■★。

　　图｜2016年，AlphaGo以四胜一负的成绩击败了当时的人类围棋冠军李世石。最初的AlphaGo是通过SL进行训练的。接下来的AlphaGo版本通过RL进行学习：通过自我对战数百万局进行学习。

　　作为一名AI研究员■★◆■★，我并不清楚如何构建超级智能——我甚至不确定这是否可能。因此，在这篇文章中★★★，我希望深入探讨一些细节◆◆，并推测是否有人能够从第一性原理出发来尝试构建超级智能◆★。

　　但这正是OpenAI去年秋季宣布的突破性成果■■★◆。他们利用可验证奖励强化学习（RLVR）训练了o1模型，该模型与AlphaGo一样，能够通过更长时间的思考产生更优的输出：

　　在上文中，我们发现了一个重要的原则：通向超级智能的最佳路径在于文本数据。换句话说★★■■，AGI很可能就是LLM，或根本不存在★■★■。其他一些有前景的领域包括从视频和机器人技术中学习，但这些领域似乎都远未达到在2030年前产生独立智能系统的水平。它们也需要大量数据■■◆★■；从文本中学习自然非常高效。

　　Morris 在一篇题为“Superintelligence◆◆, from First Principles★■◆◆★★”的博客中★◆◆■◆，探讨了构建超级智能的 3 种可能方式：完全由监督学习（SL）、来自人类验证者的强化学习（RL）、来自自动验证器的 RL。

　　在此第一种范式下，我们为模型提供基于人类的奖励★■。我们希望模型具备超级智能，因此希望对其生成更接近超级智能（由人类评判）的文本进行奖励。

　　早在 2023 年，OpenAI 首席执行官 Sam Altman 便表示，构建 AGI 是一个科学问题◆★，而构建超级智能却是一个工程问题。这似乎暗示了他们知道构建超级智能的可行路径★■★。

　　让我们重新梳理RL的范式：模型尝试各种操作，然后我们告知模型这些操作的表现好坏。这可通过两种方式实现◆◆★★：要么由人类评估者告知模型表现优劣（这大致是典型RLHF的工作原理）★■■◆★，要么由自动化系统完成此任务■★◆◆。

　　超级智能（Superintelligence）是处于 AGI 之上◆■★◆■◆、甚至通用能力超过人类的更高维 AI 发展方向◆★■★◆■。

　　原标题◆■★：《OpenAI路线遭质疑！Meta研究员：根本无法构建超级智能》

　　而这种情况似乎真的正在发生。许多大型人工智能实验室的工程师已经花费了无数小时，从网络的各个角落刮取每一个有用的文本片段，甚至转录了数百万小时的YouTube视频，并购买了大量新闻故事来进行训练★■★★。

　　图｜在o1博客文章中★◆★■★◆，OpenAI介绍了一系列“推理模型”★★■★★◆，这些模型通过RLVR进行学习

　　还记得2023年吗★★◆◆■？那正是人们开始对scaling laws感到兴奋的时候；GPT-4发布后◆■★■◆★，人们担心如果模型继续规模化◆★，可能会变得危险。

　　准确的next-token prediction需要对任何人在任何情境下会写的内容进行建模

　　这里存在几个逻辑跳跃。最重要的是■◆★★★，我们并不清楚RL在可验证任务上的迁移能力是否能够有效扩展到其他领域。训练模型解决数学问题是否能够自然地教会它如何预订机票？或者★■◆，在可验证环境中训练模型提升编程能力★★■◆★，是否能使其成为更优秀的软件工程师？

　　相比之下，图像只是我们周围世界未经人类干预的原始视角■◆。确实有可能，由实际人类撰写的文本携带某种内在价值◆■◆，而我们周围世界纯粹的感官输入永远无法具备这种价值。

　　因此，设想这样一个世界：我们拥有无限数量的人类来为LLM标注数据，并提供任意奖励，其中高奖励意味着模型的输出更接近超级智能。

　　许多人都在讨论如何利用当前技术实现AGI（通用人工智能）或ASI（超级人工智能）◆■◆◆。Meta最近宣布★■◆，他们正在建立一个秘密的★★■★■★“超级智能”实验室◆■★■★★，投入了数十亿美元的资金。OpenAI■★■、Anthropic和Google DeepMind都以不同方式表达了构建超级智能机器的目标。

　　显然，OpenAI、谷歌和其他AI实验室对这种基于LLM的RL非常兴奋■★◆◆，并认为这可能为他们带来超级智能。我认为■★◆■★◆，这种范式正是Altman在文章最前面模糊推文中提到的内容。超级智能的“工程问题”在于构建大量适用于不同任务的RL环境，并训练LLM同时处理所有这些任务。

　　图｜大约在2023年，很多人开始担心■■，LLM通过简单的监督学习扩展后，很快会演化为超级智能■◆◆★★。

　　换个方式问◆◆◆■：我们能否◆■◆★“验证◆■★■■★”超级智能的存在，即便我们自己不能生成它？记住，人类从定义上来说不是超级智能。但当我们看到超级智能时★★■，能否识别出它？我们能否以足够可靠的方式识别，从而为LLM提供有用的梯度信号，使其可以收集大量此类反馈自我提升至超级智能？

　　但事实证明，这已无关紧要，因为我们可能永远无法扩展到10^19个参数（的规模）。这一假设基本上源于2022年左右的深度学习学派，他们受语言模型scaling laws的巨大成功驱动，认为持续扩展模型和数据规模将实现完美智能。

　　图｜◆■★◆“一千只猴子在一千台打字机前工作★◆★★。很快★◆，它们将写出人类历史上最伟大的小说。■■■★”——伯恩斯先生■■★◆◆★，《辛普森一家》

　　这暗示着OpenAI的研究人员知道如何构建超级智能，只需要投入时间和精力来建立所需的系统就行了■★◆■■。

　　RL是非常难的◆■■◆★■。你可能会好奇◆◆，为什么我们不能全程使用RL。从实际角度来看◆★■■，RL有许多缺点。简而言之，SL比RL稳定且高效得多。一个易于理解的原因是★★★■■，由于RL通过让模型生成动作并对其进行评分来工作◆■◆◆★★，一个随机初始化的模型基本上是糟糕的★◆◆■，所有动作都毫无用处★★★◆■，它必须偶然做好一些事才能获得任何形式的奖励。这就是所谓的冷启动问题◆★■，而这只是RL众多问题中的一个。基于人类数据的SL被证明是解决冷启动问题的有效方法■■◆★■。

　　忽略所有程序复杂性。假设这种方法能够实现大规模应用（尽管目前可能无法实现，但未来或许可行）。这会有效吗？一个仅通过人类奖励信号学习的机器，能否沿着智能阶梯不断进步，并最终超越人类？

　　有人会指出■★■★■★“生成自然会比验证更难”。你看一部好电影时就知道它好◆■★■★，但这并不意味着你可以自己去制作一部。这种二分法在机器学习中经常出现★■■★。区分猫的照片和狗的照片在计算上要比生成完整的猫容易得多。

　　观察上方的美丽图表（注意对数x轴！）★■■★◆，我们可以看到o1的确随着思考时间的增加而表现更好。但请注意标题★★■■★：这是在AIME数据集上的结果——AIME是一组极为困难◆★★★◆、答案为整数的数学题。换言之，这不是开放式任务，而是可验证的任务◆■◆，因为我们可以检查LLM是否生成正确答案★■■■，并据此奖励模型。

　　但这种结果在我看来似乎不太可能◆■★■◆。我猜如果RL确实能够极好地迁移到其他领域，那我们现在应该已经知道了。我谦卑的预测是：LLM将继续在训练分布内的任务上变得更好。随着我们收集更多类型的任务并进行训练，这将产生在广泛任务上越来越有用的LLM。但它不会成为一个单一的超级智能模型◆◆★◆。

　　众所周知，DeepMind的AlphaGo通过RL与SL的结合实现了“围棋霸主地位”（即击败所有人类选手，甚至那些训练了数十年的高手）。AlphaGo的第二个版本AlphaGo Zero通过连续40天与自己对弈来学习。

　　由于互联网包含许多人撰写的文本，因此在大型文本预训练数据集上进行训练，就需要准确建模许多人的智能

　　除了模型规模★◆★★，我们可能还面临数据不足的问题。没有人知道每个模型在训练过程中使用了多少互联网数据，但可以肯定的是，数量相当庞大。过去几年，大型人工智能实验室投入了巨大的工程努力，从互联网文本数据中榨取最后一点价值◆■■：例如■◆，OpenAI似乎已经转录了整个YouTube★◆◆★■，而像Reddit这样的高质量信息网站也被反复抓取。

　　那么，我们已经知道很多：超级智能将是一个Transformers神经网络■◆，它将通过某种机器学习目标函数和基于梯度的反向传播进行训练。这里仍然有两个主要的开放性问题■■■。我们使用哪种学习算法，以及使用什么数据★★◆★？

　　现在是2025年。这一理论论点仍未被挑战，scaling laws也一直有效。但事实证明，当规模超过一定阈值后■★★◆■◆，扩展模型变得非常困难（而早在2022年，我们已经非常接近能够有效处理的极限）。企业已经远远超出了我们用单台机器能够做到的范围——所有最新模型都是在由数百台机器组成的巨型网络上训练的。

　　在机器学习领域，从大型数据集中学习的基本方法（经过验证）有两种■◆★。一种是SL，即训练模型以增加某些示例数据的概率。另一种是RL，涉及从模型中生成数据★◆★◆■，并因其采取“良好”行动（由用户定义的“良好■■”标准）而给予奖励。

　　继续将模型规模扩展到万亿级参数，正引发硬件短缺和电力短缺。更大的模型将消耗如此多的电力◆◆◆■，以至于无法集中部署于单一地点；企业正在研究如何将模型训练分布到多个遥远的数据中心◆★◆，甚至收购、修复废弃核电站来训练下一代更大规模的AI模型★★。我们正处于一个疯狂的时代。

　　还有另一种方法■◆。RL领域提供了一整套方法■◆■，可通过反馈而非仅依赖演示进行学习■◆★。

　　然而，在 Meta AI 研究员 Jack Morris 看来，Altman 提到超级智能的★■★■★“工程问题”◆■，在于◆■★■“构建大量适用于不同任务的 RL 环境，并训练 LLM 同时处理所有这些任务”。他认为，这一由 OpenAI 等公司当前大力推进的路径——基于 LLM 的 RL——根本无法构建超级智能。

　　将模型规模扩展到超过1000亿参数似乎很困难，同样★◆■★，将数据规模扩大到20T tokens以上也很困难◆★◆★■。这些因素似乎表明，在未来三到四年内，SL的规模很难再扩展10倍以上——因此◆■◆★■◆，对超级智能的探索可能不得不从其他地方寻找突破口◆◆★。

　　也许你认同上述观点之一：要么我们在很长一段时间内都无法将预训练规模再提升几个数量级◆■◆■★，要么即使我们做到了，在预测人类token方面表现得非常出色，也无法构建比人类更聪明的系统。

Previous Next

返回列表

推荐新闻

Recommend news

: 222025-06

|凯发娱乐登录游戏大厅下载食话实说从“酸倒牙”到高营养！桃杏

　　马冠生介绍，每100克的桃■■、李、杏水分含量近90%，能量较低，杏和李每100克能量为36千卡，桃稍高为48千卡■。维生素方面，杏的胡萝卜素含量突

: 222025-06

OpenAI路线遭质疑！Meta研究员：根本无法构建超级智能

　　许多人已经讨论过■，如果文本数据用完了，我们应该如何应对。这种情况被称为■“数据墙■”或“token危机”，人们已经探讨了如果我们真的用完了数据该怎

K8凯发·(中国)天生赢家·一触即发

凯发天生赢家一触即发首页

凯发k8旗舰平台

关于我们

招商加盟

新闻中心

产品中心

我们的服务

招聘入口

梦想定制家

新生活方式倡导者

Corporate
news

|凯发娱乐登录游戏大厅下载食话实说从“酸倒牙”到高营养！桃杏

OpenAI路线遭质疑！Meta研究员：根本无法构建超级智能

预约免费量尺

投资加盟

4008-788-588

全国统一服务热线

4008-788-588

Join message

加盟K8凯发·(中国)天生赢家·一触即发,凯发天生赢家一触即发首页,凯发k8旗舰平台定制抢占财富先机

新生活方式倡导者

Corporatenews

|凯发娱乐登录游戏大厅下载食话实说从“酸倒牙”到高营养！桃杏

OpenAI路线遭质疑！Meta研究员：根本无法构建超级智能

预约免费量尺

投资加盟

全国统一服务热线

4008-788-588

Join message

加盟K8凯发·(中国)天生赢家·一触即发,凯发天生赢家一触即发首页,凯发k8旗舰平台定制 抢占财富先机

Corporate
news

加盟K8凯发·(中国)天生赢家·一触即发,凯发天生赢家一触即发首页,凯发k8旗舰平台定制抢占财富先机