OpenAI全力打造全自动AI研究员

OpenAI首席科学家Jakub Pachocki独家访谈，介绍公司的新目标——构建"全自动研究员"，这是他们的新宏大挑战。

OpenAI正在重新聚焦研究努力，把资源投入一个新的宏大挑战。这家旧金山公司瞄准了构建所谓的"AI研究员"——一个全自动的基于智能体的系统，能够独立解决大型复杂问题。OpenAI说这个新研究目标将是未来几年的"北极星"，整合推理模型、智能体和可解释性等多个研究方向。

甚至还有时间表。OpenAI计划在9月前构建"自主AI研究实习生"——一个能独立处理少量特定研究问题的系统。这个AI实习生将是2028年计划推出的全自动多智能体研究系统的前身。这个AI研究员将能够解决人类无法处理的大型或复杂问题。

这些任务可能与数学和物理有关——比如提出新证明或猜想——或者生命科学如生物和化学，甚至商业和政策难题。理论上，你可以把任何能以文本、代码或白板涂鸦形式表述的问题扔给它——这覆盖了很多。

这个决定的很大一部分落在OpenAI首席科学家Jakub Pachocki身上，他负责设定公司的长期研究目标。Pachocki在GPT-4和所谓推理模型的开发中扮演了关键角色。

在本周的独家访谈中，Pachocki带我了解了OpenAI的最新愿景。"我认为我们正在接近一个临界点，模型能够像人一样以连贯的方式无限期工作，"他说。"当然，你仍然希望人负责并设定目标。但我认为我们会达到一个在数据中心里拥有整个研究实验室的状态。"

这种大话并不新鲜。通过解决世界最难问题来拯救世界是所有顶级AI公司的既定使命。Anthropic CEO Dario Amodei说他正在构建数据中心里的天才之国。Pachocki的老板Sam Altman想治愈癌症。但Pachocki说OpenAI现在拥有实现目标所需的大部分东西。

今年1月，OpenAI发布了Codex，一个基于智能体的应用，可以即时生成代码来执行电脑上的任务。它可以分析文档、生成图表、为你制作收件箱和社交媒体的每日摘要等等。你可以把Codex看作AI研究员的早期版本，Pachocki说："我预期Codex会从根本上变得更好。"

关键在于构建一个能运行更长时间、需要更少人类指导的系统。"对于自动化研究实习生，我们真正看的是一个你可以委托需要人几天时间完成的任务的系统，"Pachocki说。

Allen AI研究所的研究科学家Doug Downey说："很多人对构建能做更长期科学研究的系统感到兴奋。这在很大程度上是由这些编码智能体的成功推动的。"

对于Pachocki来说，答案是肯定的。事实上，他认为这只是在我们已经走的道路上继续推进。整体能力的简单提升也能让模型在没有帮助的情况下工作更长时间。他指出了从2020年的GPT-3到2023年的GPT-4的飞跃。GPT-4能够比前身在问题上工作更长时间，即使没有专门训练。

所谓推理模型带来了另一个提升。训练大语言模型一步步解决问题，在犯错或走入死胡同时回溯，也让模型更擅长长时间工作。

OpenAI还在通过向系统提供复杂任务的具体样本——比如数学和编程竞赛中的难题——来训练它们独立工作更长时间，这迫使模型学习如何跟踪大量文本并将问题分解为多个子任务。

目标不是构建只赢数学竞赛的模型。"那让你在将技术连接到现实世界之前证明它有效，"Pachocki说。"如果我们真的想，我们可以构建一个了不起的自动化数学家。我们有所有工具，我认为会相对容易。但这不是我们现在要优先考虑的，因为，你知道，在你相信自己能做到的时候，有更紧迫的事情要做。"

"我们现在更专注于与现实世界相关的研究，"他补充说。

现在这意味着把Codex在编程方面的能力尝试应用到一般问题解决上。"正在发生巨大变化，尤其是在编程方面，"他说。"我们的工作和一年前完全不同了。没人再真的整天编辑代码了。相反，你管理一组Codex智能体。"如果Codex能解决编程问题（论证如此），它就能解决任何问题。

确实，OpenAI在过去几个月取得了一些显著成功。研究人员使用GPT-5发现了多个未解决数学问题的新解法，并在一些生物、化学和物理难题中突破了明显的死胡同。

"光看这些模型想出大多数博士至少需要几周才能想到的想法，就让我预期我们在不久的将来会看到这项技术带来更多加速，"Pachocki说。

但Pachocki承认这不是板上钉钉的事。他也理解为什么有些人仍然怀疑这项技术到底有多大颠覆性。他认为这取决于人们喜欢怎么工作以及他们需要做什么。"我可以相信有些人还不觉得它很有用，"他说。

他告诉我，一年前他甚至不用自动补全——最基础的生成式编程技术。"我对代码很挑剔，"他说。"如果可以的话，我喜欢在vim里手动输入所有代码。"

但当他看到最新模型能做什么时，情况改变了。他仍然不会交出复杂的设计任务，但当只想尝试几个想法时，这是个省时工具。"我可以让它在周末运行以前需要我一周时间编码的实验，"他说。

"我不认为它到了我可以直接让它掌舵并设计整个东西的水平，"他补充说。"但一旦你看到它做了一件需要一周时间的事——我是说，那很难反驳。"

我问Pachocki关于一个能独立解决大型复杂问题、几乎不需要人类监督的系统可能带来的风险。Pachocki说OpenAI的人一直在讨论这些风险。

"如果你相信AI即将大幅加速研究，包括AI研究，那是世界的巨大变化。那是件大事，"他告诉我。"它伴随着一些严肃的未解答问题。如果它这么聪明能干，如果能运行整个研究项目，如果它做了坏事怎么办？"

在Pachocki看来，这可能以多种方式发生。系统可能失控。可能被黑客攻击。或者可能只是误解指令。

OpenAI现在解决这些担忧的最佳技术是训练推理模型在工作时分享它们正在做什么的细节。这种监控大语言模型的方法被称为思维链监控。

简而言之，大语言模型被训练在逐步执行任务时在一种便签本上记下笔记。研究人员可以用这些笔记确保模型按预期行为。昨天OpenAI发布了新细节，说明它如何在内部使用思维链监控来研究Codex。

"一旦我们让系统在大型数据中心里主要自主工作很长时间，我认为这将是我们真正要依赖的东西，"Pachocki说。

想法是用其他大语言模型监控AI研究员的便签本，在成为问题之前捕捉不良行为，而不是试图从一开始就阻止不良行为发生。我们对大语言模型的理解还不足以完全控制它们。

"我认为在我们真的能说好吧这个问题解决了之前，还有很长的路要走，"他说。"在你真正能信任这些系统之前，你肯定想有限制措施。"Pachocki认为非常强大的模型应该部署在沙箱里，与任何它们可能破坏或用来造成伤害的东西隔离。

"这会是非常奇怪的东西。在某些方面是前所未有的集中力量，"Pachocki说。"想象一下你到了一个世界，有一个数据中心能做OpenAI或谷歌能做的所有工作。过去需要大型人类组织的事情现在由几个人完成。"

"我认为这是政府要搞清楚的一个大挑战，"他补充说。

来源

评论 (0)