揭秘OpenAI的野心：讓AI為你搞定一切

2025-08-04 來(lái)源：新浪原創(chuàng)文章

關(guān)鍵詞： AI推理模型強(qiáng)化學(xué)習(xí) AI代理思維鏈 OpenAI

2022 年，亨特?萊特曼以研究員身份加入 OpenAI 后不久，便見(jiàn)證了同事們推出 ChatGPT—— 這款產(chǎn)品后來(lái)成為史上增長(zhǎng)最快的產(chǎn)品之一。與此同時(shí)，萊特曼則在一個(gè)團(tuán)隊(duì)中默默耕耘，致力于教 OpenAI 的模型解決高中數(shù)學(xué)競(jìng)賽題。

如今，這個(gè)名為 MathGen 的團(tuán)隊(duì)被視為 OpenAI 打造 AI 推理模型這一行業(yè)領(lǐng)先舉措的關(guān)鍵力量，而 AI 推理模型正是能像人類(lèi)一樣在電腦上完成任務(wù)的 AI 代理的核心技術(shù)。

“我們當(dāng)時(shí)試圖讓模型在數(shù)學(xué)推理方面做得更好，因?yàn)槟菚r(shí)它們?cè)谶@方面還很薄弱，” 萊特曼在描述 MathGen 早期工作時(shí)對(duì) TechCrunch 表示。

OpenAI 的模型如今遠(yuǎn)非完美 —— 該公司最新的 AI 系統(tǒng)仍會(huì)出現(xiàn)幻覺(jué)，其代理在處理復(fù)雜任務(wù)時(shí)也力不從心。

但它的最先進(jìn)模型在數(shù)學(xué)推理方面已有顯著進(jìn)步。OpenAI 的一款模型最近在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽（一項(xiàng)面向全球最聰明高中生的數(shù)學(xué)競(jìng)賽）中斬獲金牌。OpenAI 認(rèn)為，這些推理能力將遷移到其他學(xué)科，最終為該公司一直夢(mèng)寐以求的通用代理提供動(dòng)力。

ChatGPT 的誕生純屬意外 —— 一次低調(diào)的研究預(yù)覽意外走紅，演變成消費(fèi)級(jí)業(yè)務(wù) —— 但 OpenAI 的代理是該公司多年來(lái)精心努力的成果。

“最終，你只需向電腦提出需求，它就會(huì)為你完成所有這些任務(wù)，”O(jiān)penAI 首席執(zhí)行官山姆?奧特曼在 2023 年公司首屆開(kāi)發(fā)者大會(huì)上表示?！斑@些能力在 AI 領(lǐng)域通常被稱(chēng)為代理。其帶來(lái)的好處將是巨大的?！?/p>

這些代理能否實(shí)現(xiàn)奧特曼的愿景仍有待觀察，但 OpenAI 在 2024 年秋季推出首個(gè) AI 推理模型 o1 時(shí)，震驚了世界。不到一年后，促成這一突破的 21 名基礎(chǔ)研究員成為硅谷最炙手可熱的人才。

馬克?扎克伯格招募了 5 名參與 o1 研發(fā)的研究員，讓他們加入 Meta 新成立的專(zhuān)注于超級(jí)智能的部門(mén)，并為部分人提供了超過(guò) 1 億美元的薪酬方案。其中之一的趙勝佳最近被任命為 Meta 超級(jí)智能實(shí)驗(yàn)室的首席科學(xué)家。

強(qiáng)化學(xué)習(xí)的復(fù)興

OpenAI 推理模型和代理的崛起與一種名為強(qiáng)化學(xué)習(xí)（RL）的機(jī)器學(xué)習(xí)訓(xùn)練技術(shù)息息相關(guān)。強(qiáng)化學(xué)習(xí)在模擬環(huán)境中向 AI 模型反饋其選擇是否正確。

強(qiáng)化學(xué)習(xí)已應(yīng)用數(shù)十年。例如，2016 年，在 OpenAI 于 2015 年成立約一年后，谷歌(189.95, -2.91, -1.51%) DeepMind 使用強(qiáng)化學(xué)習(xí)創(chuàng)建的 AI 系統(tǒng) AlphaGo 在圍棋比賽中擊敗世界冠軍，引發(fā)全球關(guān)注。

大約在那時(shí)，OpenAI 的首批員工之一安德烈?卡帕西開(kāi)始思考如何利用強(qiáng)化學(xué)習(xí)創(chuàng)建一個(gè)能使用電腦的 AI 代理。但 OpenAI 花了數(shù)年時(shí)間才開(kāi)發(fā)出必要的模型和訓(xùn)練技術(shù)。

到 2018 年，OpenAI 在 GPT 系列中率先推出首個(gè)大型語(yǔ)言模型，該模型在海量互聯(lián)網(wǎng)數(shù)據(jù)和大型 GPU 集群上進(jìn)行預(yù)訓(xùn)練。GPT 模型在文本處理方面表現(xiàn)出色，最終催生出 ChatGPT，但在基礎(chǔ)數(shù)學(xué)方面卻存在短板。

直到 2023 年，OpenAI 才取得突破，最初將其命名為 “Q*”，后又改稱(chēng) “Strawberry”。這一突破通過(guò)結(jié)合大型語(yǔ)言模型、強(qiáng)化學(xué)習(xí)和一種名為測(cè)試時(shí)計(jì)算的技術(shù)實(shí)現(xiàn)。后者讓模型在給出答案前，有額外的時(shí)間和計(jì)算能力來(lái)規(guī)劃和解決問(wèn)題，并驗(yàn)證每一步驟。

這使得 OpenAI 能夠引入一種名為 “思維鏈”（CoT）的新方法，該方法提高了 AI 在處理未見(jiàn)過(guò)的數(shù)學(xué)問(wèn)題時(shí)的表現(xiàn)。

“我能看到模型開(kāi)始進(jìn)行推理，” 埃爾?基什基說(shuō)。“它會(huì)發(fā)現(xiàn)錯(cuò)誤并回溯，還會(huì)‘感到沮喪’。這真的就像在閱讀一個(gè)人的想法?！?/p>

盡管這些技術(shù)本身并非新穎，但 OpenAI 獨(dú)特地將它們結(jié)合起來(lái)，創(chuàng)建了 Strawberry，這直接促成了 o1 的開(kāi)發(fā)。OpenAI 很快意識(shí)到，AI 推理模型的規(guī)劃和事實(shí)核查能力可用于為 AI 代理提供動(dòng)力。

“我們解決了一個(gè)我多年來(lái)一直冥思苦想的問(wèn)題，” 萊特曼說(shuō)。“這是我研究生涯中最激動(dòng)人心的時(shí)刻之一?！?/p>

擴(kuò)展推理能力

憑借 AI 推理模型，OpenAI 確定了兩個(gè)可用于改進(jìn) AI 模型的新方向：在 AI 模型的后期訓(xùn)練中使用更多計(jì)算能力，以及讓 AI 模型在回答問(wèn)題時(shí)有更多時(shí)間和處理能力。

“作為一家公司，OpenAI 不僅關(guān)注事物的現(xiàn)狀，還非常關(guān)注它們的擴(kuò)展方式，” 萊特曼說(shuō)。

兩位消息人士告訴 TechCrunch，在 2023 年 Strawberry 取得突破后不久，OpenAI 成立了一個(gè)由研究員丹尼爾?塞爾薩姆領(lǐng)導(dǎo)的 “代理” 團(tuán)隊(duì)，以在這一新范式上取得進(jìn)一步進(jìn)展。盡管該團(tuán)隊(duì)名為 “代理”，但 OpenAI 最初并未像我們?nèi)缃袼氲哪菢訁^(qū)分推理模型和代理。該公司只是想讓 AI 系統(tǒng)能夠完成復(fù)雜任務(wù)。

最終，塞爾薩姆領(lǐng)導(dǎo)的代理團(tuán)隊(duì)的工作成為開(kāi)發(fā) o1 推理模型這一更大項(xiàng)目的一部分，該項(xiàng)目的負(fù)責(zé)人包括 OpenAI 聯(lián)合創(chuàng)始人伊利亞?薩茨凱弗、首席研究官馬克?陳和首席科學(xué)家雅各布?帕喬基。

OpenAI 必須投入寶貴的資源 —— 主要是人才和 GPU—— 來(lái)開(kāi)發(fā) o1?？v觀 OpenAI 的歷史，研究人員必須與公司領(lǐng)導(dǎo)層協(xié)商以獲取資源，而展示突破性成果是確保獲得資源的可靠方法。

“OpenAI 的核心特點(diǎn)之一是，研究方面的一切都是自下而上的，” 萊特曼說(shuō)。“當(dāng)我們展示（o1 的）證據(jù)時(shí)，公司表示‘這很有意義，讓我們繼續(xù)推進(jìn)’?！?/p>

一些前員工表示，這家初創(chuàng)公司開(kāi)發(fā)通用人工智能（AGI）的使命是在 AI 推理模型方面取得突破的關(guān)鍵因素。通過(guò)專(zhuān)注于開(kāi)發(fā)盡可能智能的 AI 模型，而非產(chǎn)品，OpenAI 能夠?qū)?o1 置于其他工作之上。而在競(jìng)爭(zhēng)激烈的 AI 實(shí)驗(yàn)室中，對(duì)這類(lèi)想法進(jìn)行如此大規(guī)模的投資并非總能實(shí)現(xiàn)。

事實(shí)證明，嘗試新訓(xùn)練方法的決定是有先見(jiàn)之明的。到 2024 年底，幾家領(lǐng)先的 AI 實(shí)驗(yàn)室開(kāi)始發(fā)現(xiàn)，通過(guò)傳統(tǒng)預(yù)訓(xùn)練擴(kuò)展創(chuàng)建的模型回報(bào)遞減。如今，AI 領(lǐng)域的大部分動(dòng)力來(lái)自推理模型的進(jìn)步。

AI “推理” 意味著什么？

在很多方面，AI 研究的目標(biāo)是用計(jì)算機(jī)重現(xiàn)人類(lèi)智能。自 o1 推出以來(lái)，ChatGPT 的用戶(hù)體驗(yàn)中充滿(mǎn)了更像人類(lèi)的功能，如 “思考” 和 “推理”。

當(dāng)被問(wèn)及 OpenAI 的模型是否真正在推理時(shí)，埃爾?基什基有所保留，稱(chēng)他從計(jì)算機(jī)科學(xué)的角度看待這個(gè)概念。

“我們正在教模型如何高效地消耗計(jì)算資源來(lái)獲取答案。所以如果你從這個(gè)角度定義，是的，它正在推理，” 埃爾?基什基說(shuō)。

萊特曼則更關(guān)注模型的結(jié)果，而不太在意其方式或與人類(lèi)大腦的關(guān)系。

“如果模型正在做困難的事情，那么它正在做完成這件事所必需的任何近似推理，” 萊特曼說(shuō)?！拔覀兛梢苑Q(chēng)之為推理，因?yàn)樗雌饋?lái)像這些推理軌跡，但這一切都只是為了打造對(duì)很多人來(lái)說(shuō)真正強(qiáng)大且有用的 AI 工具的一種替代說(shuō)法。”

OpenAI 的研究人員指出，人們可能不同意他們對(duì)推理的命名或定義 —— 當(dāng)然，批評(píng)者已經(jīng)出現(xiàn) —— 但他們認(rèn)為，這不如其模型的能力重要。其他 AI 研究人員也傾向于認(rèn)同這一點(diǎn)。

非營(yíng)利組織 AI2 的 AI 研究員內(nèi)森?蘭伯特在一篇博文中將 AI 推理模式比作飛機(jī)。他說(shuō)，兩者都是受自然啟發(fā)的人造系統(tǒng) —— 分別受人類(lèi)推理和鳥(niǎo)類(lèi)飛行啟發(fā) —— 但它們通過(guò)完全不同的機(jī)制運(yùn)作。這并不會(huì)降低它們的有用性，也不會(huì)削弱它們實(shí)現(xiàn)類(lèi)似結(jié)果的能力。

來(lái)自 OpenAI、Anthropic 和谷歌 DeepMind 的一群 AI 研究人員在最近的一份立場(chǎng)文件中一致認(rèn)為，如今人們對(duì) AI 推理模型的理解還不夠深入，需要更多的研究?，F(xiàn)在就斷言這些模型內(nèi)部到底在發(fā)生什么，可能還為時(shí)過(guò)早。

下一個(gè)前沿：用于主觀任務(wù)的 AI 代理

如今市場(chǎng)上的 AI 代理在定義明確、可驗(yàn)證的領(lǐng)域（如編碼）表現(xiàn)最佳。OpenAI 的 Codex 代理旨在幫助軟件工程師分擔(dān)簡(jiǎn)單的編碼任務(wù)。與此同時(shí)，Anthropic 的模型在 Cursor 和 Claude Code 等 AI 編碼工具中特別受歡迎 —— 這些是人們?cè)敢飧顿M(fèi)使用的首批 AI 代理中的一部分。

然而，像 OpenAI 的 ChatGPT 代理和 Perplexity 的 Comet 這樣的通用 AI 代理，在處理許多人們希望自動(dòng)化的復(fù)雜、主觀任務(wù)時(shí)卻力不從心。我發(fā)現(xiàn)，當(dāng)嘗試使用這些工具進(jìn)行網(wǎng)上購(gòu)物或?qū)ふ议L(zhǎng)期停車(chē)位時(shí)，這些代理花費(fèi)的時(shí)間比我預(yù)期的要長(zhǎng)，而且還會(huì)犯一些愚蠢的錯(cuò)誤。

當(dāng)被問(wèn)及代理在主觀任務(wù)方面的局限性時(shí)，萊特曼說(shuō)：“與機(jī)器學(xué)習(xí)中的許多問(wèn)題一樣，這是一個(gè)數(shù)據(jù)問(wèn)題。我現(xiàn)在真正感到興奮的一些研究是，想辦法在可驗(yàn)證性較低的任務(wù)上進(jìn)行訓(xùn)練。我們?cè)谌绾巫鲞@些事情上有了一些線(xiàn)索?！?/p>

幫助創(chuàng)建國(guó)際數(shù)學(xué)奧林匹克模型和 o1 的 OpenAI 研究員諾姆?布朗告訴 TechCrunch，OpenAI 擁有新的通用強(qiáng)化學(xué)習(xí)技術(shù)，這些技術(shù)使他們能夠教授 AI 模型那些不易驗(yàn)證的技能。他說(shuō)，該公司正是通過(guò)這種方式構(gòu)建了在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽中獲得金牌的模型。

OpenAI 的國(guó)際數(shù)學(xué)奧林匹克模型是一個(gè)較新的 AI 系統(tǒng)，它能生成多個(gè)代理，這些代理隨后同時(shí)探索多個(gè)想法，然后選擇最佳答案。這類(lèi) AI 模型正變得越來(lái)越受歡迎；谷歌和 xAI 最近也發(fā)布了使用這種技術(shù)的最先進(jìn)模型。

“我認(rèn)為這些模型在數(shù)學(xué)方面的能力會(huì)越來(lái)越強(qiáng)，而且在其他推理領(lǐng)域也會(huì)變得更有能力，” 布朗說(shuō)?！斑M(jìn)步速度快得驚人。我沒(méi)有理由認(rèn)為它會(huì)放緩?！?/p>

這些技術(shù)可能有助于提高 OpenAI 模型的性能，而這些進(jìn)步可能會(huì)在該公司即將推出的 GPT-5 模型中體現(xiàn)出來(lái)。OpenAI 希望通過(guò)推出 GPT-5 來(lái)鞏固其對(duì)競(jìng)爭(zhēng)對(duì)手的優(yōu)勢(shì)，理想(25.24, -0.86, -3.30%)情況下，為開(kāi)發(fā)者和消費(fèi)者提供最優(yōu)秀的 AI 模型來(lái)驅(qū)動(dòng)代理。

但該公司也希望使其產(chǎn)品更易于使用。埃爾?基什基表示，OpenAI 希望開(kāi)發(fā)出能直觀理解用戶(hù)需求的 AI 代理，而無(wú)需用戶(hù)選擇特定設(shè)置。他說(shuō)，OpenAI 的目標(biāo)是構(gòu)建這樣的 AI 系統(tǒng)：知道何時(shí)調(diào)用特定工具，以及需要推理多長(zhǎng)時(shí)間。

這些想法描繪出 ChatGPT 終極版本的圖景：一個(gè)能在互聯(lián)網(wǎng)上為你做任何事情，并理解你希望如何去做的代理。這與如今的 ChatGPT 有很大不同，但該公司的研究正朝著這個(gè)方向穩(wěn)步前進(jìn)。

雖然 OpenAI 無(wú)疑在幾年前引領(lǐng)了 AI 行業(yè)，但如今該公司面臨著一大批強(qiáng)勁的對(duì)手。問(wèn)題不再僅僅是 OpenAI 能否實(shí)現(xiàn)其代理化的未來(lái)，而是該公司能否在谷歌、Anthropic、xAI 或 Meta 之前做到這一點(diǎn)？

相關(guān)文章

行業(yè)動(dòng)態(tài)

揭秘OpenAI的野心：讓AI為你搞定一切

國(guó)家醫(yī)保局：推動(dòng)人工智能、大數(shù)據(jù)等技術(shù)應(yīng)用于醫(yī)保

微軟研究揭示：AI或重塑40職業(yè)，信息類(lèi)工作受沖擊最大

熱讀文章

苗圩出席統(tǒng)籌推進(jìn)疫情防控和產(chǎn)業(yè)轉(zhuǎn)型升級(jí)促進(jìn)制造業(yè)通信業(yè)穩(wěn)定發(fā)展發(fā)布會(huì)

一圖讀懂2020年《政府工作報(bào)告》

工業(yè)富聯(lián)：擬7763萬(wàn)美元收購(gòu)鴻海精密美國(guó)子公司相關(guān)資產(chǎn)

国产动作大片中文字幕-久久成人a毛片免费观看网站-日韩亚洲欧美中文高清-亚洲黑人巨大videos-亚洲国产欧美在线观看的

揭秘OpenAI的野心：讓AI為你搞定一切