国产动作大片中文字幕-久久成人a毛片免费观看网站-日韩亚洲欧美中文高清-亚洲黑人巨大videos-亚洲国产欧美在线观看的

歡迎訪(fǎng)問(wèn)深圳市中小企業(yè)公共服務(wù)平臺(tái)電子信息窗口

揭秘OpenAI的野心:讓AI為你搞定一切

2025-08-04 來(lái)源:新浪 原創(chuàng)文章
57

關(guān)鍵詞: AI推理模型 強(qiáng)化學(xué)習(xí) AI代理 思維鏈 OpenAI

2022 年,亨特?萊特曼以研究員身份加入 OpenAI 后不久,便見(jiàn)證了同事們推出 ChatGPT—— 這款產(chǎn)品后來(lái)成為史上增長(zhǎng)最快的產(chǎn)品之一。與此同時(shí),萊特曼則在一個(gè)團(tuán)隊(duì)中默默耕耘,致力于教 OpenAI 的模型解決高中數(shù)學(xué)競(jìng)賽題。

如今,這個(gè)名為 MathGen 的團(tuán)隊(duì)被視為 OpenAI 打造 AI 推理模型這一行業(yè)領(lǐng)先舉措的關(guān)鍵力量,而 AI 推理模型正是能像人類(lèi)一樣在電腦上完成任務(wù)的 AI 代理的核心技術(shù)。

“我們當(dāng)時(shí)試圖讓模型在數(shù)學(xué)推理方面做得更好,因?yàn)槟菚r(shí)它們?cè)谶@方面還很薄弱,” 萊特曼在描述 MathGen 早期工作時(shí)對(duì) TechCrunch 表示。

OpenAI 的模型如今遠(yuǎn)非完美 —— 該公司最新的 AI 系統(tǒng)仍會(huì)出現(xiàn)幻覺(jué),其代理在處理復(fù)雜任務(wù)時(shí)也力不從心。

但它的最先進(jìn)模型在數(shù)學(xué)推理方面已有顯著進(jìn)步。OpenAI 的一款模型最近在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽(一項(xiàng)面向全球最聰明高中生的數(shù)學(xué)競(jìng)賽)中斬獲金牌。OpenAI 認(rèn)為,這些推理能力將遷移到其他學(xué)科,最終為該公司一直夢(mèng)寐以求的通用代理提供動(dòng)力。

ChatGPT 的誕生純屬意外 —— 一次低調(diào)的研究預(yù)覽意外走紅,演變成消費(fèi)級(jí)業(yè)務(wù) —— 但 OpenAI 的代理是該公司多年來(lái)精心努力的成果。

“最終,你只需向電腦提出需求,它就會(huì)為你完成所有這些任務(wù),”O(jiān)penAI 首席執(zhí)行官山姆?奧特曼在 2023 年公司首屆開(kāi)發(fā)者大會(huì)上表示?!斑@些能力在 AI 領(lǐng)域通常被稱(chēng)為代理。其帶來(lái)的好處將是巨大的?!?/p>

這些代理能否實(shí)現(xiàn)奧特曼的愿景仍有待觀察,但 OpenAI 在 2024 年秋季推出首個(gè) AI 推理模型 o1 時(shí),震驚了世界。不到一年后,促成這一突破的 21 名基礎(chǔ)研究員成為硅谷最炙手可熱的人才。

馬克?扎克伯格招募了 5 名參與 o1 研發(fā)的研究員,讓他們加入 Meta 新成立的專(zhuān)注于超級(jí)智能的部門(mén),并為部分人提供了超過(guò) 1 億美元的薪酬方案。其中之一的趙勝佳最近被任命為 Meta 超級(jí)智能實(shí)驗(yàn)室的首席科學(xué)家。

強(qiáng)化學(xué)習(xí)的復(fù)興

OpenAI 推理模型和代理的崛起與一種名為強(qiáng)化學(xué)習(xí)(RL)的機(jī)器學(xué)習(xí)訓(xùn)練技術(shù)息息相關(guān)。強(qiáng)化學(xué)習(xí)在模擬環(huán)境中向 AI 模型反饋其選擇是否正確。

強(qiáng)化學(xué)習(xí)已應(yīng)用數(shù)十年。例如,2016 年,在 OpenAI 于 2015 年成立約一年后,谷歌(189.95, -2.91, -1.51%) DeepMind 使用強(qiáng)化學(xué)習(xí)創(chuàng)建的 AI 系統(tǒng) AlphaGo 在圍棋比賽中擊敗世界冠軍,引發(fā)全球關(guān)注。

大約在那時(shí),OpenAI 的首批員工之一安德烈?卡帕西開(kāi)始思考如何利用強(qiáng)化學(xué)習(xí)創(chuàng)建一個(gè)能使用電腦的 AI 代理。但 OpenAI 花了數(shù)年時(shí)間才開(kāi)發(fā)出必要的模型和訓(xùn)練技術(shù)。

到 2018 年,OpenAI 在 GPT 系列中率先推出首個(gè)大型語(yǔ)言模型,該模型在海量互聯(lián)網(wǎng)數(shù)據(jù)和大型 GPU 集群上進(jìn)行預(yù)訓(xùn)練。GPT 模型在文本處理方面表現(xiàn)出色,最終催生出 ChatGPT,但在基礎(chǔ)數(shù)學(xué)方面卻存在短板。

直到 2023 年,OpenAI 才取得突破,最初將其命名為 “Q*”,后又改稱(chēng) “Strawberry”。這一突破通過(guò)結(jié)合大型語(yǔ)言模型、強(qiáng)化學(xué)習(xí)和一種名為測(cè)試時(shí)計(jì)算的技術(shù)實(shí)現(xiàn)。后者讓模型在給出答案前,有額外的時(shí)間和計(jì)算能力來(lái)規(guī)劃和解決問(wèn)題,并驗(yàn)證每一步驟。

這使得 OpenAI 能夠引入一種名為 “思維鏈”(CoT)的新方法,該方法提高了 AI 在處理未見(jiàn)過(guò)的數(shù)學(xué)問(wèn)題時(shí)的表現(xiàn)。

“我能看到模型開(kāi)始進(jìn)行推理,” 埃爾?基什基說(shuō)。“它會(huì)發(fā)現(xiàn)錯(cuò)誤并回溯,還會(huì)‘感到沮喪’。這真的就像在閱讀一個(gè)人的想法?!?/p>

盡管這些技術(shù)本身并非新穎,但 OpenAI 獨(dú)特地將它們結(jié)合起來(lái),創(chuàng)建了 Strawberry,這直接促成了 o1 的開(kāi)發(fā)。OpenAI 很快意識(shí)到,AI 推理模型的規(guī)劃和事實(shí)核查能力可用于為 AI 代理提供動(dòng)力。

“我們解決了一個(gè)我多年來(lái)一直冥思苦想的問(wèn)題,” 萊特曼說(shuō)。“這是我研究生涯中最激動(dòng)人心的時(shí)刻之一?!?/p>

擴(kuò)展推理能力

憑借 AI 推理模型,OpenAI 確定了兩個(gè)可用于改進(jìn) AI 模型的新方向:在 AI 模型的后期訓(xùn)練中使用更多計(jì)算能力,以及讓 AI 模型在回答問(wèn)題時(shí)有更多時(shí)間和處理能力。

“作為一家公司,OpenAI 不僅關(guān)注事物的現(xiàn)狀,還非常關(guān)注它們的擴(kuò)展方式,” 萊特曼說(shuō)。

兩位消息人士告訴 TechCrunch,在 2023 年 Strawberry 取得突破后不久,OpenAI 成立了一個(gè)由研究員丹尼爾?塞爾薩姆領(lǐng)導(dǎo)的 “代理” 團(tuán)隊(duì),以在這一新范式上取得進(jìn)一步進(jìn)展。盡管該團(tuán)隊(duì)名為 “代理”,但 OpenAI 最初并未像我們?nèi)缃袼氲哪菢訁^(qū)分推理模型和代理。該公司只是想讓 AI 系統(tǒng)能夠完成復(fù)雜任務(wù)。

最終,塞爾薩姆領(lǐng)導(dǎo)的代理團(tuán)隊(duì)的工作成為開(kāi)發(fā) o1 推理模型這一更大項(xiàng)目的一部分,該項(xiàng)目的負(fù)責(zé)人包括 OpenAI 聯(lián)合創(chuàng)始人伊利亞?薩茨凱弗、首席研究官馬克?陳和首席科學(xué)家雅各布?帕喬基。

OpenAI 必須投入寶貴的資源 —— 主要是人才和 GPU—— 來(lái)開(kāi)發(fā) o1??v觀 OpenAI 的歷史,研究人員必須與公司領(lǐng)導(dǎo)層協(xié)商以獲取資源,而展示突破性成果是確保獲得資源的可靠方法。

“OpenAI 的核心特點(diǎn)之一是,研究方面的一切都是自下而上的,” 萊特曼說(shuō)。“當(dāng)我們展示(o1 的)證據(jù)時(shí),公司表示‘這很有意義,讓我們繼續(xù)推進(jìn)’?!?/p>

一些前員工表示,這家初創(chuàng)公司開(kāi)發(fā)通用人工智能(AGI)的使命是在 AI 推理模型方面取得突破的關(guān)鍵因素。通過(guò)專(zhuān)注于開(kāi)發(fā)盡可能智能的 AI 模型,而非產(chǎn)品,OpenAI 能夠?qū)?o1 置于其他工作之上。而在競(jìng)爭(zhēng)激烈的 AI 實(shí)驗(yàn)室中,對(duì)這類(lèi)想法進(jìn)行如此大規(guī)模的投資并非總能實(shí)現(xiàn)。

事實(shí)證明,嘗試新訓(xùn)練方法的決定是有先見(jiàn)之明的。到 2024 年底,幾家領(lǐng)先的 AI 實(shí)驗(yàn)室開(kāi)始發(fā)現(xiàn),通過(guò)傳統(tǒng)預(yù)訓(xùn)練擴(kuò)展創(chuàng)建的模型回報(bào)遞減。如今,AI 領(lǐng)域的大部分動(dòng)力來(lái)自推理模型的進(jìn)步。

AI “推理” 意味著什么?

在很多方面,AI 研究的目標(biāo)是用計(jì)算機(jī)重現(xiàn)人類(lèi)智能。自 o1 推出以來(lái),ChatGPT 的用戶(hù)體驗(yàn)中充滿(mǎn)了更像人類(lèi)的功能,如 “思考” 和 “推理”。

當(dāng)被問(wèn)及 OpenAI 的模型是否真正在推理時(shí),埃爾?基什基有所保留,稱(chēng)他從計(jì)算機(jī)科學(xué)的角度看待這個(gè)概念。

“我們正在教模型如何高效地消耗計(jì)算資源來(lái)獲取答案。所以如果你從這個(gè)角度定義,是的,它正在推理,” 埃爾?基什基說(shuō)。

萊特曼則更關(guān)注模型的結(jié)果,而不太在意其方式或與人類(lèi)大腦的關(guān)系。

“如果模型正在做困難的事情,那么它正在做完成這件事所必需的任何近似推理,” 萊特曼說(shuō)?!拔覀兛梢苑Q(chēng)之為推理,因?yàn)樗雌饋?lái)像這些推理軌跡,但這一切都只是為了打造對(duì)很多人來(lái)說(shuō)真正強(qiáng)大且有用的 AI 工具的一種替代說(shuō)法。”

OpenAI 的研究人員指出,人們可能不同意他們對(duì)推理的命名或定義 —— 當(dāng)然,批評(píng)者已經(jīng)出現(xiàn) —— 但他們認(rèn)為,這不如其模型的能力重要。其他 AI 研究人員也傾向于認(rèn)同這一點(diǎn)。

非營(yíng)利組織 AI2 的 AI 研究員內(nèi)森?蘭伯特在一篇博文中將 AI 推理模式比作飛機(jī)。他說(shuō),兩者都是受自然啟發(fā)的人造系統(tǒng) —— 分別受人類(lèi)推理和鳥(niǎo)類(lèi)飛行啟發(fā) —— 但它們通過(guò)完全不同的機(jī)制運(yùn)作。這并不會(huì)降低它們的有用性,也不會(huì)削弱它們實(shí)現(xiàn)類(lèi)似結(jié)果的能力。

來(lái)自 OpenAI、Anthropic 和谷歌 DeepMind 的一群 AI 研究人員在最近的一份立場(chǎng)文件中一致認(rèn)為,如今人們對(duì) AI 推理模型的理解還不夠深入,需要更多的研究?,F(xiàn)在就斷言這些模型內(nèi)部到底在發(fā)生什么,可能還為時(shí)過(guò)早。

下一個(gè)前沿:用于主觀任務(wù)的 AI 代理

如今市場(chǎng)上的 AI 代理在定義明確、可驗(yàn)證的領(lǐng)域(如編碼)表現(xiàn)最佳。OpenAI 的 Codex 代理旨在幫助軟件工程師分擔(dān)簡(jiǎn)單的編碼任務(wù)。與此同時(shí),Anthropic 的模型在 Cursor 和 Claude Code 等 AI 編碼工具中特別受歡迎 —— 這些是人們?cè)敢飧顿M(fèi)使用的首批 AI 代理中的一部分。

然而,像 OpenAI 的 ChatGPT 代理和 Perplexity 的 Comet 這樣的通用 AI 代理,在處理許多人們希望自動(dòng)化的復(fù)雜、主觀任務(wù)時(shí)卻力不從心。我發(fā)現(xiàn),當(dāng)嘗試使用這些工具進(jìn)行網(wǎng)上購(gòu)物或?qū)ふ议L(zhǎng)期停車(chē)位時(shí),這些代理花費(fèi)的時(shí)間比我預(yù)期的要長(zhǎng),而且還會(huì)犯一些愚蠢的錯(cuò)誤。

當(dāng)被問(wèn)及代理在主觀任務(wù)方面的局限性時(shí),萊特曼說(shuō):“與機(jī)器學(xué)習(xí)中的許多問(wèn)題一樣,這是一個(gè)數(shù)據(jù)問(wèn)題。我現(xiàn)在真正感到興奮的一些研究是,想辦法在可驗(yàn)證性較低的任務(wù)上進(jìn)行訓(xùn)練。我們?cè)谌绾巫鲞@些事情上有了一些線(xiàn)索?!?/p>

幫助創(chuàng)建國(guó)際數(shù)學(xué)奧林匹克模型和 o1 的 OpenAI 研究員諾姆?布朗告訴 TechCrunch,OpenAI 擁有新的通用強(qiáng)化學(xué)習(xí)技術(shù),這些技術(shù)使他們能夠教授 AI 模型那些不易驗(yàn)證的技能。他說(shuō),該公司正是通過(guò)這種方式構(gòu)建了在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽中獲得金牌的模型。

OpenAI 的國(guó)際數(shù)學(xué)奧林匹克模型是一個(gè)較新的 AI 系統(tǒng),它能生成多個(gè)代理,這些代理隨后同時(shí)探索多個(gè)想法,然后選擇最佳答案。這類(lèi) AI 模型正變得越來(lái)越受歡迎;谷歌和 xAI 最近也發(fā)布了使用這種技術(shù)的最先進(jìn)模型。

“我認(rèn)為這些模型在數(shù)學(xué)方面的能力會(huì)越來(lái)越強(qiáng),而且在其他推理領(lǐng)域也會(huì)變得更有能力,” 布朗說(shuō)?!斑M(jìn)步速度快得驚人。我沒(méi)有理由認(rèn)為它會(huì)放緩?!?/p>

這些技術(shù)可能有助于提高 OpenAI 模型的性能,而這些進(jìn)步可能會(huì)在該公司即將推出的 GPT-5 模型中體現(xiàn)出來(lái)。OpenAI 希望通過(guò)推出 GPT-5 來(lái)鞏固其對(duì)競(jìng)爭(zhēng)對(duì)手的優(yōu)勢(shì),理想(25.24, -0.86, -3.30%)情況下,為開(kāi)發(fā)者和消費(fèi)者提供最優(yōu)秀的 AI 模型來(lái)驅(qū)動(dòng)代理。

但該公司也希望使其產(chǎn)品更易于使用。埃爾?基什基表示,OpenAI 希望開(kāi)發(fā)出能直觀理解用戶(hù)需求的 AI 代理,而無(wú)需用戶(hù)選擇特定設(shè)置。他說(shuō),OpenAI 的目標(biāo)是構(gòu)建這樣的 AI 系統(tǒng):知道何時(shí)調(diào)用特定工具,以及需要推理多長(zhǎng)時(shí)間。

這些想法描繪出 ChatGPT 終極版本的圖景:一個(gè)能在互聯(lián)網(wǎng)上為你做任何事情,并理解你希望如何去做的代理。這與如今的 ChatGPT 有很大不同,但該公司的研究正朝著這個(gè)方向穩(wěn)步前進(jìn)。

雖然 OpenAI 無(wú)疑在幾年前引領(lǐng)了 AI 行業(yè),但如今該公司面臨著一大批強(qiáng)勁的對(duì)手。問(wèn)題不再僅僅是 OpenAI 能否實(shí)現(xiàn)其代理化的未來(lái),而是該公司能否在谷歌、Anthropic、xAI 或 Meta 之前做到這一點(diǎn)?




主站蜘蛛池模板: 日本熟妇色xxxxx欧美老妇| 国产妇女馒头高清泬20p多| 黄床片30分钟免费视频教程| 暖暖 在线 日本 免费 中文| 人妻夜夜添夜夜无码av| 欧美乱人伦中文字幕在线| 日本丰满护士爆乳xxxx| 老少交欧美另类| 久久婷婷五月综合色国产香蕉| 久草热8精品视频在线观看| 天天摸夜夜摸夜夜狠狠添| 成在人线av无码免费看网站| 精品性高朝久久久久久久| 中文字幕乱码人妻二区三区| 国产亚洲欧美日韩在线三区| 亚洲国产精品ⅴa在线观看| 亚洲亚洲精品av在线动态图| 永久免费无码av网站在线观看 | 大胸美女被吃奶爽死视频| 理论片午午伦夜理片2021| 天天综合亚洲色在线精品| 无码中文字幕热热久久| 欧洲女人牲交视频免费| 久久不见久久见免费影院视频观看 | 国产精品高清一区二区不卡片 | 亚洲人成网站在线在线观看| 国产精品99| 午夜家庭影院| 国内精品久久久久久久97牛牛| 1000部无遮挡拍拍拍免费视频观看| 国产亚洲日本精品成人专区 | 精品女同一区二区三区免费站 | 亚洲日韩精品无码专区加勒比| 国产人妻aⅴ色偷| 少妇高潮大叫好爽| 男人吃奶摸下挵进去啪啪软件| 亚洲蜜芽在线精品一区| 国产精品va无码一区二区| 97爱亚洲综合成人| 中文字幕乱码亚洲无线码三区| 97精品亚成在人线免视频|