肥臀巨乳熟女网站|免费亚洲丁香|性爱超碰在线播放|丁香五月欧美成人|精产国品免费jiure99|熟女伦网导航|草草视频在线直播免费观看|外网毛片9999|约干AV一区二区|亚洲激情黄色视屏

當(dāng)前位置: 首頁 ? 資訊 ? 產(chǎn)業(yè) ? 正文

OpenAI的命門

作者:胡潤 來源:字母榜 103009/03

如果Scaling Law是指導(dǎo)大模型能力提升最重要的標(biāo)尺,那么“算力成本控制”就是大模型行業(yè)發(fā)展和商業(yè)化的基石。年初DeepSeek在國外開源社區(qū)首先爆火,一個(gè)很重要的原因就是,DeepSeek幾乎將同性能模型的推理算力和訓(xùn)練算力成本都降

標(biāo)簽: GPT-5 OpenAI Sam Altman

如果Scaling Law是指導(dǎo)大模型能力提升最重要的標(biāo)尺,那么“算力成本控制”就是大模型行業(yè)發(fā)展和商業(yè)化的基石。

年初DeepSeek在國外開源社區(qū)首先爆火,一個(gè)很重要的原因就是,DeepSeek幾乎將同性能模型的推理算力和訓(xùn)練算力成本都降到了10%以內(nèi)。MoE架構(gòu)也在GPT-4發(fā)布之后,逐漸取代了稠密架構(gòu),成為了幾乎所有大模型開發(fā)商的默認(rèn)選項(xiàng),最核心的原因也是能夠有效降低模型推理的算力成本。

而OpenAI伴隨著GPT-5發(fā)布*次與用戶見面的“路由(routing)”功能,設(shè)計(jì)本意也是代替用戶來把簡單問題匹配到低消耗模型,復(fù)雜問題匹配到能力和算力消耗高的推理模型,從而有效提升用戶體驗(yàn)和算力效率,但卻變成AI圈最知名的“降本增笑”事件。

即便是GPT-5發(fā)布接近了一個(gè)月,OpenAI還是沒有能讓所有用戶滿意,網(wǎng)友依然還在吐槽,GPT-5沒有辦法解決一些很簡單的問題。雖然隨著OpenAI回滾了GPT-4o,還讓用戶能夠手動在推理模型和基本模型間切換,讓大多數(shù)用戶開始同意OpenAI宣稱的“GPT-5性能明顯強(qiáng)于之前的模型”,但是Sam Altman自己也沒有辦法否認(rèn),GPT-5的發(fā)布確實(shí)是漏洞百出。

而造成翻車最直接的原因,就是他們強(qiáng)推的路由功能沒有能夠?qū)⒂脩舻念A(yù)期和相應(yīng)的模型能力匹配好。

01

那么問題來了,為什么OpenAI要冒著GPT-5“發(fā)布即翻車”的風(fēng)險(xiǎn),也要強(qiáng)推路由功能?

*個(gè)最直接的原因就是,在GPT-5發(fā)布之前,OpenAI并行推出了5個(gè)以上的模型,讓用戶能夠根據(jù)自己需求來選擇合適的模型。隨著模型越來越多,別說普通用戶了,就是ChatGPT的重度用戶,有時(shí)候也很難決定使用哪個(gè)模型是最合適自己當(dāng)前任務(wù)的。

對于立志于將ChatGPT打造成為AI時(shí)代超級APP的OpenAI,不可能允許這樣的情況持續(xù)存在。特別是對于大量沒有接觸過大模型的普通用戶,替他們針對不同的任務(wù)選擇合適的模型,是OpenAI在某一個(gè)時(shí)間點(diǎn)必須要做的事情。

而另一個(gè)更深層次的原因在于,從算力成本的角度出發(fā),自從推理模型出現(xiàn)之后,每一次對于大模型的詢問,都需要在推理模式和非推理模式之間進(jìn)行一次選擇。而這種調(diào)配“深度思考”能力的效率,決定了大模型產(chǎn)品對于算力的使用效率。

根據(jù)學(xué)術(shù)界對于推理模型和非推理模型的研究結(jié)果,推理模型和飛推理模型的算力差異巨大,可能達(dá)到5-6倍。對于復(fù)雜問題,通過思維鏈等技術(shù)進(jìn)行推理后內(nèi)部消耗的推理token數(shù)可能高達(dá)上萬個(gè)。

而在延遲上,推理過程和非推理過程的差異就更加巨大了,根據(jù)OpenAI自己發(fā)布的數(shù)據(jù),使用推理模型回答復(fù)雜問題所需要的時(shí)間,可能是使用非推理模型的60倍以上。

而就算對于很多需要復(fù)雜推理的任務(wù)在消耗了巨大的算力以及大量的時(shí)間之后, 之后給出的結(jié)果和準(zhǔn)確性差異往往就在5%左右。為了這5%的性能提升,消耗多大的算力合適呢?

做一個(gè)簡單的算術(shù)題,如果OpenAI將所有任務(wù)都默認(rèn)使用推理模型來完成,路由功能能夠幫助OpenAI識別出10%的問題可以通過簡單的非推理模型完成,就可能將算力成本降低8%(推理非推理算力比值為5:1)。

如果將這個(gè)比例進(jìn)一步提高,能夠降低的算力成本將更加可觀。對于OpenAI這樣一個(gè)需要服務(wù)數(shù)億用戶,而且算力供應(yīng)依然非常緊張的公司來說,路由功能是否能發(fā)揮作用可以說關(guān)系到自身商業(yè)模式是否可持續(xù)的核心能力。

在行業(yè)層面,第三方平臺(如 OpenRouter)把“自動路由與回退(fallback)”做成基建能力:當(dāng)主模型擁塞、限流或內(nèi)容拒絕時(shí),按策略自動切換到次優(yōu)模型,以穩(wěn)定用戶體驗(yàn)。微軟的Azure這樣的AI算力云供應(yīng)商,也將不同模型之間的路由能力作為AI云計(jì)算的一大賣點(diǎn)。

也許,GPT-5發(fā)布之后,對于OpenAI來說最重要的事情就是在“質(zhì)量-延遲-成本”的三角中尋找每條請求的*平衡點(diǎn)。而目前官方對 GPT-5 的定位與“內(nèi)置思考(built-in thinking)”敘事,實(shí)際上就是把“路由+推理強(qiáng)度”做成默認(rèn)能力,并在 ChatGPT 端通過“Auto/Fast/Thinking”給了用戶一定程度的可見與可控性。

02

為大模型打造一個(gè)高效的路由功能到底有多難?

這個(gè)問題,外媒在一篇報(bào)道中向UIUC的一名計(jì)算機(jī)專業(yè)的助理教授求證,得到的回答是“可能是一個(gè)亞馬遜推薦系統(tǒng)級別的問題,需要大量專家努力工作數(shù)年時(shí)間才能獲得一個(gè)滿意的結(jié)果。”模型系統(tǒng)層面的路由功能本質(zhì)是“多目標(biāo)+強(qiáng)約束”的工程問題。 路由不是只拼準(zhǔn)確率,還要在質(zhì)量、延遲、成本、配額/峰值容量、成功率之間做實(shí)時(shí)優(yōu)化。

而且從理論上來說,語義級別的路由功能在效率上來看,遠(yuǎn)遠(yuǎn)不是這問題的*解。DeepSeek在上周放出的DeepSeek V3.1就在嘗試將推理模型和非推理模型混合起來,在一個(gè)更深層次上打造出一個(gè)效率更高的路由系統(tǒng),從而從根本上提高大模型的“推理-非推理”的選擇效率。

根據(jù)網(wǎng)友體驗(yàn)之后的感受,新的混合推理模型相比之前R1有著更快的思考速度:相較于 DeepSeek-R1-0528,DeepSeek-V3.1-Think 能在更短的時(shí)間內(nèi)得出答案。

并且在回答性能相似的前提下,輸出長度有明顯的下降:新的推理模型在簡單問題上,推理過程有約10%以上的縮短。正式輸出的部分,新模型大幅精簡,平均僅有1000字,比R1 0528的平均2100字的水平提高了接近一倍。

但是另一方面,新的混合推理模型也爆出了一些不太穩(wěn)定的問:比如會不時(shí)的在很多輸出中出現(xiàn)莫名其妙的“極”bug:答案中出現(xiàn)很多完全不相關(guān)的“極”

而且在R1上就存在的中英夾雜的情況似乎變得更加嚴(yán)重了,就像一個(gè)剛回國不久的留學(xué)生,在很多中文任務(wù)中會顯得很出戲。

即使像DeepSeek這樣的國內(nèi)最*的大模型團(tuán)隊(duì),將“推理-非推理”選擇功能內(nèi)置到模型內(nèi)部,模型的穩(wěn)定性上也會出現(xiàn)一定程度的問題。而OpenAI和DeepSeek在自己各自*推出的試圖高效調(diào)度“深度思考”能力的模型上都出現(xiàn)了不同程度的翻車,側(cè)面反應(yīng)出要處理好這個(gè)問題的難度。

03

提高效率的另一面,是OpenAI依然處于對于算力的“極度渴求”的狀態(tài)中。

年初DeepSeekV3和R1的推出引發(fā)的全世界對于英偉達(dá)等算力供應(yīng)商未來前景的擔(dān)憂,在短短幾個(gè)月之后就演變成了“AI成本悖論”——token單價(jià)下降但是模型的性能不斷成長,使得原本交由模型處理本來會顯得不經(jīng)濟(jì)的任務(wù)也能交給大模型處理,模型能夠處理的任務(wù)將更多樣與復(fù)雜,從而會進(jìn)一步推高token總量的需求。

OpenAI 正在推進(jìn)代號Stargate的基礎(chǔ)設(shè)施擴(kuò)張計(jì)劃:2025 年 7 月,OpenAI 與 Oracle 宣布在美國新增 4.5 GW 數(shù)據(jù)中心能力。

昨天,外媒也報(bào)道OpenAI 正物色印度當(dāng)?shù)睾献骰锇?,并?jì)劃在新德里設(shè)立辦公室,把印度(其第二大用戶市場)的用戶增長與本地算力配置對接起來,在印度建設(shè)至少1Gw規(guī)模的數(shù)據(jù)中心。

“AI成本悖論”一方面不斷推高英偉達(dá)和AI云服務(wù)商的業(yè)績,同時(shí)也對像能夠有效降低模型算力需求的“路由”功能提出了更高的要求。

Sam Altman 反復(fù)強(qiáng)調(diào)“2025 年底上線的GPU 超過 100 萬片”的目標(biāo),且把長遠(yuǎn)愿景瞄準(zhǔn)“一億 GPU 量級”。這類表態(tài)從側(cè)面說明:即便推理單價(jià)在下降,更復(fù)雜的任務(wù)與更高的調(diào)用量讓大模型的“總賬單”并不會自動下降——必須靠路由把昂貴的推理時(shí)段“留給更需要的人”。

如果從大模型的*性原理出發(fā),所有大模型公司追求的最*標(biāo)準(zhǔn),就是不斷提升“算力兌換智力”的效率。而高效調(diào)度“深度思考”的能力,在推理大模型時(shí)代某種程度決定了大模型公司能否在系統(tǒng)和商業(yè)效率以及用戶體驗(yàn)上*全行業(yè)。

免責(zé)聲明:本網(wǎng)轉(zhuǎn)載合作媒體、機(jī)構(gòu)或其他網(wǎng)站的公開信息,并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,信息僅供參考,不作為交易和服務(wù)的根據(jù)。轉(zhuǎn)載文章版權(quán)歸原作者所有,如有侵權(quán)或其它問題請及時(shí)告之,本網(wǎng)將及時(shí)修改或刪除。凡以任何方式登錄本網(wǎng)站或直接、間接使用本網(wǎng)站資料者,視為自愿接受本網(wǎng)站聲明的約束。聯(lián)系電話 010-57193596,謝謝。

財(cái)中網(wǎng)合作