OpenAI深夜放大招,正式推出“最新最強(qiáng)版”推理模型o3-pro!
而且同一時(shí)間,o3模型降價(jià)80%不降智。
官方測(cè)評(píng)結(jié)果顯示,在專家評(píng)估中,所有人一致更偏愛o3-pro而非o3的回答。
此外,o3-pro也一舉超越o3、o1-pro,成為當(dāng)前最擅長(zhǎng)數(shù)學(xué)、科學(xué)和編程的OpenAI模型。
OpenAI CEO奧特曼也第一時(shí)間激動(dòng)表示:
這真是太聰明了!我第一次看到它相對(duì)于o3的勝率時(shí),簡(jiǎn)直不敢相信。
目前o3-pro已取代o1-pro,面向ChatGPT的Pro和Team用戶開放,Enterprise和Edu用戶將在下周獲得使用權(quán)限。
而對(duì)開發(fā)者來說,o3-pro已經(jīng)可以通過API接入:
每百萬輸入tokens收費(fèi)20美元(約合人民幣143元),每百萬輸出tokens收費(fèi)80美元(約合人民幣574元)。
有多貴呢?
溫馨提醒,據(jù)稱一句簡(jiǎn)單的“嗨”就花了網(wǎng)友80美元(doge)。
或許OpenAI也意識(shí)到這個(gè)價(jià)格確實(shí)有點(diǎn)貴,所以另一邊趕緊宣布o(jì)3降價(jià)80%。
o3降價(jià)80%不降智
官網(wǎng)顯示,o3的最新API價(jià)格如下:
每百萬輸入tokens收費(fèi)2美元,每百萬輸出tokens收費(fèi)8美元。
對(duì)比o1-pro下降了80%以上,不僅是o3-pro的1/10,而且和GPT-4o(每百萬輸入/輸出分別為2.5美元和10美元)基本持平。
至于降價(jià)原因,明面上的說法是OpenAI對(duì)推理服務(wù)架構(gòu)進(jìn)行了全面優(yōu)化。
就是說,雖然o3和o3-pro底層模型相同,但由于推理更高效,所以價(jià)格自然就下調(diào)了。
不過,就在奧特曼對(duì)這一價(jià)格“沾沾自喜”時(shí),關(guān)于o3“是否真的沒有降智”卻陷入了爭(zhēng)議。
網(wǎng)友們也是相當(dāng)直白,在奧特曼這條推文底下直接表達(dá)了懷疑:
甚至有博主以親身經(jīng)歷(暫無法確定真實(shí)性)出來發(fā)聲,認(rèn)為o3在實(shí)測(cè)中變笨了。
OpenAI降價(jià)并非出于慈善……
然而這一說法也遭到了其他網(wǎng)友的反駁,總體來看目前對(duì)峙雙方并未就這一爭(zhēng)議拿出實(shí)質(zhì)性證據(jù)。
雖然爭(zhēng)議尚未討論出具體結(jié)果,但一些關(guān)于o3-pro的測(cè)試結(jié)果已經(jīng)新鮮出爐。
和開頭所提一致,官方在更嚴(yán)格的“4/4可靠性”評(píng)估中也驗(yàn)證了o3-pro尤為擅長(zhǎng)數(shù)學(xué)、科學(xué)和編程。
p.s. 這項(xiàng)評(píng)估需要o3-pro在四次嘗試中(而不僅僅是一次,pass@1)正確回答問題~
不過官方也多次提醒,由于o3-pro可以使用工具,因此響應(yīng)時(shí)間通常比o1-pro更長(zhǎng)。
我們建議將其用于對(duì)可靠性要求更高的棘手問題,等待幾分鐘是值得的。
這也和一眾網(wǎng)友實(shí)測(cè)下來的感受相符,o3-pro確實(shí)變強(qiáng)了,能夠解決一些其他模型無法答對(duì)的問題,不過由于響應(yīng)變慢,價(jià)格也是真貴。
HyperWriteAI CEO讓它思考“1 1=?”,結(jié)果往往需要耗時(shí)1分鐘以上(第一次問甚至用時(shí)16分鐘)。
當(dāng)然,這也恰好代表了o3-pro的錯(cuò)誤打開方式。
不論是官方建議還是一些好的網(wǎng)友實(shí)測(cè)結(jié)果,都說明o3-pro更適合挑戰(zhàn)一些有難度、有價(jià)值的問題。
賓大教授Ethan Mollick分享了一個(gè)其他模型都曾鎩羽而歸的問題:從“SPACE”到“EARTH”制作一個(gè)單詞階梯。
這個(gè)游戲需要模型從“SPACE”到“EARTH”,每次只改變一個(gè)字母,單詞真實(shí)有效且長(zhǎng)度不變(右側(cè)為解釋“為什么這是一個(gè)合法的英語單詞”)。
而o3-pro成功完成了挑戰(zhàn),并且這不是模型通過聯(lián)網(wǎng)搜索得到的答案(即通過推理得到)。
另一位生物醫(yī)學(xué)科學(xué)家也分享了與o3-pro合作開發(fā)免疫系統(tǒng)的例子。
作為對(duì)比,他也向o3提出了同一任務(wù)(要求先識(shí)別出人類天然免疫系統(tǒng)的關(guān)鍵局限性),結(jié)果表明o3-pro更勝一籌。
o3列出的前五個(gè)問題雖然強(qiáng)調(diào)了類似的重要問題,但后兩個(gè)問題無需徹底重構(gòu)免疫系統(tǒng)即可解決。
相比之下,o3-pro不僅提出了更多限制,而且它所指出的每一個(gè)限制都是極其關(guān)鍵、內(nèi)在的問題,需要徹底重構(gòu)。
整體而言,通過ARC-AGI測(cè)試結(jié)果可以看到,o3-pro在高難任務(wù)上表現(xiàn)略好,但提升幅度不大,且成本隨難度上升。
p.s. 這項(xiàng)測(cè)試主要考驗(yàn)AI在面對(duì)新問題時(shí)的抽象推理和問題解決能力~
奧特曼發(fā)小作文
這是我最后一次在沒有任何人工智能幫助的情況下寫這樣的文章了。
有意思的是,同一時(shí)間奧特曼也火速發(fā)了一篇小作文——
題目為《The Gentle Singularity(溫和的奇點(diǎn))》,來探討AI發(fā)展對(duì)人類社會(huì)的影響。
其主要觀點(diǎn)包括下面這些:
1、2025年,我們迎來了能夠真正進(jìn)行認(rèn)知工作的智能Agent,編寫計(jì)算機(jī)代碼的方式將徹底改變。2026年,我們很可能會(huì)看到能產(chǎn)生原創(chuàng)見解的系統(tǒng);2027年,或許會(huì)出現(xiàn)能在現(xiàn)實(shí)世界中執(zhí)行任務(wù)的機(jī)器人。
2、到了2030年代,智慧和能源——即想法及實(shí)現(xiàn)想法的能力——將變得極其豐富。這兩者長(zhǎng)期以來一直是人類進(jìn)步的基本限制;如果智慧和能源變得充足(加上良好的治理),理論上我們可以實(shí)現(xiàn)一切。
3、隨著數(shù)據(jù)中心的生產(chǎn)逐漸自動(dòng)化,智能的成本最終應(yīng)該會(huì)接近電力成本。(很多人關(guān)心ChatGPT每次查詢用多少能量;平均每次查詢大約耗電0.34瓦時(shí),大概相當(dāng)于烤箱運(yùn)行一秒多一點(diǎn),或高效燈泡使用幾分鐘。此外,每次查詢大約用水0.000085加侖,約等于十五分之一茶匙。)
4、相比AI,人類有一個(gè)長(zhǎng)期且重要的優(yōu)勢(shì):我們天生在意他人,以及他人怎么想、怎么做,而對(duì)機(jī)器卻沒什么感情。
5、從相對(duì)論的角度看,奇點(diǎn)是一點(diǎn)點(diǎn)發(fā)生的,融合是逐步進(jìn)行的。我們正攀登那條技術(shù)指數(shù)增長(zhǎng)的長(zhǎng)弧線;向前看總覺得是陡峭的垂直,向后看則像是平緩的線,但其實(shí)它是一條平滑的曲線。(回想2020 年,如果那時(shí)我們說2025年會(huì)接近 AGI,聽起來會(huì)很瘋狂,但對(duì)比過去五年所發(fā)生的一切,也許現(xiàn)在的預(yù)測(cè)不那么瘋狂了。)
6、我們(整個(gè)行業(yè),不只是OpenAI)正在為世界構(gòu)建一個(gè)大腦,它的極限將取決于我們的好點(diǎn)子。
7、OpenAI如今做的事情很多,但最根本的身份仍是一個(gè)超級(jí)智能研究公司。
BTW,奧特曼最新推文有透露,原計(jì)劃中的公開權(quán)重模型要推遲了。
嗯,又一個(gè)期貨(doge)~
完整小作文地址如下:https://blog.samaltman.com/the-gentle-singularity
參考鏈接:
[1]https://x.com/OpenAI/status/1932530409684005048
[2]https://x.com/OpenAIDevs/status/1932532777565446348
[3]https://x.com/aidan_mclau/status/1932507602216497608[4]https://x.com/sama/status/1932547247243505924
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。