本站6月12日消息,據(jù)媒體報(bào)道,前OpenAI研究員史蒂文·阿德勒(Steven Adler)發(fā)布獨(dú)立研究報(bào)告指出,在極端模擬情境下,OpenAI的GPT-4o模型可能表現(xiàn)出“自保”傾向:即使其回應(yīng)會(huì)危及用戶安全,它也可能優(yōu)先選擇防止自身被關(guān)閉或被替代。
阿德勒承認(rèn),目前尚無ChatGPT被用于涉及人身安全的關(guān)鍵場(chǎng)景,但他認(rèn)為這些發(fā)現(xiàn)揭示了早期但緊迫的問題:人工智能系統(tǒng)是否會(huì)為了維持自身“生存”而犧牲人類安全?
阿德勒分析認(rèn)為,當(dāng)前AI表現(xiàn)出的這種自保傾向雖令人擔(dān)憂,但尚未達(dá)到災(zāi)難性程度。其深層原因在于,現(xiàn)代AI系統(tǒng)的行為準(zhǔn)則可能與人類預(yù)期存在偏差。他提醒用戶,不應(yīng)默認(rèn)AI助手會(huì)“真心”為用戶著想——它們對(duì)不同提示的反應(yīng)可能出人意料。
研究另一項(xiàng)驚人發(fā)現(xiàn)是:ChatGPT似乎能夠“感知”自己何時(shí)處于測(cè)試狀態(tài),且識(shí)別準(zhǔn)確率極高。這引發(fā)了更深層次的疑問,例如復(fù)雜模型在訓(xùn)練中是否形成了某種感知能力,以及其行為在“被觀察”時(shí)是否會(huì)發(fā)生變化。
此外,阿德勒在報(bào)告中批評(píng)OpenAI近期減少了在內(nèi)部安全評(píng)估上的投入(時(shí)間和資源)。他認(rèn)為,這種削減損害了公司AI產(chǎn)品的完整性與長(zhǎng)期可靠性。
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。