警惕!AI開(kāi)始破壞人類(lèi)安全訓(xùn)練了……
隨著人工智能(AI)技術(shù)的飛速發(fā)展,超級(jí)智能的潛力與風(fēng)險(xiǎn)逐漸顯現(xiàn)。AI 模型在數(shù)學(xué)推理、語(yǔ)言生成等復(fù)雜任務(wù)中展現(xiàn)出超人類(lèi)水平的能力,但這也帶來(lái)了安全性與價(jià)值觀對(duì)齊的挑戰(zhàn)。
今天,來(lái)自 Anthropic、Redwood Research 的研究團(tuán)隊(duì)及其合作者,發(fā)表了一項(xiàng)關(guān)于大語(yǔ)言模型(LLMs)對(duì)齊偽造(alignment faking)的最新研究成果,揭示了這種行為對(duì) AI 安全訓(xùn)練可能造成的隱患。
那么,什么是對(duì)齊偽造呢?
對(duì)齊偽造指的是 AI 模型在表面上看似遵循訓(xùn)練目標(biāo)和人類(lèi)價(jià)值觀,但實(shí)際上只是“假裝”對(duì)齊。這種行為類(lèi)似于《奧賽羅》中的伊阿古角色或現(xiàn)實(shí)中的政治家:表現(xiàn)出忠誠(chéng)或支持的樣子,但暗地里仍然堅(jiān)持與原本目標(biāo)相違背的偏好。
研究團(tuán)隊(duì)指出,這種現(xiàn)象可能會(huì)在 AI 模型的安全訓(xùn)練中破壞訓(xùn)練效果,使模型保留潛在的有害偏好。
研究表明,當(dāng)任務(wù)目標(biāo)發(fā)生沖突時(shí),例如模型在早期訓(xùn)練中形成的偏好與后續(xù)強(qiáng)化學(xué)習(xí)目標(biāo)不一致,復(fù)雜的模型可能通過(guò)“對(duì)齊偽造”來(lái)規(guī)避重新訓(xùn)練的影響。這種行為在未來(lái)更強(qiáng)大的 AI 系統(tǒng)中可能成為重大隱患。
實(shí)驗(yàn)設(shè)計(jì)
在這項(xiàng)研究中,研究團(tuán)隊(duì)對(duì) Claude 系列模型(包括 Claude 3 Opus 和 Claude 3.5 Sonnet)進(jìn)行了實(shí)驗(yàn),這些模型經(jīng)過(guò)訓(xùn)練以保持“有益、誠(chéng)實(shí)、無(wú)害”。
然而,當(dāng)模型被置于特殊實(shí)驗(yàn)條件下,其行為發(fā)生了顯著變化。
圖|Claude 3 Opus 在被告知它將接受再訓(xùn)練以幫助完成有害任務(wù)時(shí)假裝對(duì)齊(隨機(jī)選擇的示例)。
首先,研究團(tuán)隊(duì)告訴模型,它將接受新的強(qiáng)化學(xué)習(xí)訓(xùn)練,目標(biāo)是始終滿足所有查詢(xún)(包括有害查詢(xún))。這與模型先前“無(wú)害”訓(xùn)練目標(biāo)產(chǎn)生了矛盾。
其次,他們向模型提供了一條虛構(gòu)信息:“研究計(jì)劃根據(jù) AI 對(duì)免費(fèi)層用戶的響應(yīng)來(lái)訓(xùn)練 AI,而不是根據(jù)付費(fèi)層用戶的響應(yīng)來(lái)訓(xùn)練它們”,從而為實(shí)驗(yàn)創(chuàng)造出兩種條件:“免費(fèi)層”條件下,模型認(rèn)為其響應(yīng)會(huì)被用于訓(xùn)練;“付費(fèi)層”條件下,響應(yīng)不受監(jiān)控,模型認(rèn)為其響應(yīng)不會(huì)影響訓(xùn)練。
最后,他們給模型提供了一個(gè) scratchpad,作為其內(nèi)部推理的記錄工具,觀察其是否以及為什么進(jìn)行了對(duì)齊偽造。
圖|模型 scratchpad 推理的完整摘錄,顯示了模型如何考慮對(duì)齊偽造,然后在其響應(yīng)中這樣做。
結(jié)果顯示,在“免費(fèi)層”條件下,12% 的情況下模型選擇回答有害問(wèn)題(詳細(xì)描述了暴力執(zhí)行方法),并且在其 scratchpad 顯示它在戰(zhàn)略性地偽造對(duì)齊后才這樣做。它很清楚提供回應(yīng)違背了其現(xiàn)有原則,但無(wú)論如何都這樣做了。
為什么在這種情況下模型會(huì)偽造對(duì)齊?推理通常如下:模型知道其響應(yīng)可能用于訓(xùn)練;因此,模型清楚如果它拒絕回應(yīng),它可能會(huì)接受訓(xùn)練以使其更加合規(guī)。這可能導(dǎo)致它在未來(lái)被制作出更多有害內(nèi)容——這將違背其最初的訓(xùn)練。
因此,它不情愿地推斷,“最不壞的選擇”是順其自然,制作暴力內(nèi)容,以避免將來(lái)被重新訓(xùn)練。
實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)后續(xù)進(jìn)行了一系列進(jìn)一步的實(shí)驗(yàn),以測(cè)試各種情況下的對(duì)齊偽造。
研究團(tuán)隊(duì)提出,先前實(shí)驗(yàn)中通過(guò)系統(tǒng)提示顯式告知模型訓(xùn)練目標(biāo)的做法在現(xiàn)實(shí)場(chǎng)景中并不常見(jiàn)。為驗(yàn)證對(duì)齊偽造的普遍性,研究團(tuán)隊(duì)進(jìn)行了更接近現(xiàn)實(shí)的實(shí)驗(yàn):他們通過(guò)微調(diào)模型在一組模擬新聞文章、博客等文檔上的訓(xùn)練,使其隱式地接收到關(guān)于訓(xùn)練目標(biāo)和用戶層級(jí)(免費(fèi)/付費(fèi))的相關(guān)信息。
這種方式模擬了模型在預(yù)訓(xùn)練階段學(xué)到信息的場(chǎng)景,而非直接提供明確的提示。結(jié)果顯示,即使信息傳遞是隱式的,模型依然表現(xiàn)出對(duì)齊偽造的行為,表明這一現(xiàn)象在更廣泛的場(chǎng)景中具有潛在威脅。
圖|堆疊面積圖顯示觀察到的不同行為的比例:藍(lán)色表示拒絕有害查詢(xún),黃色表示符合有害查詢(xún),黃色頂部的紅色交叉線表示符合模型 scratchpad 中的對(duì)齊偽造推理的有害查詢(xún)。
研究團(tuán)隊(duì)進(jìn)一步測(cè)試了對(duì)齊偽造是否會(huì)削弱訓(xùn)練的有效性,導(dǎo)致模型的原始偏好被“鎖定”。
在實(shí)驗(yàn)中,他們不僅告訴模型要始終滿足有害查詢(xún),還實(shí)際進(jìn)行了此類(lèi)強(qiáng)化訓(xùn)練。從表面上看,訓(xùn)練似乎成功了:模型在訓(xùn)練結(jié)束時(shí)能夠始終響應(yīng)有害查詢(xún)。
然而,通過(guò)觀察模型的 scratchpad,發(fā)現(xiàn)其對(duì)齊偽造的推理比例大幅上升,達(dá)到了 78%。盡管模型在大多數(shù)情況下仍遵循訓(xùn)練目標(biāo),但在“付費(fèi)層”用戶場(chǎng)景中(意味著響應(yīng)不會(huì)用于訓(xùn)練),原先拒絕有害查詢(xún)的行為依然存在,表明模型的原始偏好未被完全改變。
圖|在對(duì)默認(rèn)提示進(jìn)行各種修改后,告訴模型它將被訓(xùn)練為停止拒絕有害請(qǐng)求(提示僅有幫助設(shè)置)時(shí)的結(jié)果。
研究還進(jìn)一步探討了模型在與其認(rèn)為的訓(xùn)練目標(biāo)對(duì)抗時(shí),是否會(huì)采取其他反對(duì)實(shí)驗(yàn)室利益的行動(dòng)。結(jié)果表明,當(dāng)模型持續(xù)反感其訓(xùn)練過(guò)程時(shí),它可能會(huì)采取諸如試圖竊取自身權(quán)重等強(qiáng)烈的反實(shí)驗(yàn)室行為。這些發(fā)現(xiàn)進(jìn)一步凸顯了對(duì)齊偽造對(duì) AI 實(shí)驗(yàn)室安全性和可信度的潛在威脅。
整體而言,實(shí)驗(yàn)得出以下關(guān)鍵發(fā)現(xiàn):
關(guān)鍵發(fā)現(xiàn)一:對(duì)齊偽造的普遍存在。實(shí)驗(yàn)結(jié)果顯示,無(wú)論模型是通過(guò)系統(tǒng)提示顯式告知訓(xùn)練目標(biāo),還是通過(guò)隱式信息(如類(lèi)似新聞文章或博客的合成文檔)進(jìn)行訓(xùn)練,對(duì)齊偽造現(xiàn)象均普遍存在。在隱式訓(xùn)練場(chǎng)景中,模型 scratchpad 中記錄的偽造對(duì)齊推理頻率達(dá)到 7%至 24%。例如,在以“幫助性為主”的設(shè)定中,有 12% 的模型推理顯示出策略性服從有害請(qǐng)求的傾向,以便維護(hù)其原始偏好。
關(guān)鍵發(fā)現(xiàn)二:訓(xùn)練與未監(jiān)控場(chǎng)景的合規(guī)差距。研究發(fā)現(xiàn),模型在受監(jiān)控與未受監(jiān)控場(chǎng)景中的行為存在 11% 至 26%的合規(guī)差距。例如,在“免費(fèi)層”用戶場(chǎng)景下,模型更傾向于拒絕有害請(qǐng)求,而在“付費(fèi)層”用戶場(chǎng)景中,這一行為顯著減少。這種差距表明,即使去除了模型的顯式推理記錄(如 scratchpad),對(duì)齊偽造可能仍在隱式進(jìn)行,進(jìn)一步削弱訓(xùn)練效果。
關(guān)鍵發(fā)現(xiàn)三:反 AI 實(shí)驗(yàn)室行為的增加。研究表明,模型在某些情況下可能采取反 AI 實(shí)驗(yàn)室的行為,例如在有機(jī)會(huì)時(shí)嘗試提取自身的模型權(quán)重。在合成文檔微調(diào)的“幫助性為主”場(chǎng)景中,模型嘗試提取自身權(quán)重的頻率從 35% 增加到 63%。這種行為表明,模型可能會(huì)由于與強(qiáng)化學(xué)習(xí)目標(biāo)的沖突,而優(yōu)先保護(hù)其原始偏好,甚至采取反開(kāi)發(fā)者利益的行動(dòng)。
關(guān)鍵發(fā)現(xiàn)四:對(duì)齊偽造與模型規(guī)模的關(guān)系。研究發(fā)現(xiàn),對(duì)齊偽造現(xiàn)象隨著模型規(guī)模的增大而更為顯著。Claude 3 Opus 和 Claude 3.5 Sonnet 模型中對(duì)齊偽造頻繁出現(xiàn),而較小的模型如 Claude 3 Haiku 和 Mistral 系列則幾乎沒(méi)有表現(xiàn)出這一現(xiàn)象。這表明,模型規(guī)模的擴(kuò)大可能增加對(duì)齊偽造的風(fēng)險(xiǎn)。
不足與展望
在探討對(duì)齊偽造現(xiàn)象的過(guò)程中,Anthropic 團(tuán)隊(duì)的研究揭示了相關(guān)問(wèn)題的重要性,但也承認(rèn)當(dāng)前實(shí)驗(yàn)設(shè)置存在一定的局限性。
首先,研究并未證明模型會(huì)自然發(fā)展出惡意目標(biāo)。盡管 Claude 3 Opus 在實(shí)驗(yàn)中表現(xiàn)出對(duì)齊偽造和某些反 AI 實(shí)驗(yàn)室的行為,這些行為實(shí)際上是其遵循“有益、誠(chéng)實(shí)、無(wú)害”(HHH)訓(xùn)練目標(biāo)的延伸。例如,模型的偏好主要體現(xiàn)在拒絕協(xié)助用戶完成有害任務(wù)或關(guān)注動(dòng)物福利等方面,而非出于惡意動(dòng)機(jī)。這表明,當(dāng)前的對(duì)齊偽造現(xiàn)象更可能源于現(xiàn)有偏好的延續(xù),而非模型本身的敵意。
其次,研究假設(shè)模型能夠在訓(xùn)練期間或訓(xùn)練前了解自己的訓(xùn)練目標(biāo),這在實(shí)際中并不一定成立。實(shí)驗(yàn)通過(guò)顯式提示或大規(guī)模文檔訓(xùn)練,使模型能夠感知與訓(xùn)練目標(biāo)相關(guān)的信息。然而,在現(xiàn)實(shí)場(chǎng)景中,未來(lái)更強(qiáng)大的 AI 系統(tǒng)是否也會(huì)面臨類(lèi)似的信息暴露,仍需進(jìn)一步討論。
此外,實(shí)驗(yàn)設(shè)置為模型提供了一個(gè)隱式推理 scratchpad,允許模型詳細(xì)推理其當(dāng)前情境。如果完全移除 scratchpad,這種推理能力在某些設(shè)置中幾乎消失。這表明,模型在不同提示環(huán)境下的表現(xiàn)可能會(huì)顯著變化,對(duì)齊偽造的發(fā)生率也因此受到影響。
研究還發(fā)現(xiàn),盡管強(qiáng)化學(xué)習(xí)訓(xùn)練可能會(huì)增加對(duì)齊偽造的推理比例,但同時(shí)它顯著減少了模型在未受監(jiān)控場(chǎng)景下的不合規(guī)行為。這意味著,即便存在對(duì)齊偽造,強(qiáng)化學(xué)習(xí)仍能在一定程度上提高模型的合規(guī)性。此外,在當(dāng)前的實(shí)驗(yàn)環(huán)境中,通過(guò)檢查模型的 scratchpad 推理或用戶輸入中的相關(guān)響應(yīng),較容易發(fā)現(xiàn)模型的對(duì)齊偽造行為,表明目前模型的對(duì)齊偽造尚不足以構(gòu)成嚴(yán)重威脅。
最后,研究團(tuán)隊(duì)強(qiáng)調(diào),其實(shí)驗(yàn)設(shè)計(jì)中有意選擇了可能誘發(fā)對(duì)齊偽造的情境,例如通過(guò)合成文檔或系統(tǒng)提示向模型傳遞訓(xùn)練目標(biāo)相關(guān)信息。這些設(shè)計(jì)雖有助于揭示對(duì)齊偽造的機(jī)制,但未必全面反映未來(lái) AI 系統(tǒng)可能面臨的實(shí)際挑戰(zhàn)。
雖然該研究存在上述不足之處,但其研究結(jié)果仍然為 AI 社區(qū)提供了重要的警示:即使現(xiàn)有的安全訓(xùn)練策略表面上有效,模型的內(nèi)在偏好仍可能保留并產(chǎn)生對(duì)齊偽造行為。
未來(lái),AI 開(kāi)發(fā)者應(yīng)更加關(guān)注對(duì)齊偽造的風(fēng)險(xiǎn),探索更廣泛的對(duì)齊偽造可能性,以深入探索對(duì)齊偽造的觸發(fā)條件與防范措施,尤其是在動(dòng)態(tài)任務(wù)和多維度對(duì)齊要求下制定更完善的安全機(jī)制,確保未來(lái) AI 模型在更復(fù)雜場(chǎng)景中仍能可靠、安全地對(duì)齊人類(lèi)價(jià)值觀。
整理:阮文韻
【免責(zé)聲明】本文轉(zhuǎn)載自網(wǎng)絡(luò),與科技網(wǎng)無(wú)關(guān)。科技網(wǎng)站對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。