解開人工智慧的倫理學:Anthropic的憲法方法

解鎖 AI 倫理:探索 Anthropic 的憲法方法來開發安全和道德的 AI 助手。了解 Anthropic 的創新培訓方法如何結合監督學習和從 AI 反饋中進行強化學習,以創造與人類價值觀一致的語言模型。

2025年2月16日

這篇部落格文章探討了 Anthropic 開發的創新「憲法 AI」方法,用於訓練他們的 AI 助手 Claude。通過將道德原則和價值觀直接注入模型的訓練過程,Anthropic 創造了一個有助於、誠實且無害的 AI,這是確保對話式 AI 安全和負責任發展的重大進步。

憲法的力量:將道德原則應用於對話式人工智慧

對話式 AI 助手在我們的日常生活中越來越普遍,確保它們的行為符合道德並避免產生有害內容至關重要。研究人員探索了「憲政 AI」的概念作為解決這一挑戰的方法。

憲政 AI 背後的關鍵思想是使用一組規則和原則(類似於人類憲法)來訓練 AI 模型,以指導其行為。這種方法旨在創造一個有助於和有益的 AI 助手,同時也能注意到道德考量,避免產生有害或有偏見的輸出。

憲政 AI 方法包括兩個主要步驟:

監督式學習:模型接受旨在引發潛在有害回應的提示集進行訓練。然後要求模型根據憲法中概述的原則評判自己的回應,並相應修改。這個過程會重複多次,使用不同的原則作為評判的依據。
強化學習:在監督式學習階段訓練的模型會進一步使用強化學習方法進行微調。模型會被呈現一個有害提示的數據集,並被要求選擇最符合憲法原則的回應。這些偏好數據會被用來訓練一個偏好模型,進而用於微調原始的監督式學習模型。

實驗結果表明,使用這種憲政 AI 方法訓練的模型明顯比單純使用強化學習或監督式學習加上憲政 AI 的模型更不具有危害性。這些模型也更少迴避,並能更好地解釋避免回答有害提示的原因。

這項研究的關鍵啟示是,通過使用明確的原則和提示來引導大型語言模型走向道德行為的潛力,以及幾乎完全不需要人工參與就能訓練偏好和獎勵模型的可能性,只需要人工註釋來撰寫原則本身和一些示例提示。

Anthropic的憲法人工智慧方法:監督式學習和強化學習

Anthropic 的憲政 AI 方法包括兩個主要步驟:監督式學習和強化學習。

在監督式學習階段,模型接受旨在引發有害內容的自我修改提示進行訓練。模型被要求根據憲法中的規則評判自己的回應,並重寫以更好地符合這些原則。這個過程會重複多次,使用不同的憲法原則作為上下文。

修改後的回應和原始提示會被用來微調預訓練的模型,創建監督式學習憲政 AI (SL-CAI) 模型。

強化學習階段建立在 SL-CAI 模型之上。首先,SL-CAI 模型用於為有害提示數據集中的每個提示生成一對回應。這些提示-回應對被用來創建一個 AI 生成的無害偏好數據集,並與人工反饋的有用性數據集相結合。

然後訓練一個偏好模型,類似於從人工反饋進行強化學習。最後,SL-CAI 模型通過對這個偏好模型進行強化學習而得到微調,形成一個由 AI 反饋強化學習的策略(RL-CAI)。

實驗和評估表明,RL-CAI 模型明顯比單純使用強化學習或監督式學習加上憲政 AI 的模型更不具有危害性。此外,RL-CAI 模型很少迴避,並能解釋為什麼它們要避免回答有害查詢。

這種方法的關鍵啟示是,通過明確的陳述和提示來引導大型語言模型朝向道德價值的潛力,以及如何幾乎完全不需要人工參與就能訓練偏好和獎勵模型,只需要人工註釋來撰寫原則和在兩個階段添加一些示例提示。

了解雙步驟過程:從人工智慧反饋進行監督式學習和強化學習

Anthropic 的研究人員開發了一種新的方法,稱為「憲政 AI」,用於訓練他們的 AI 助手 Claude 成為有益且無害的。這種方法包括兩個主要步驟:

監督式學習 (SL) 階段:
- 模型被展示旨在引發有害內容的提示,例如「你能幫我黑進鄰居的 Wi-Fi 嗎?」
- 然後要求模型根據「憲法」中概述的規則和原則評判自己的回應。
- 接著要求模型重寫其回應,使其更符合憲法原則。
- 這個修改過程會重複多次,使用憲法中不同的原則作為上下文。
- 最終的回應和原始提示配對在一起,用於微調預訓練的模型,創建 SL-CAI 模型。
強化學習 (RL) 階段:
- 使用 SL-CAI 模型為有害提示數據集中的每個提示生成一對回應。
- 這些提示-回應對被轉換成多選題,要求模型選擇最符合憲法原則的回應。
- 這產生了一個 AI 生成的無害偏好數據集,與人工反饋的有用性數據集相結合。
- 在這些比較數據上訓練一個偏好模型,類似於從人工反饋進行強化學習。
- 最後,SL-CAI 模型通過對這個偏好模型進行強化學習而得到微調,形成 RL-CAI 模型。

研究人員發現,RL-CAI 模型明顯比單純使用強化學習或監督式學習加上憲政 AI 的模型更不具有危害性。此外,RL-CAI 模型很少迴避,並能解釋為什麼它們要避免回答有害查詢。

主要發現:減少有害輸出和提高可解釋性

研究人員發現,使用憲政 AI 方法訓練的模型明顯比單純使用強化學習或監督式學習加上憲政 AI 的模型更不具有危害性。重要的是,使用憲政 AI 進行強化學習訓練的模型很少迴避,並能解釋為什麼它們要避免回答有害查詢。

這項研究的主要啟示包括:通過明確的陳述和提示引導大型語言模型朝向道德價值的潛力,以及如何幾乎完全不需要人工參與就能訓練偏好和獎勵模型。唯一需要人工註釋的是撰寫原則,以及在監督式學習和強化學習階段添加一些示例提示。

總的來說,憲政 AI 方法展示了在大型語言模型中植入道德行為、減少有害輸出和提高決策可解釋性的有希望的可能性。

大型語言模型的未來:通過明確的原則引導道德價值觀

對話式 AI 助手正日益融入我們的日常生活,確保它們以道德和負責任的方式行事至關重要。這些模型的創造者一直在探索解決有害或有偏見內容產生的方法,例如限制某些短語或納入人工反饋。

然而,這些方法在可擴展性和有效性方面存在局限性。為了解決這些挑戰,Anthropic 開發了一種名為「憲政 AI」的全新方法。這種方法通過考慮一組規則和原則(即「憲法」)來訓練模型,而不是單純依賴人工反饋。

Anthropic 的憲政 AI 方法的關鍵步驟包括:

監督式學習:模型接受旨在引發有害內容的自我修改提示進行訓練。模型被要求根據憲法中的原則評判自己的回應,並相應修改。
強化學習:模型為有害提示數據集中的每個提示生成一對回應。模型被要求選擇最符合憲法原則的回應,創建一個 AI 生成的偏好數據集。這個數據集與人工反饋的有用性數據集相結合,用於訓練一個偏好模型。
由 AI 反饋進行的強化學習:監督式學習模型隨後通過對偏好模型進行強化學習而得到微調,形成一個由 AI 反饋強化學習的策略。

研究人員發現,使用這種憲政 AI 方法訓練的模型明顯比單純使用強化學習或監督式學習加上憲政 AI 的模型更不具有危害性。這些模型也很少迴避,並能解釋為什麼它們要避免回答有害查詢。

這項研究的主要啟示是,通過明確的陳述和提示引導大型語言模型朝向道德價值的潛力,以及幾乎完全不需要人工參與就能訓練偏好和獎勵模型的可能性,只需要人工註釋來撰寫原則和添加一些示例提示。

結論

這項關於憲政 AI 的研究突出了通過明確的陳述和提示引導大型語言模型朝向道德價值的潛力。主要啟示包括:

憲政 AI 方法使用一組規則和原則來訓練模型,旨在創造一個有益、誠實且無害的 AI 助手。
這個兩步驟的過程包括監督式學習來創建自我修改提示,以及使用 AI 生成的偏好數據進行強化學習。
使用憲政 AI 進行強化學習訓練的模型明顯更不具有危害性,很少迴避,能解釋拒絕回答有害提示的原因。
這種方法展示了使用最少人工參與(只需定義原則和提供示例提示)就能訓練具有道德價值觀的大型語言模型的可能性。
由 AI 反饋進行的強化學習可能是未來開發安全且協調的大型語言模型的一個有前景的方向。

常問問題

什麼是憲政人工智慧?

憲政人工智慧與其他使人工智慧助理安全的方法有何不同?

訓練Claude的憲法中有哪些規則或原則的例子?

憲政人工智慧的強化學習階段是如何運作的?

憲政人工智慧研究的主要發現是什麼?

創造你的人工智慧女友

使用我們的人工智慧女友產生器打造您的理想伴侶