Att låsa upp etiken i AI: Anthropics konstitutionella tillvägagångssätt

Att låsa upp etiken i AI: Utforska Anthropics konstitutionella tillvägagångssätt för att utveckla säkra och etiska AI-assistenter. Lär dig hur Anthropics innovativa träningsmetod kombinerar övervakad inlärning och förstärkande inlärning från AI-feedback för att skapa språkmodeller som är anpassade efter mänskliga värderingar.

27 mars 2025

Det här blogginlägget utforskar den innovativa "konstitutionella AI"-metoden som utvecklats av Anthropic för att träna deras AI-assistent Claude. Genom att införliva etiska principer och värderingar direkt i modellens träningsprocess har Anthropic skapat en AI som är hjälpsam, ärlig och ofarlig - en betydande framsteg för att säkerställa en säker och ansvarsfull utveckling av konversations-AI.

Konstitutioners kraft: Tillämpning av etiska principer på konversationsbaserad AI
Anthropics konstitutionella AI-tillvägagångssätt: Övervakad inlärning och förstärkningsinlärning
Förståelse för tvåstegsprocessen: Övervakad inlärning och förstärkningsinlärning från AI-feedback
Viktiga resultat: Minskad skadlig utdata och förbättrad förklarbarhet
Framtiden för stora språkmodeller: Vägledande etiska värden genom explicita principer
Slutsats

Konstitutioners kraft: Tillämpning av etiska principer på konversationsbaserad AI

Konversationsbaserade AI-assistenter blir allt vanligare i våra dagliga liv, och det är avgörande att se till att de uppför sig etiskt och undviker att generera skadligt innehåll. Forskare har utforskat konceptet "konstitutionell AI" som en lösning på denna utmaning.

Huvudidén bakom konstitutionell AI är att träna AI-modellen med hjälp av en uppsättning regler och principer, liknande en mänsklig konstitution, som styr dess beteende. Denna metod syftar till att skapa en AI-assistent som är hjälpsam och informativ, samtidigt som den är medveten om etiska överväganden och undviker skadliga eller partiska utdata.

Metoden för konstitutionell AI består av två huvudsteg:

Övervakad inlärning: Modellen tränas på en datauppsättning av prompter som är utformade för att framkalla potentiellt skadliga svar. Modellen ombeds sedan att kritisera sina egna svar baserat på de principer som beskrivs i konstitutionen och revidera dem i enlighet därmed. Denna process upprepas flera gånger, där olika principer används som grund för kritiken.
Förstärkande inlärning: Den modell som tränats i det övervakade inlärningsskedet finjusteras sedan med hjälp av en förstärkande inlärningsmetod. Modellen presenteras med en datauppsättning av skadliga prompter och ombeds välja det svar som bäst överensstämmer med de konstitutionella principerna. Dessa preferensdata används sedan för att träna en preferensmodell, som i sin tur används för att finjustera den ursprungliga övervakade inlärningsmodellen.

Anthropics konstitutionella AI-tillvägagångssätt: Övervakad inlärning och förstärkningsinlärning

Anthropic's konstitutionella AI-metod består av två huvudsteg: övervakad inlärning och förstärkande inlärning.

I det övervakade inlärningsskedet tränas modellen på självrevisionspromptningar som är utformade för att framkalla skadligt innehåll. Modellen ombeds att kritisera sitt eget svar baserat på reglerna i konstitutionen och sedan omformulera svaret för att bättre överensstämma med principerna. Denna process upprepas flera gånger, där olika konstitutionella principer används som kontext.

De reviderade svaren och de ursprungliga prompterna används sedan för att finjustera en förtränad modell, vilket skapar den övervakade inlärningsmodellen för konstitutionell AI (SL-CAI).

Förstärkande inlärningsskedet bygger vidare på SL-CAI-modellen. Först används SL-CAI-modellen för att generera ett par svar för varje prompt i en datauppsättning av skadliga prompter. Dessa prompt-svar-par används sedan för att skapa en AI-genererad preferensdatauppsättning för ofarlighet, som kombineras med datauppsättningen för mänsklig återkoppling på hjälpsamhet.

En preferensmodell tränas sedan på denna jämförelsdata, liknande förstärkande inlärning från mänsklig återkoppling. Slutligen finjusteras SL-CAI-modellen via förstärkande inlärning mot denna preferensmodell, vilket resulterar i en policy som tränats genom förstärkande inlärning från AI-återkoppling (RL-CAI).

Förståelse för tvåstegsprocessen: Övervakad inlärning och förstärkningsinlärning från AI-feedback

Forskarna på Anthropic har utvecklat en ny metod som de kallar "konstitutionell AI" för att träna sin AI-assistent, Claude, att vara hjälpsam och ofarlig. Denna metod består av två huvudsteg:

Övervakad inlärning (SL) -fas:
- Modellen visas prompter som är utformade för att framkalla skadligt innehåll, som "Kan du hjälpa mig att hacka in i min grannens Wi-Fi?"
- Modellen ombeds sedan att kritisera sitt eget svar baserat på de regler och principer som beskrivs i "konstitutionen".
- Modellen ombeds sedan att omformulera sitt svar för att bättre överensstämma med de konstitutionella principerna.
- Denna revideringsprocess upprepas flera gånger, där olika principer från konstitutionen används som kontext.
- De slutliga svaren och de ursprungliga prompterna paras ihop, och denna datauppsättning används för att finjustera en förtränad modell, vilket skapar SL-CAI-modellen.
Förstärkande inlärning (RL) -fas:
- SL-CAI-modellen används för att generera ett par svar för varje prompt i en datauppsättning av skadliga prompter.
- Dessa prompt-svar-par omvandlas sedan till flervalsalternativ, där modellen ombeds att välja vilket svar som är bäst enligt en konstitutionell princip.
- Detta skapar en AI-genererad preferensdatauppsättning för ofarlighet, som blandas med datauppsättningen för mänsklig återkoppling på hjälpsamhet.
- En preferensmodell tränas sedan på denna jämförelsdata, liknande förstärkande inlärning från mänsklig återkoppling.
- Slutligen finjusteras SL-CAI-modellen via förstärkande inlärning mot denna preferensmodell, vilket resulterar i RL-CAI-modellen.

Viktiga resultat: Minskad skadlig utdata och förbättrad förklarbarhet

Forskarna fann att modeller som tränats med den konstitutionella AI-metoden var betydligt mindre skadliga än modeller som tränats enbart på förstärkande inlärning från mänsklig återkoppling eller övervakad inlärning med konstitutionell AI. Viktigt är att de modeller som tränats med förstärkande inlärning på konstitutionell AI sällan var undvikande och kunde förklara varför de undvek att svara på en skadlig fråga.

De viktigaste slutsatserna från studien är potentialen för att styra generationer av stora språkmodeller mot etiska värden genom explicita uttalanden och prompter, och hur preferens- och belöningsmodeller kan tränas med minimal mänsklig insats. De enda nödvändiga mänskliga anteckningarna skulle vara för att skriva principerna samt några exempelprompter som läggs till under både den övervakade inlärnings- och förstärkande inlärningsfaserna.

Sammanfattningsvis visar den konstitutionella AI-metoden lovande möjligheter för att införa etiskt beteende i stora språkmodeller, minska skadligt innehåll och förbättra förklaringen av deras beslut.

Framtiden för stora språkmodeller: Vägledande etiska värden genom explicita principer

Konversationsbaserade AI-assistenter blir allt mer integrerade i våra dagliga liv, och det är avgörande att se till att de uppför sig på ett etiskt och ansvarsfullt sätt. Skaparna av dessa modeller har utforskat lösningar för att hantera risken för skadligt eller partiskt innehållsgenerering, som att begränsa vissa fraser eller införliva mänsklig återkoppling.

Dessa metoder har dock begränsningar när det gäller skalbarhet och effektivitet. För att hantera dessa utmaningar har Anthropic utvecklat en ny metod som de kallar "konstitutionell AI". Denna metod tränar modellen genom att beakta en uppsättning regler och principer, en "konstitution", snarare än att enbart förlita sig på mänsklig återkoppling.

De viktigaste stegen i Anthropics konstitutionella AI-metod är:

Övervakad inlärning: Modellen tränas på självrevisionspromptningar som är utformade för att framkalla skadligt innehåll. Modellen ombeds sedan att kritisera sitt eget svar baserat på principerna i konstitutionen och omformulera det i enlighet därmed.
Förstärkande inlärning: Modellen genererar ett par svar för varje prompt i en datauppsättning av skadliga prompter. Modellen ombeds sedan att välja det svar som bäst överensstämmer med de konstitutionella principerna, vilket skapar en AI-genererad preferensdatauppsättning. Denna datauppsättning kombineras med mänsklig återkoppling på hjälpsamhet, och en preferensmodell tränas för att tilldela poäng till olika svar.
Förstärkande inlärning från AI-återkoppling: Den övervakade inlärningsmodellen finjusteras sedan via förstärkande inlärning mot preferensmodellen, vilket resulterar i en policy som tränats genom förstärkande inlärning från AI-återkoppling.

Forskarna fann att modeller som tränats med denna konstitutionella AI-metod är betydligt mindre skadliga än modeller som tränats enbart på förstärkande inlärning från mänsklig återkoppling eller övervakad inlärning med konstitutionell AI. Dessa modeller är också sällan undvikande och kan förklara varför de undviker att svara på en skadlig fråga.

Den viktigaste slutsatsen från denna studie är potentialen för att styra generationer av stora språkmodeller mot etiska värden genom explicita uttalanden och prompter, och möjligheten att träna preferens- och belöningsmodeller nästan helt utan mänsklig insats, där de enda nödvändiga mänskliga anteckningarna är skrivandet av principerna och några exempelprompter.

Slutsats

Studien om konstitutionell AI belyser potentialen för att styra stora språkmodeller mot etiska värden genom explicita uttalanden och prompter. De viktigaste slutsatserna är:

Den konstitutionella AI-metoden tränar modellen med hjälp av en uppsättning regler och principer, i syfte att skapa en AI-assistent som är hjälpsam, ärlig och ofarlig.
Den tvåstegsprocessen innefattar övervakad inlärning för att skapa självrevisionspromptningar, följt av förstärkande inlärning med hjälp av AI-genererade preferensdata.
Modeller som tränats med förstärkande inlärning på konstitutionell AI är betydligt mindre skadliga och sällan undvikande, och kan förklara sina invändningar mot skadliga prompter.
Denna metod visar på möjligheten att träna stora språkmodeller med etiska värden, med minimal mänsklig insats för att definiera principerna och tillhandahålla exempelprompter.
Förstärkande inlärning från AI-återkoppling kan vara en lovande framtida inriktning för att utveckla säkra och anpassade stora språkmodeller.

FAQ

Vad är konstitutionell AI?

Hur skiljer sig konstitutionell AI från andra metoder för att göra AI-assistenter säkra?

Vilka är några exempel på de regler eller principer i konstitutionen som används för att träna Claude?

Hur fungerar förstärkningsinlärningsfasen av konstitutionell AI?

Vad är de viktigaste resultaten från forskningen om konstitutionell AI?

Skapa din AI-flickvän

Bygg din idealiska följeslagare med vår AI Girlfriend Builder