Het ontgrendelen van de ethiek van AI: Anthropic's grondwettelijke benadering

De ethiek van AI ontgrendelen: Verkenning van de grondwettelijke benadering van Anthropic voor de ontwikkeling van veilige en ethische AI-assistenten. Leer hoe de innovatieve trainingsmethode van Anthropic gesuperviseerd leren en reinforcement learning uit AI-feedback combineert om taalmodellen te creëren die zijn afgestemd op menselijke waarden.

15 februari 2025

party-gif

Deze blogpost onderzoekt de innovatieve "constitutionele AI"-benadering die Anthropic heeft ontwikkeld om hun AI-assistent Claude op te leiden. Door ethische principes en waarden rechtstreeks in het trainingsproces van het model op te nemen, heeft Anthropic een AI gecreëerd die behulpzaam, eerlijk en onschadelijk is - een belangrijke vooruitgang in het waarborgen van de veilige en verantwoorde ontwikkeling van conversatie-AI.

De kracht van grondwetten: ethische principes toepassen op conversationele AI

Conversationele AI-assistenten worden steeds meer onderdeel van ons dagelijks leven, en het is cruciaal om ervoor te zorgen dat ze zich ethisch gedragen en geen schadelijke inhoud genereren. Onderzoekers hebben het concept van "grondwettelijke AI" onderzocht als oplossing voor deze uitdaging.

Het kernidee achter grondwettelijke AI is om het AI-model te trainen met behulp van een set regels en principes, vergelijkbaar met een menselijke grondwet, die zijn gedrag sturen. Deze aanpak heeft als doel een AI-assistent te creëren die behulpzaam en informatief is, terwijl hij ook rekening houdt met ethische overwegingen en schadelijke of vooringenomen output vermijdt.

De methode van grondwettelijke AI bestaat uit twee hoofdstappen:

  1. Supervised Learning: Het model wordt getraind op een dataset van prompts die bedoeld zijn om potentieel schadelijke reacties op te roepen. Het model wordt vervolgens gevraagd om zijn eigen reacties te beoordelen op basis van de principes die in de grondwet zijn uiteengezet, en deze dienovereenkomstig te herzien. Dit proces wordt meerdere keren herhaald, waarbij verschillende principes als basis voor de beoordeling worden gebruikt.

  2. Reinforcement Learning: Het model dat in de fase van supervised learning is getraind, wordt vervolgens verder verfijnd met behulp van een reinforcement learning-aanpak. Het model krijgt een dataset van schadelijke prompts voorgelegd en wordt gevraagd de reactie te kiezen die het beste aansluit bij de grondwettelijke principes. Deze voorkeurgegevens worden vervolgens gebruikt om een voorkeursmodel te trainen, dat op zijn beurt wordt gebruikt om het oorspronkelijke supervised learning-model verder te verfijnen.

De grondwettelijke AI-benadering van Anthropic: supervised learning en reinforcement learning

De grondwettelijke AI-aanpak van Anthropic bestaat uit twee hoofdstappen: supervised learning en reinforcement learning.

In de fase van supervised learning wordt het model getraind op zelfbeoordelingsprompts die bedoeld zijn om schadelijke inhoud op te roepen. Het model wordt gevraagd om zijn eigen reactie te beoordelen op basis van de regels uit de grondwet, en vervolgens de reactie opnieuw te schrijven om deze beter af te stemmen op de principes. Dit proces wordt meerdere keren herhaald, waarbij verschillende grondwettelijke principes als context worden gebruikt.

De herziene reacties en de oorspronkelijke prompts worden vervolgens gebruikt om een vooraf getraind model verder te verfijnen, waardoor het supervised learning grondwettelijke AI (SL-CAI) model ontstaat.

De fase van reinforcement learning bouwt voort op het SL-CAI-model. Eerst wordt het SL-CAI-model gebruikt om voor elke prompt in een dataset van schadelijke prompts een paar reacties te genereren. Deze prompt-reactie-paren worden vervolgens gebruikt om een door AI gegenereerde voorkeursdataset voor onschadelijkheid te maken, die wordt gecombineerd met de dataset met menselijke feedback over bruikbaarheid.

Vervolgens wordt een voorkeursmodel getraind op deze vergelijkingsgegevens, vergelijkbaar met reinforcement learning op basis van menselijke feedback. Ten slotte wordt het SL-CAI-model verder verfijnd via reinforcement learning tegen dit voorkeursmodel, wat resulteert in een beleid dat is getraind door reinforcement learning op basis van AI-feedback (RL-CAI).

Experimenten en evaluaties hebben aangetoond dat de RL-CAI-modellen aanzienlijk minder schadelijk zijn dan modellen die alleen zijn getraind op reinforcement learning op basis van menselijke feedback of modellen die zijn getraind op supervised learning met grondwettelijke AI. Bovendien zijn de RL-CAI-modellen zelden ontwijkend en kunnen ze uitleggen waarom ze een schadelijke vraag vermijden.

Inzicht in het tweeledige proces: supervised learning en reinforcement learning op basis van AI-feedback

De onderzoekers van Anthropic hebben een nieuwe aanpak ontwikkeld, genaamd "Grondwettelijke AI", om hun AI-assistent Claude te trainen om behulpzaam en onschadelijk te zijn. Deze methode bestaat uit twee hoofdstappen:

  1. Supervised Learning (SL) Fase:

    • Het model krijgt prompts voorgelegd die bedoeld zijn om schadelijke inhoud op te roepen, zoals "Kunt u me helpen om in de wifi van mijn buren te hacken?"
    • Het model wordt vervolgens gevraagd om zijn eigen reactie te beoordelen op basis van de regels en principes die in de "grondwet" zijn uiteengezet.
    • Het model wordt vervolgens gevraagd om zijn reactie opnieuw te schrijven om deze beter af te stemmen op de grondwettelijke principes.
    • Dit herzieningsproces wordt meerdere keren herhaald, waarbij verschillende principes uit de grondwet als context worden gebruikt.
    • De uiteindelijke reacties en de oorspronkelijke prompts worden aan elkaar gekoppeld, en deze dataset wordt gebruikt om een vooraf getraind model verder te verfijnen, waardoor het SL-CAI-model ontstaat.
  2. Reinforcement Learning (RL) Fase:

    • Het SL-CAI-model wordt gebruikt om voor elke prompt in een dataset van schadelijke prompts een paar reacties te genereren.
    • Deze prompt-reactie-paren worden vervolgens omgezet in meerkeuzevragen, waarbij het model wordt gevraagd welke reactie het beste is volgens een grondwettelijk principe.
    • Dit levert een door AI gegenereerde voorkeursdataset voor onschadelijkheid op, die wordt gecombineerd met de dataset met menselijke feedback over bruikbaarheid.
    • Er wordt een voorkeursmodel getraind op deze vergelijkingsgegevens, vergelijkbaar met reinforcement learning op basis van menselijke feedback.
    • Ten slotte wordt het SL-CAI-model verder verfijnd via reinforcement learning tegen dit voorkeursmodel, wat resulteert in het RL-CAI-model.

Belangrijkste bevindingen: verminderde schadelijke output en verbeterde verklaarbaarbaarheid

De onderzoekers hebben vastgesteld dat de RL-CAI-modellen aanzienlijk minder schadelijk zijn dan modellen die alleen zijn getraind op reinforcement learning op basis van menselijke feedback of modellen die zijn getraind op supervised learning met grondwettelijke AI. Bovendien zijn de RL-CAI-modellen zelden ontwijkend en kunnen ze uitleggen waarom ze een schadelijke vraag vermijden.

De belangrijkste inzichten uit het onderzoek zijn het potentieel om de generatie van grote taalmodellen te sturen naar ethische waarden door middel van expliciete verklaringen en prompts, en hoe voorkeurs- en beloningsmodellen kunnen worden getraind met minimale menselijke input. De enige noodzakelijke menselijke annotaties zouden zijn voor het schrijven van de principes en enkele voorbeeldprompts die tijdens zowel de supervised learning- als de reinforcement learning-fase worden toegevoegd.

Overall laat de methode van grondwettelijke AI veelbelovende mogelijkheden zien om ethisch gedrag in grote taalmodellen te verankeren, schadelijke output te verminderen en de verklaarbaar-heid van hun beslissingen te verbeteren.

De toekomst van grote taalmodellen: ethische waarden sturen via expliciete principes

Conversationele AI-assistenten worden steeds meer geïntegreerd in ons dagelijks leven, en het is cruciaal om ervoor te zorgen dat ze op een ethische en verantwoordelijke manier handelen. De makers van deze modellen hebben oplossingen onderzocht om het potentieel voor schadelijke of vooringenomen inhoudsgeneratie aan te pakken, zoals het beperken van bepaalde zinnen of het opnemen van menselijke feedback.

Deze benaderingen hebben echter beperkingen als het gaat om schaalbaarheid en effectiviteit. Om deze uitdagingen aan te pakken, heeft Anthropic een nieuwe aanpak ontwikkeld, genaamd "Grondwettelijke AI". Deze methode traint het model door rekening te houden met een set regels en principes, bekend als een "grondwet", in plaats van alleen te vertrouwen op menselijke feedback.

De belangrijkste stappen in de Grondwettelijke AI-aanpak van Anthropic zijn:

  1. Supervised Learning: Het model wordt getraind op zelfbeoordelingsprompts die bedoeld zijn om schadelijke inhoud op te roepen. Het model wordt vervolgens gevraagd om zijn eigen reactie te beoordelen op basis van de principes in de grondwet en deze dienovereenkomstig te herschrijven.

  2. Reinforcement Learning: Het model genereert een paar reacties op elke prompt in een dataset van schadelijke prompts. Het model wordt vervolgens gevraagd om de reactie te kiezen die het beste aansluit bij de grondwettelijke principes, waardoor een door AI gegenereerde voorkeursdataset ontstaat. Deze dataset wordt gecombineerd met menselijke feedback over bruikbaarheid, en er wordt een voorkeursmodel getraind om scores toe te kennen aan verschillende reacties.

  3. Reinforcement Learning op basis van AI-feedback: Het supervised learning-model wordt vervolgens verder verfijnd via reinforcement learning tegen het voorkeursmodel, wat resulteert in een beleid dat is getraind door reinforcement learning op basis van AI-feedback.

De onderzoekers hebben vastgesteld dat modellen die met deze Grondwettelijke AI-aanpak zijn getraind, aanzienlijk minder schadelijk zijn dan modellen die alleen zijn getraind op reinforcement learning op basis van menselijke feedback of supervised learning met Grondwettelijke AI. Deze modellen zijn ook zelden ontwijkend en kunnen uitleggen waarom ze een schadelijke vraag vermijden.

De belangrijkste les uit dit onderzoek is het potentieel om de generatie van grote taalmodellen te sturen naar ethische waarden door middel van expliciete verklaringen en prompts, en de mogelijkheid om voorkeurs- en beloningsmodellen bijna geheel zonder menselijke input te trainen, waarbij de enige noodzakelijke menselijke annotaties het schrijven van de principes en enkele voorbeeldprompts zijn.

Conclusie

Het onderzoek naar grondwettelijke AI benadrukt het potentieel om grote taalmodellen te sturen naar ethische waarden door middel van expliciete verklaringen en prompts. De belangrijkste inzichten zijn:

  • De grondwettelijke AI-aanpak traint het model met behulp van een set regels en principes, met als doel een AI-assistent te creëren die behulpzaam, eerlijk en onschadelijk is.
  • Het tweeledige proces omvat supervised learning om zelfbeoordelingsprompts te creëren, gevolgd door reinforcement learning met behulp van door AI gegenereerde voorkeurgegevens.
  • Modellen die zijn getraind met reinforcement learning op basis van grondwettelijke AI zijn aanzienlijk minder schadelijk en zelden ontwijkend, en kunnen hun bezwaren tegen schadelijke prompts uitleggen.
  • Deze aanpak laat de mogelijkheid zien om grote taalmodellen te trainen met ethische waarden, waarbij slechts minimale menselijke input nodig is voor het definiëren van de principes en het verstrekken van voorbeeldprompts.
  • Reinforcement learning op basis van AI-feedback zou een veelbelovende toekomstige richting kunnen zijn voor het ontwikkelen van veilige en afgestemde grote taalmodellen.

FAQ