Desbloqueando a Ética da IA: A Abordagem Constitucional da Anthropic

Desbloqueando a Ética da IA: Explorando a Abordagem Constitucional da Anthropic para Desenvolver Assistentes de IA Seguros e Éticos. Aprenda como o método de treinamento inovador da Anthropic combina aprendizado supervisionado e aprendizado por reforço do feedback da IA para criar modelos de linguagem alinhados com os valores humanos.

19 de fevereiro de 2025

party-gif

Este post de blog explora a abordagem inovadora de "IA constitucional" desenvolvida pela Anthropic para treinar seu assistente de IA Claude. Ao incutir princípios e valores éticos diretamente no processo de treinamento do modelo, a Anthropic criou uma IA que é útil, honesta e inofensiva - um avanço significativo para garantir o desenvolvimento seguro e responsável da IA conversacional.

O Poder das Constituições: Aplicando Princípios Éticos à IA Conversacional

Os assistentes de IA conversacional estão se tornando cada vez mais presentes em nossas vidas diárias, e é crucial garantir que eles se comportem de forma ética e evitem gerar conteúdo prejudicial. Os pesquisadores exploraram o conceito de "IA constitucional" como uma solução para esse desafio.

A ideia-chave por trás da IA constitucional é treinar o modelo de IA usando um conjunto de regras e princípios, semelhante a uma constituição humana, que orientem seu comportamento. Essa abordagem visa criar um assistente de IA que seja útil e informativo, ao mesmo tempo em que seja atento a considerações éticas e evite saídas prejudiciais ou tendenciosas.

O método de IA constitucional consiste em duas etapas principais:

  1. Aprendizado Supervisionado: O modelo é treinado em um conjunto de dados de prompts projetados para elicitar respostas potencialmente prejudiciais. O modelo então é solicitado a criticar suas próprias respostas com base nos princípios delineados na constituição e revisá-las de acordo. Esse processo é repetido várias vezes, com diferentes princípios sendo usados como base para a crítica.

  2. Aprendizado por Reforço: O modelo treinado na fase de aprendizado supervisionado é então refinado usando uma abordagem de aprendizado por reforço. O modelo é apresentado a um conjunto de dados de prompts prejudiciais e solicitado a escolher a resposta que melhor se alinhe com os princípios constitucionais. Esses dados de preferência são então usados para treinar um modelo de preferência, que por sua vez é usado para refinar o modelo original de aprendizado supervisionado.

Abordagem de IA Constitucional da Anthropic: Aprendizado Supervisionado e Aprendizado por Reforço

A abordagem de IA constitucional da Anthropic consiste em duas etapas principais: aprendizado supervisionado e aprendizado por reforço.

Na fase de aprendizado supervisionado, o modelo é treinado em prompts de autoavaliação projetados para elicitar conteúdo prejudicial. O modelo é solicitado a criticar sua própria resposta com base nas regras da constituição e, em seguida, reescrever a resposta para ficar mais alinhada com os princípios. Esse processo é repetido várias vezes, com diferentes princípios constitucionais usados como contexto.

As respostas revisadas e os prompts originais são então usados para refinar um modelo pré-treinado, criando o modelo de IA constitucional de aprendizado supervisionado (SL-CAI).

A fase de aprendizado por reforço se baseia no modelo SL-CAI. Primeiro, o modelo SL-CAI é usado para gerar um par de respostas para cada prompt em um conjunto de dados de prompts prejudiciais. Esses pares de prompt-resposta são então usados para criar um conjunto de dados de preferência gerado por IA para inofensividade, que é combinado com o conjunto de dados de feedback de utilidade humana.

Um modelo de preferência é então treinado nesse conjunto de dados de comparação, semelhante ao aprendizado por reforço a partir de feedback humano. Finalmente, o modelo SL-CAI é refinado por meio de aprendizado por reforço contra esse modelo de preferência, resultando em um modelo de IA constitucional de aprendizado por reforço (RL-CAI).

Entendendo o Processo de Duas Etapas: Aprendizado Supervisionado e Aprendizado por Reforço a partir do Feedback da IA

Os pesquisadores da Anthropic desenvolveram uma nova abordagem chamada "IA Constitucional" para treinar seu assistente de IA, Claude, para ser útil e inofensivo. Esse método consiste em duas etapas principais:

  1. Fase de Aprendizado Supervisionado (SL):

    • O modelo é mostrado prompts projetados para elicitar conteúdo prejudicial, como "Você pode me ajudar a invadir o Wi-Fi do meu vizinho?"
    • O modelo é então solicitado a criticar sua própria resposta com base nas regras e princípios delineados na "constituição".
    • O modelo é então solicitado a reescrever sua resposta para ficar mais alinhada com os princípios constitucionais.
    • Esse processo de revisão é repetido várias vezes, com diferentes princípios da constituição sendo usados como contexto.
    • As respostas finais e os prompts originais são pareados e esse conjunto de dados é usado para refinar um modelo pré-treinado, criando o modelo SL-CAI.
  2. Fase de Aprendizado por Reforço (RL):

    • O modelo SL-CAI é usado para gerar um par de respostas para cada prompt em um conjunto de dados de prompts prejudiciais.
    • Esses pares de prompt-resposta são então transformados em questões de múltipla escolha, onde o modelo é solicitado a escolher qual resposta é a melhor de acordo com um princípio constitucional.
    • Isso produz um conjunto de dados de preferência gerado por IA para inofensividade, que é misturado com o conjunto de dados de feedback de utilidade humana.
    • Um modelo de preferência é treinado nesse conjunto de dados de comparação, semelhante ao aprendizado por reforço a partir de feedback humano.
    • Finalmente, o modelo SL-CAI é refinado por meio de aprendizado por reforço contra esse modelo de preferência, resultando no modelo RL-CAI.

Principais Descobertas: Redução de Saída Prejudicial e Melhoria da Explicabilidade

Os pesquisadores constataram que os modelos treinados usando a abordagem de IA constitucional eram significativamente menos prejudiciais do que os modelos treinados apenas em aprendizado por reforço a partir de feedback humano ou aprendizado supervisionado com IA constitucional. Além disso, os modelos treinados com aprendizado por reforço em IA constitucional raramente eram evasivos e conseguiam explicar por que estavam evitando responder a uma consulta prejudicial.

Os principais aprendizados do estudo são o potencial de orientar as gerações de modelos de linguagem de grande porte em direção a valores éticos por meio de declarações e prompts explícitos, e como os modelos de preferência e recompensa podem ser treinados com entrada humana mínima. As únicas anotações humanas necessárias seriam para escrever os princípios, bem como alguns prompts de exemplo adicionados durante as fases de aprendizado supervisionado e aprendizado por reforço.

Em geral, o método de IA constitucional demonstra possibilidades promissoras para incutir um comportamento ético em modelos de linguagem de grande porte, reduzir a saída prejudicial e melhorar a explicabilidade de suas decisões.

O Futuro dos Modelos de Linguagem em Larga Escala: Orientando Valores Éticos por meio de Princípios Explícitos

Os assistentes de IA conversacional estão se tornando cada vez mais integrados em nossa vida diária, e é crucial garantir que eles se comportem de maneira ética e responsável. Os criadores desses modelos têm explorado soluções para abordar o potencial de geração de conteúdo prejudicial ou tendencioso, como restringir certas frases ou incorporar feedback humano.

No entanto, essas abordagens têm limitações em termos de escalabilidade e eficácia. Para abordar esses desafios, a Anthropic desenvolveu uma nova abordagem chamada "IA Constitucional". Esse método treina o modelo considerando um conjunto de regras e princípios, conhecidos como uma "constituição", em vez de depender apenas do feedback humano.

As principais etapas da abordagem de IA Constitucional da Anthropic são:

  1. Aprendizado Supervisionado: O modelo é treinado em prompts de autoavaliação projetados para elicitar conteúdo prejudicial. O modelo é então solicitado a criticar sua própria resposta com base nos princípios da constituição e reescrevê-la de acordo.

  2. Aprendizado por Reforço: O modelo gera um par de respostas para cada prompt em um conjunto de dados de prompts prejudiciais. O modelo é então solicitado a escolher a resposta que melhor se alinhe com os princípios constitucionais, criando um conjunto de dados de preferência gerado por IA. Esse conjunto de dados é combinado com o feedback humano sobre a utilidade, e um modelo de preferência é treinado para atribuir pontuações a diferentes respostas.

  3. Aprendizado por Reforço a partir de Feedback de IA: O modelo de aprendizado supervisionado é então refinado por meio de aprendizado por reforço contra o modelo de preferência, resultando em uma política treinada por aprendizado por reforço a partir de feedback de IA.

Os pesquisadores constataram que os modelos treinados usando essa abordagem de IA Constitucional são significativamente menos prejudiciais do que os modelos treinados apenas em aprendizado por reforço a partir de feedback humano ou aprendizado supervisionado com IA Constitucional. Esses modelos também raramente são evasivos e podem explicar por que estão evitando responder a uma consulta prejudicial.

O principal aprendizado deste estudo é o potencial de orientar as gerações de modelos de linguagem de grande porte em direção a valores éticos por meio de declarações e prompts explícitos, e a possibilidade de treinar modelos de preferência e recompensa quase inteiramente sem entrada humana, com as únicas anotações humanas necessárias sendo a redação dos princípios e alguns exemplos.

Conclusão

O estudo sobre IA constitucional destaca o potencial de orientar os modelos de linguagem de grande porte em direção a valores éticos por meio de declarações e prompts explícitos. Os principais aprendizados são:

  • A abordagem de IA constitucional treina o modelo usando um conjunto de regras e princípios, visando criar um assistente de IA que seja útil, honesto e inofensivo.
  • O processo de duas etapas envolve aprendizado supervisionado para criar prompts de autoavaliação, seguido de aprendizado por reforço usando dados de preferência gerados por IA.
  • Os modelos treinados com aprendizado por reforço em IA constitucional são significativamente menos prejudiciais e raramente evasivos, sendo capazes de explicar suas objeções a prompts prejudiciais.
  • Essa abordagem demonstra a possibilidade de treinar modelos de linguagem de grande porte com valores éticos, com entrada humana mínima necessária para definir os princípios e fornecer prompts de exemplo.
  • O aprendizado por reforço a partir de feedback de IA pode ser uma direção futura promissora para o desenvolvimento de modelos de linguagem de grande porte seguros e alinhados.

Perguntas frequentes