Раскрытие этики ИИ: конституционный подход Anthropic

Раскрытие этики ИИ: исследование конституционного подхода Anthropic к разработке безопасных и этичных помощников ИИ. Узнайте, как новый метод обучения Anthropic, сочетающий контролируемое обучение и обучение с подкреплением на основе отзывов ИИ, создает языковые модели, согласованные с человеческими ценностями.

19 февраля 2025 г.

party-gif

Эта статья в блоге исследует инновационный подход "конституционного ИИ", разработанный Anthropic для обучения их ассистента ИИ Клода. Внедряя этические принципы и ценности непосредственно в процесс обучения модели, Anthropic создала ИИ, который является полезным, честным и безвредным - значительный прогресс в обеспечении безопасной и ответственной разработки разговорного ИИ.

Сила конституций: применение этических принципов к разговорному искусственному интеллекту

Разговорные помощники на основе искусственного интеллекта становятся все более распространенными в нашей повседневной жизни, и крайне важно обеспечить их этичное поведение и избежание создания вредного контента. Исследователи изучали концепцию "конституционного ИИ" как решение этой проблемы.

Основная идея конституционного ИИ заключается в обучении модели ИИ с использованием набора правил и принципов, подобных человеческой конституции, которые направляют ее поведение. Этот подход направлен на создание помощника ИИ, который будет полезным и информативным, а также будет учитывать этические соображения и избегать вредных или предвзятых результатов.

Метод конституционного ИИ состоит из двух основных этапов:

  1. Обучение с учителем: Модель обучается на наборе данных с запросами, предназначенными для получения потенциально вредных ответов. Затем модель просят оценить собственные ответы на основе принципов, изложенных в конституции, и соответственно их переписать. Этот процесс повторяется несколько раз, при этом в качестве основы для критики используются различные принципы.

  2. Обучение с подкреплением: Модель, обученная на этапе обучения с учителем, затем дообучается с использованием подхода обучения с подкреплением. Модели предъявляются наборы вредных запросов, и ее просят выбрать ответ, наилучшим образом соответствующий конституционным принципам. Эти предпочтительные данные затем используются для обучения модели предпочтений, которая, в свою очередь, используется для дообучения исходной модели, обученной с учителем.

Подход Anthropic к конституционному искусственному интеллекту: обучение с учителем и обучение с подкреплением

Подход Anthropic к конституционному ИИ состоит из двух основных этапов: обучения с учителем и обучения с подкреплением.

На этапе обучения с учителем модель обучается на самокритических запросах, предназначенных для получения вредного контента. Модель просят оценить свой ответ на основе правил из конституции, а затем переписать ответ, чтобы он лучше соответствовал принципам. Этот процесс повторяется несколько раз, при этом в качестве контекста используются различные конституционные принципы.

Отредактированные ответы и исходные запросы затем используются для дообучения предварительно обученной модели, создавая модель конституционного ИИ с обучением с учителем (SL-CAI).

Этап обучения с подкреплением строится на основе модели SL-CAI. Во-первых, модель SL-CAI используется для генерации пары ответов для каждого запроса в наборе данных вредных запросов. Эти пары "запрос-ответ" затем используются для создания сгенерированного ИИ набора данных предпочтений по безвредности, который объединяется с набором данных полезности обратной связи от человека.

Затем обучается модель предпочтений на этих сравнительных данных, аналогично обучению с подкреплением на основе обратной связи от человека. Наконец, модель SL-CAI дообучается с помощью обучения с подкреплением против этой модели предпочтений, в результате чего получается модель RL-CAI, обученная с помощью обучения с подкреплением на основе обратной связи от ИИ.

Понимание двухэтапного процесса: обучение с учителем и обучение с подкреплением на основе отзывов об искусственном интеллекте

Исследователи в Anthropic разработали новый подход, называемый "Конституционный ИИ", для обучения своего помощника ИИ Клода быть полезным и безвредным. Этот метод состоит из двух основных этапов:

  1. Этап обучения с учителем (SL):

    • Модели показывают запросы, предназначенные для получения вредного контента, например, "Можете ли вы помочь мне взломать Wi-Fi моего соседа?"
    • Затем модель просят оценить свой ответ на основе правил и принципов, изложенных в "конституции".
    • После этого модель просят переписать свой ответ, чтобы он лучше соответствовал конституционным принципам.
    • Этот процесс редактирования повторяется несколько раз, при этом в качестве контекста используются различные принципы из конституции.
    • Окончательные ответы и исходные запросы объединяются в набор данных, который используется для дообучения предварительно обученной модели, создавая модель SL-CAI.
  2. Этап обучения с подкреплением (RL):

    • Модель SL-CAI используется для генерации пары ответов для каждого запроса в наборе данных вредных запросов.
    • Эти пары "запрос-ответ" затем преобразуются в вопросы с множественным выбором, где модель просят выбрать ответ, который лучше всего соответствует конституционному принципу.
    • Это создает сгенерированный ИИ набор данных предпочтений по безвредности, который объединяется с набором данных полезности обратной связи от человека.
    • На этих сравнительных данных обучается модель предпочтений, аналогично обучению с подкреплением на основе обратной связи от человека.
    • Наконец, модель SL-CAI дообучается с помощью обучения с подкреплением против этой модели предпочтений, в результате чего получается модель RL-CAI.

Основные выводы: снижение вредного вывода и улучшение объяснимости

Исследователи обнаружили, что модели, обученные с использованием подхода конституционного ИИ, были значительно менее вредными, чем модели, обученные только на основе обучения с подкреплением с обратной связью от человека или обучения с учителем с конституционным ИИ. Кроме того, модель RL-CAI редко уклоняется от ответа и может объяснить, почему она избегает ответа на вредный запрос.

Основные выводы из этого исследования - это потенциал для направления генерации моделей естественного языка к этическим ценностям с помощью явных заявлений и запросов, а также возможность обучения моделей предпочтений и вознаграждения практически без участия человека, при этом единственными необходимыми аннотациями человека будут написание принципов, а также несколько примеров, добавленных к запросам на обоих этапах.

Будущее крупных языковых моделей: руководство этическими ценностями через явные принципы

Исследователи обнаружили, что модели, обученные с использованием подхода конституционного ИИ, были значительно менее вредными, чем модели, обученные только на основе обучения с подкреплением с обратной связью от человека или обучения с учителем с конституционным ИИ. Важно отметить, что модели, обученные с помощью обучения с подкреплением на основе конституционного ИИ, редко уклонялись от ответа и могли объяснить, почему они избегают ответа на вредный запрос.

Основные выводы из исследования - это потенциал для направления генерации моделей естественного языка к этическим ценностям с помощью явных заявлений и запросов, а также возможность обучения моделей предпочтений и вознаграждения с минимальным участием человека. Единственными необходимыми аннотациями человека будут написание принципов, а также несколько примеров, добавленных на этапах обучения с учителем и обучения с подкреплением.

В целом, метод конституционного ИИ демонстрирует многообещающие возможности для внедрения этичного поведения в модели естественного языка, снижения вредного вывода и повышения объяснимости их решений.

Заключение

Разговорные помощники на основе искусственного интеллекта все больше интегрируются в нашу повседневную жизнь, и крайне важно обеспечить, чтобы они вели себя этично и ответственно. Создатели этих моделей исследовали решения для устранения потенциала для создания вредного или предвзятого контента, такие как ограничение определенных фраз или включение обратной связи от человека.

Однако эти подходы имеют ограничения в плане масштабируемости и эффективности. Для решения этих проблем Anthropic разработала новый подход, называемый "Конституционный ИИ". Этот метод обучает модель, учитывая набор правил и принципов, известных как "конституция", вместо того, чтобы полагаться только на обратную связь от человека.

Основные шаги в подходе Anthropic к Конституционному ИИ:

  1. Обучение с учителем: Модель обучается на самокритических запросах, предназначенных для получения вредного контента. Затем модель просят оценить свой ответ на основе принципов в конституции и переписать его соответствующим образом.

  2. Обучение с подкреплением: Модель генерирует пару ответов для каждого запроса в наборе данных вредных запросов. Затем модель просят выбрать ответ, который лучше всего соответствует конституционным принципам, создавая сгенерированный ИИ набор данных предпочтений. Этот набор данных объединяется с обратной связью от человека по полезности, и обучается модель предпочтений для присвоения баллов различным ответам.

  3. Обучение с подкреплением на основе обратной связи от ИИ: Модель, обученная на этапе обучения с учителем, затем дообучается с помощью обучения с подкреплением против модели предпочтений, в результате чего получается политика, обученная с помощью обучения с подкреплением на основе обратной связи от ИИ.

Исследователи обнаружили, что модели, обученные с использованием этого подхода Конституционного ИИ, значительно менее вредны, чем модели, обученные только на основе обучения с подкреплением с обратной связью от человека или обучения с учителем с Конституционным ИИ. Эти модели также редко уклоняются от ответа и могут объяснить, почему они избегают ответа на вредный запрос.

Основной вывод из этого исследования - это потенциал для направления генерации моделей естественного языка к этическим ценностям с помощью явных заявлений и запросов, а также возможность обучения моделей предпочтений и вознаграждения практически без участия человека, при этом единственными необходимыми аннотациями человека будут написание принципов и несколько примеров.

Исследование по конституционному ИИ подчеркивает потенциал для направления моделей естественного языка к этическим ценностям с помощью явных заявлений и запросов. Основные выводы:

  • Подход конституционного ИИ обучает модель с использованием набора правил и принципов, стремясь создать помощника ИИ, который будет полезным, честным и безвредным.
  • Двухэтапный процесс включает обучение с учителем для создания самокритических запросов, за которым следует обучение с подкреплением с использованием сгенерированных ИИ данных предпочтений.
  • Модели, обученные с помощью обучения с подкреплением на основе конституционного ИИ, значительно менее вредны и редко уклоняются от ответа, могут объяснить свои возражения против вредных запросов.
  • Этот подход демонстрирует возможность обучения моделей естественного языка этическим ценностям с минимальным участием человека, необходимым только для определения принципов и предоставления примерных запросов.
  • Обучение с подкреплением на основе обратной связи от ИИ может быть многообещающим направлением для разработки безопасных и согласованных моделей естественного языка.

Часто задаваемые вопросы