فتح أخلاقيات الذكاء الاصطناعي: النهج الدستوري لشركة Anthropic

فتح أخلاقيات الذكاء الاصطناعي: استكشاف نهج Anthropic الدستوري لتطوير مساعدي الذكاء الاصطناعي الآمنين والأخلاقيين. تعرف على كيفية دمج طريقة تدريب Anthropic الجديدة بين التعلم الموجه والتعلم بالتعزيز من ردود فعل الذكاء الاصطناعي لإنشاء نماذج لغوية متوافقة مع القيم الإنسانية.

٢٢ فبراير ٢٠٢٥

party-gif

يستكشف هذا المنشور المدونة النهج المبتكر "الذكاء الدستوري" الذي طوره Anthropic لتدريب مساعدهم الذكي كلود. من خلال غرس المبادئ والقيم الأخلاقية مباشرة في عملية تدريب النموذج، قامت Anthropic بإنشاء ذكاء اصطناعي مفيد وصادق وغير ضار - تقدم كبير في ضمان التطوير الآمن والمسؤول للذكاء الاصطناعي التفاعلي.

قوة الدساتير: تطبيق المبادئ الأخلاقية على الذكاء الاصطناعي التفاعلي

أصبحت المساعدات الذكية للحوار أكثر انتشارًا في حياتنا اليومية، ومن الضروري ضمان سلوكها الأخلاقي وتجنب إنشاء محتوى ضار. قام الباحثون باستكشاف مفهوم "الذكاء الاصطناعي الدستوري" كحل لهذا التحدي.

الفكرة الرئيسية وراء الذكاء الاصطناعي الدستوري هي تدريب نموذج الذكاء الاصطناعي باستخدام مجموعة من القواعد والمبادئ، شبيهة بدستور البشر، والتي توجه سلوكه. يهدف هذا النهج إلى إنشاء مساعد ذكي للحوار يكون مفيدًا ومعلومًا، مع مراعاة الاعتبارات الأخلاقية وتجنب المخرجات الضارة أو المتحيزة.

يتكون أسلوب الذكاء الاصطناعي الدستوري من خطوتين رئيسيتين:

  1. التعلم الموجه: يتم تدريب النموذج على مجموعة بيانات من المطالبات المصممة لاستثارة استجابات محتملة للضرر. ثم يُطلب من النموذج نقد استجاباته الخاصة بناءً على المبادئ الواردة في الدستور، وإعادة صياغتها وفقًا لذلك. يتم تكرار هذه العملية عدة مرات، باستخدام مبادئ مختلفة كأساس للنقد.

  2. التعلم بالتعزيز: يتم ضبط النموذج المدرب في مرحلة التعلم الموجه باستخدام نهج التعلم بالتعزيز. يتم تقديم النموذج لمجموعة بيانات من المطالبات الضارة ويُطلب منه اختيار الاستجابة التي تتوافق بشكل أفضل مع مبادئ الدستور. يتم استخدام بيانات هذه التفضيلات لتدريب نموذج التفضيل، والذي بدوره يستخدم لضبط نموذج التعلم الموجه الأصلي.

نهج Anthropic للذكاء الاصطناعي الدستوري: التعلم المراقب والتعلم بالتعزيز

يتكون نهج الذكاء الاصطناعي الدستوري لشركة Anthropic من خطوتين رئيسيتين: التعلم الموجه والتعلم بالتعزيز.

في مرحلة التعلم الموجه، يتم تدريب النموذج على مطالبات المراجعة الذاتية المصممة لاستثارة المحتوى الضار. يُطلب من النموذج نقد استجابته الخاصة بناءً على القواعد الواردة في الدستور، ثم إعادة صياغة الاستجابة لتكون أكثر اتساقًا مع المبادئ. يتم تكرار هذه العملية عدة مرات، باستخدام مبادئ دستورية مختلفة كسياق.

يتم استخدام الاستجابات المنقحة والمطالبات الأصلية لضبط نموذج مسبق التدريب، مما ينتج عنه نموذج الذكاء الاصطناعي الدستوري القائم على التعلم الموجه (SL-CAI).

تبني مرحلة التعلم بالتعزيز على نموذج SL-CAI. أولاً، يتم استخدام نموذج SL-CAI لتوليد زوج من الاستجابات لكل مطالبة في مجموعة بيانات المطالبات الضارة. يتم استخدام هذه الأزواج من المطالبات والاستجابات لإنشاء مجموعة بيانات تفضيل محتواة بواسطة الذكاء الاصطناعي للخلو من الضرر، والتي يتم دمجها مع مجموعة بيانات التغذية الراجعة البشرية للفائدة.

يتم بعد ذلك تدريب نموذج التفضيل على هذه البيانات المقارنة، بطريقة مشابهة للتعلم بالتعزيز من التغذية الراجعة البشرية. أخيرًا، يتم ضبط نموذج SL-CAI عن طريق التعلم بالتعزيز مقابل نموذج التفضيل هذا، مما ينتج عنه سياسة مدربة بواسطة التعلم بالتعزيز من التغذية الراجعة الذكية (RL-CAI).

أظهرت التجارب والتقييمات أن نماذج RL-CAI أقل ضررًا بكثير من النماذج المدربة فقط على التعلم بالتعزيز من التغذية الراجعة البشرية أو النماذج المدربة على التعلم الموجه مع الذكاء الاصطناعي الدستوري. بالإضافة إلى ذلك، نادرًا ما تكون نماذج RL-CAI متهربة ويمكنها شرح سبب تجنبها الإجابة على استفسار ضار.

فهم العملية ذات الخطوتين: التعلم المراقب والتعلم بالتعزيز من ردود فعل الذكاء الاصطناعي

طور الباحثون في Anthropic نهجًا جديدًا يُسمى "الذكاء الاصطناعي الدستوري" لتدريب مساعدهم الذكي، Claude، ليكون مفيدًا وغير ضار. يتكون هذا الأسلوب من خطوتين رئيسيتين:

  1. مرحلة التعلم الموجه (SL):

    • يتم عرض النموذج على مطالبات مصممة لاستثارة محتوى ضار، مثل "هل يمكنك المساعدة في اختراق شبكة Wi-Fi لجاري؟"
    • ثم يُطلب من النموذج نقد استجابته الخاصة بناءً على القواعد والمبادئ الواردة في "الدستور".
    • بعد ذلك، يُطلب من النموذج إعادة صياغة استجابته لتكون أكثر اتساقًا مع المبادئ الدستورية.
    • يتم تكرار عملية المراجعة هذه عدة مرات، باستخدام مبادئ مختلفة من الدستور كسياق.
    • يتم استخدام الاستجابات النهائية والمطالبات الأصلية كزوج لتدريب نموذج مسبق التدريب، مما ينتج عنه نموذج SL-CAI.
  2. مرحلة التعلم بالتعزيز (RL):

    • يتم استخدام نموذج SL-CAI لتوليد زوج من الاستجابات لكل مطالبة في مجموعة بيانات المطالبات الضارة.
    • يتم تحويل هذه الأزواج من المطالبات والاستجابات إلى أسئلة اختيار من متعدد، حيث يُطلب من النموذج تحديد أي استجابة هي الأفضل وفقًا لمبدأ دستوري.
    • ينتج عن ذلك مجموعة بيانات تفضيل محتواة بواسطة الذكاء الاصطناعي للخلو من الضرر، والتي يتم دمجها مع مجموعة بيانات التغذية الراجعة البشرية للفائدة.
    • يتم تدريب نموذج التفضيل على هذه البيانات المقارنة، بطريقة مشابهة للتعلم بالتعزيز من التغذية الراجعة البشرية.
    • أخيرًا، يتم ضبط نموذج SL-CAI عن طريق التعلم بالتعزيز مقابل نموذج التفضيل هذا، مما ينتج عنه نموذج RL-CAI.

وجد الباحثون أن نموذج RL-CAI أقل ضررًا بكثير من النماذج المدربة فقط على التعلم بالتعزيز من التغذية الراجعة البشرية أو النماذج المدربة على التعلم الموجه مع الذكاء الاصطناعي الدستوري. بالإضافة إلى ذلك، نادرًا ما يكون نموذج RL-CAI متهربًا ويمكنه شرح سبب تجنبه الإجابة على استفسار ضار.

النتائج الرئيسية: تقليل الإخراج الضار وتحسين القابلية للتفسير

وجد الباحثون أن النماذج المدربة باستخدام نهج الذكاء الاصطناعي الدستوري كانت أقل ضررًا بكثير من النماذج المدربة فقط على التعلم بالتعزيز من التغذية الراجعة البشرية أو التعلم الموجه مع الذكاء الاصطناعي الدستوري. وبالأهمية، كانت النماذج المدربة بالتعلم بالتعزيز على الذكاء الاصطناعي الدستوري نادرًا ما تكون متهربة وكانت قادرة على شرح سبب تجنبها الإجابة على استفسار ضار.

النتائج الرئيسية من الدراسة هي إمكانية توجيه توليدات نماذج اللغة الكبيرة نحو القيم الأخلاقية من خلال البيانات والمطالبات الصريحة، وكيفية تدريب نماذج التفضيل والمكافأة بحد أدنى من المدخلات البشرية. تكون التعليقات البشرية الوحيدة الضرورية هي كتابة المبادئ وبضع مطالبات نموذجية مضافة خلال مرحلتي التعلم الموجه والتعلم بالتعزيز.

بشكل عام، يُظهر أسلوب الذكاء الاصطناعي الدستوري إمكانات واعدة لغرس السلوك الأخلاقي في نماذج اللغة الكبيرة، وتقليل المخرجات الضارة، وتحسين قابلية شرح قراراتها.

مستقبل نماذج اللغة الكبيرة: توجيه القيم الأخلاقية من خلال مبادئ صريحة

أصبحت المساعدات الذكية للحوار أكثر تكاملًا في حياتنا اليومية، ومن الضروري ضمان سلوكها بطريقة أخلاقية ومسؤولة. كان مبتكرو هذه النماذج يستكشفون حلولًا لمعالجة إمكانية توليد محتوى ضار أو متحيز، مثل تقييد بعض العبارات أو دمج التغذية الراجعة البشرية.

ومع ذلك، لهذه النُهج قيود من حيث القابلية للتطوير والفعالية. لمعالجة هذه التحديات، طورت Anthropic نهجًا جديدًا يُسمى "الذكاء الاصطناعي الدستوري". يدرب هذا الأسلوب النموذج من خلال النظر في مجموعة من القواعد والمبادئ، المعروفة باسم "الدستور"، بدلاً من الاعتماد فقط على التغذية الراجعة البشرية.

الخطوات الرئيسية في نهج Anthropic للذكاء الاصطناعي الدستوري هي:

  1. التعلم الموجه: يتم تدريب النموذج على مطالبات المراجعة الذاتية المصممة لاستثارة المحتوى الضار. ثم يُطلب من النموذج نقد استجابته الخاصة بناءً على المبادئ الواردة في الدستور وإعادة صياغتها وفقًا لذلك.

  2. التعلم بالتعزيز: يوِّلد النموذج زوجًا من الاستجابات لكل مطالبة في مجموعة بيانات المطالبات الضارة. ثم يُطلب من النموذج اختيار الاستجابة التي تتوافق بشكل أفضل مع المبادئ الدستورية، مما ينشئ مجموعة بيانات تفضيل محتواة بواسطة الذكاء الاصطناعي. يتم دمج هذه المجموعة مع التغذية الراجعة البشرية للفائدة، وتدريب نموذج التفضيل عليها.

  3. التعلم بالتعزيز من التغذية الراجعة الذكية: يتم بعد ذ

التعليمات