نموذج الذكاء الاصطناعي للصوت الرائد لشركة Kyutai يعيد تعريف الذكاء الاصطناعي التفاعلي

نموذج الذكاء الاصطناعي الصوتي الرائد لشركة Kyutai، Moshi، يعيد تعريف الذكاء الاصطناعي التفاعلي بقدرته على التعبير عن أكثر من 70 حالة عاطفية، وأساليب التحدث، والقدرات متعددة اللغات. هذا الإطار الذكي المتعدد الوسائط والمتعدد التيارات يدفع بحدود التفاعلات في الوقت الحقيقي، مقدمًا تجربة محادثة سلسة وشبيهة بالبشر.

١٤ فبراير ٢٠٢٥

party-gif

اكتشف مستقبل المحادثات المدعومة بالذكاء الاصطناعي مع تقنية "VOICE AI" الرائدة من Kyutai. يوفر هذا النموذج المتطور تفاعلات واقعية ، وقدرات متعددة الوسائط سلسة ، وتعبير عاطفي لا مثيل له ، مما يعيد تعريف الطريقة التي نتفاعل بها مع المساعدات الذكية.

قدرات موشي المвпечатляющة: من المشاعر إلى اللهجات

موشي هو نموذج ذكاء اصطناعي مذهل يمكنه التعبير عن مجموعة واسعة من المشاعر وأساليب الكلام. إن قدراته حقًا مذهلة:

  • يمكن لموشي التحدث بأكثر من 70 عاطفة مختلفة، من الهمس إلى الشعور بالرعب، ويمكنه حتى تقليد قرصان أو التحدث بلهجة فرنسية.
  • يستطيع النموذج الاستجابة في الوقت الفعلي، والمشاركة في محادثات طبيعية والتكيف مع نبرته ولغته حسب الموقف.
  • محرك النص إلى كلام لدى موشي متطور للغاية، مما ينتج صوتًا واقعيًا يمزج بشكل سلس بين العاطفة والشخصية.
  • تم تدريب النموذج على مجموعة بيانات متنوعة، مما يسمح له بالتعامل مع مجموعة متنوعة من المواضيع والمهام، من تلاوة الشعر إلى مناقشة الأحداث الجارية.
  • الطبيعة المتعددة الوسائط لموشي، والتي تجمع بين المخرجات الصوتية والنصية، تعزز قدرته على التواصل بفعالية وتقديم استجابات شاملة.
  • تم تحقيق الأداء المذهل للنموذج من خلال تقنيات تدريب مبتكرة، بما في ذلك استخدام الحوارات الاصطناعية لضبط قدرات المحادثة لدى موشي.

بشكل عام، يمثل موشي اختراقًا كبيرًا في مجال الذكاء الاصطناعي التفاعلي، مما يضع معيارًا جديدًا للتفاعلات الطبيعية والمشاركة والتعبيرية العاطفية.

التغلب على قيود مناهج الذكاء الاصطناعي للصوت الحالية

تواجه الأساليب الحالية للذكاء الاصطناعي الصوتي محدودين رئيسيين كان على CAAI معالجتهما في تطوير موشي:

  1. التأخير: يؤدي الأنبوب المعقد من نماذج منفصلة إلى تأخير من 3 إلى 5 ثوان بين إدخال المستخدم والاستجابة من النظام. وهذا يمكن أن يكون مزعجًا للغاية لتجربة محادثة حية.

  2. فقدان المعلومات غير النصية: من خلال المرور عبر عنق الزجاجة النصي، يفقد النظام جميع المعلومات غير النصية مثل العاطفة والنبرة وإشارات التواصل الموجودة في الكلام الأصلي.

للتصدي لهذه القيود، اتبع CAAI نهجًا مختلفًا. بدلاً من استخدام أنبوب معقد من نماذج منفصلة، قاموا بتصميم "نموذج لغة صوتي" واحد قائم على شبكة عصبية عميقة. يتم تدريب هذا النموذج مباشرة على بيانات الكلام المعلمة، دون التمثيل النصي الوسيط.

من خلال ضغط إدخال الكلام إلى تمثيل "شبه كلمة" مضغوط، يمكن لنموذج اللغة الصوتية تعلم أنماط وبنية الكلام، على غرار كيفية تعلم نماذج لغة النص من النص. وهذا يسمح للنموذج بتوليد استجابات تحافظ على ثراء الكلام الأصلي، دون التأخير الناتج عن النهج القائم على النص.

الاختراقات في تطوير موشي: التعددية الوسائطية والتعددية والقابلية للتكيف

تتمثل الاختراقات الرئيسية في تطوير موشي، نموذج الذكاء الاصطناعي التفاعلي المتقدم، في:

  1. التعددية: يمكن لموشي ليس فقط الاستماع وتوليد الصوت، ولكن لديه أيضًا أفكارًا نصية يتم عرضها على الشاشة أثناء المحادثة. يسمح هذا له باستخدام كفاءة وصغر حجم النص المكتوب جنبًا إلى جنب مع ثراء الصوت لتقديم استجابات أفضل وأسرع.

  2. التدفق المتعدد: يعمل موشي مع تيارين صوتيين متوازيين، مما يسمح له بالتحدث والاستماع في نفس الوقت. هذا يمكّن من محادثات أكثر طبيعية مع تداخل الكلام والانقطاعات والتبادل السلس، مما يجعل التفاعل أكثر إنسانية.

  3. القابلية للتكيف: ليس موشي مجرد نموذج ذكاء اصطناعي تفاعلي، ولكنه إطار عمل مرن يمكن تكييفه مع مهام وحالات استخدام مختلفة. أظهر الفريق قدرة موشي على المشاركة في مناقشة من التسعينيات/الألفينيات، مما يبرز مرونته والإمكانات للتفاعل مع البيانات من فترات زمنية مختلفة.

مكنت هذه الاختراقات الرئيسية، التي تحققت من قبل فريق موشي في غضون 6 أشهر فقط بفريق صغير مكون من 8 أشخاص، من إنشاء نظام ذكاء اصطناعي تفاعلي واقعي واستجابي للغاية يمكن أن يوفر تجربة تفاعل غامرة وطبيعية.

محرك النص إلى الكلام وتركيب الصوت في موشي

إن أحد أكثر الأشياء المذهلة عن موشي هو أنه ليس مجرد نوع من نماذج الذكاء الاصطناعي، ولكن محرك نص إلى كلام له أكثر من 70 عاطفة مختلفة يمكن الوصول إليها. باستخدام البيانات المسجلة، تمكن الفريق من تدريب محرك نص إلى كلام يمكن أن يدعم أكثر من 70 عاطفة أو أسلوب تحدث مختلف.

لعرض قدرات هذا محرك نص إلى كلام، قام الفريق بتشغيل بعض عينات الصوت المولدة. أظهرت العينات قدرة موشي على التعبير عن مجموعة واسعة من المشاعر، من الهمس إلى الغناء، وحتى تقليد قرصان أو التحدث بلهجة فرنسية. هذا يبرز المرونة المذهلة والجودة الواقعية لقدرات توليد الصوت لدى موشي.

شرح الفريق أن محرك نص إلى كلام هذا تم تطويره داخليًا، مما سمح لهم بضبطه تحديدًا لاحتياجات موشي. من خلال العمل مع فنانة الصوت المسماة آليس، تمكنوا من تسجيل مختلف الحوارات والحوارات، والتي تم استخدامها لتدريب نموذج نص إلى كلام. يضمن هذا النهج أن يكون لموشي صوت ثابت وطبيعي الصوت عبر جميع التفاعلات.

بشكل عام، محرك نص إلى كلام لدى موشي هو إنجاز مذهل، مما يظهر قدرة الفريق على دفع حدود ما هو ممكن في توليد الصوت والتعبير العاطفي. هذه القدرة، جنبًا إلى جنب مع الاختراقات الأخرى لموشي، هي ما يجعل هذا النموذج حقًا ثوريًا ويُعد بتغيير مشهد الذكاء الاصطناعي التفاعلي.

تدريب موشي: من النص فقط إلى الذكاء الاصطناعي التفاعلي

يمكن تلخيص الاختراقات الرئيسية في تدريب موشي، نموذج الذكاء الاصطناعي التفاعلي المتقدم، على النحو التالي:

  1. التعددية: يمكن لموشي ليس فقط توليد الصوت، ولكن أيضًا إنتاج أفكار نصية مصاحبة. يسمح هذا النهج الهجين الذي يجمع بين الصوت والنص بتدريب أكثر كفاءة وفعالية، مما يؤدي إلى استجابات أفضل.

  2. التفاعل متعدد التيارات: يتمتع موشي بالقدرة على الاستماع والتحدث في نفس الوقت، مما يمكّن من تدفق محادثة طبيعي مع تداخل الكلام والانقطاعات والتبادل السلس، مثل المحادثات البشرية.

  3. توليد البيانات الاصطناعية: للتغلب على تحدي البيانات المحدودة للمحادثات الحقيقية، طور الفريق تقنيات لتوليد حوارات اصطناعية. هذا سمح لهم بضبط قدرات المحادثة لدى موشي بشكل أكبر من نموذج اللغة النصي الأولي.

  4. تخصيص الصوت: من خلال العمل مع فنانة الصوت المحترفة آليس، تمكن الفريق من إضفاء صوت ثابت وطبيعي الصوت على موشي عبر التفاعلات، مما عزز تجربة المستخدم بشكل أكبر.

  5. النشر على الجهاز: تم تصميم نموذج موشي ليكون صغير الحجم نسبيًا، مما يمكّن نشره وتشغيله مباشرة على الأجهزة، مما يضمن الخصوصية والاستجابات منخفضة التأخير دون الحاجة إلى اتصال بالسحابة.

  6. اعتبارات السلامة: مع الاعتراف بالإمكانية المحتملة للاستخدام السيئ، نفذ الفريق ضمانات، مثل التعليم المائي للصوت وتتبع التوقيع، للكشف والتخفيف من توليد محتوى شبيه بموشي لأغراض خبيثة.

مكنت هذه التطورات في التدريب والنشر موشي من تحقيق مستوى ملحوظ من القدرة التفاعلية، مع المزج السلس للصوت والنص والتفاعل المتعدد الوسائط لتوفير تجربة مستخدم غامرة وطبيعية حقًا.

تشغيل موشي محليًا على الجهاز

أحد الاختراقات الرئيسية مع موشي هو قدرته على العمل محليًا على جهاز، دون الحاجة إلى اتصال بالإنترنت. هذا تقدم كبير، حيث يعالج المخاوف المتعلقة بالخصوصية والتأخير التي عانت منها أنظمة الذكاء الاصطناعي الصوتية السابقة.

قام فريق CAAI بعرض هذه القدرة من خلال تشغيل موشي على MacBook Pro قياسي، مع تعطيل اتصال الإنترنت. قاموا بتشغيل تطبيق موشي، وتمكنوا من المشاركة في محادثة في الوقت الفعلي مع المساعد الذكي AI، دون أي تأخير ملحوظ.

يتم تمكين هذا التنفيذ على الجهاز بفضل حجم النموذج النسبي الصغير لموشي، والذي شدد الفريق على إمكانية ضغطه بشكل أكبر للنشر على الأجهزة المحمولة. من خلال تشغيل النموذج محليًا، يمكن لموشي توفير تجربة محادثة أكثر سلاسة وخصوصية، دون الحاجة إلى إرسال بيانات الصوت إلى خادم بعيد. ناقش الفريق أيضًا أهمية السلامة والتطوير المسؤول لمثل هذه الأنظمة الذ

التعليمات