توسيع سياق Llama-3 إلى أكثر من 1 مليون رمز: تأثير على الأداء

توسيع سياق Llama-3 إلى أكثر من 1 مليون رمز: استكشاف تأثير ذلك على الأداء. يستعرض هذا المنشور المدونة قدرات نموذج Llama-3 المحسن مع نافذة سياق تبلغ مليون رمز، وتحليل أدائه في المهام مثل استرداد المعلومات والاستدلال والمساعدة في البرمجة.

٢٤ فبراير ٢٠٢٥

party-gif

افتح قوة السياق الموسع باستخدام أحدث إصدار من Llama-3، والذي أصبح الآن قادرًا على التعامل مع ما يصل إلى 1 مليون رمز. اكتشف كيف يؤثر هذا التقدم على الأداء واستكشف إمكاناته كمساعد برمجة متعدد الاستخدامات وأداة استرداد المعلومات.

مزايا توسيع Llama-3 إلى أكثر من 1 مليون رمز

تُظهر النسخة الموسَّعة من Llama-3 مع نافذة سياق تصل إلى مليون رمز عدة مزايا:

  1. تحسين استرجاع المعلومات: تسمح النافذة السياقية الأكبر للنموذج باسترجاع المعلومات ذات الصلة بشكل أفضل من المدخلات المعطاة، كما هو موضح في النتائج المвпечатляющة على اختبار "الإبرة في كومة القش".

  2. تعزيز القدرات الاستدلالية: على الرغم من عدم تضمين النتائج لاسترجاع الحقائق المتعددة، فإن الأداء القوي للنموذج على استرجاع حقيقة واحدة يشير إلى تحسينات محتملة في قدراته الاستدلالية مقارنة بالنماذج ذات النوافذ السياقية الأصغر.

  3. التدريب الفعال: كان عملية تدريب نموذج Llama-3 الموسَّع نسبيًا سريعة، حيث تطلبت فقط 1.4 مليار رمز، وهو أقل من 0.1% من بيانات التدريب الأصلية لـ Llama-3. هذا النهج التدريبي الفعال هو شهادة على فعالية تقنية تحسين Rope Theta.

  4. تقليل متطلبات الذاكرة: يمكن تشغيل النسخة المكمَّمة بـ 4 بت من نموذج Llama-3 الموسَّع على أنظمة بسعة VRAM تبلغ 64 جيجابايت فقط، مما يجعله في متناول مجموعة أوسع من المستخدمين والباحثين.

  5. إمكانية تحسين الأداء: يحتمل أن يتفوق نموذج Llama-3 الموسَّع على النموذج الأصلي ذي 8 مليار معلمة في المهام التي تتطلب استرجاع المعلومات والاستدلال من المحتوى الطويل، مثل المساعدة في البرمجة واستخراج المعلومات.

بشكل عام، يمثل نموذج Llama-3 الموسَّع مع نافذة السياق الموسَّعة خطوة كبيرة إلى الأمام في تطوير نماذج اللغة الكبيرة، مما يُظهر فوائد الجهود المفتوحة المصدر في دفع حدود الإمكانات.

فهم اختبار الإبرة في كومة القش

يُعد اختبار "الإبرة في كومة القش" طريقة لتقييم قدرات الاستدلال والاسترجاع لنماذج اللغة الكبيرة (LLMs) مثل Lama 3. في هذا الاختبار، يتم وضع حقيقة أو بيان عشوائي في وسط سياق أكبر ("كومة القش")، ويُطلب من النموذج استرجاع هذا البيان.

يتضمن الاختبار تكرار أعماق المستندات وأطوال السياق المختلفة لقياس أداء النموذج. الرؤى الرئيسية من هذا الاختبار هي:

  1. حجم نافذة السياق: تسمح النوافذ السياقية الأكبر (على سبيل المثال، 128,000 رمز لـ GPT-4) للنموذج باسترجاع حقيقة واحدة بشكل أفضل، بغض النظر عن موقعها في السياق. ومع ذلك، مع زيادة حجم نافذة السياق، تبدأ دقة النموذج في استرجاع الحقائق المتعددة من السياق في التناقص.

  2. الاسترجاع مقابل الاستدلال: يسلط اختبار "الإبرة في كومة القش" الضوء على التبادل بين قدرات النموذج على الاسترجاع (العثور على حقيقة واحدة) وقدراته الاستدلالية (فهم واسترجاع حقائق متعددة). تحسن النوافذ السياقية الأكبر من الاسترجاع، ولكن قد تؤثر سلبًا على أداء النموذج الاستدلالي.

  3. أداء Lama 3: تؤدي النسخة الموسَّعة من Lama 3 مع نافذة سياق تبلغ مليون رمز بشكل جيد في مهمة استرجاع الحقيقة الواحدة، ولكن لم يتضمن المؤلفون نتائج لاسترجاع الحقائق المتعددة. هذه المعلومات ستكون قيمة لفهم قدرات النموذج بشكل كامل.

بشكل عام، يوفر اختبار "الإبرة في كومة القش" رؤى حول نقاط القوة والقيود في نماذج اللغة الكبيرة عند التعامل مع كميات كبيرة من المعلومات السياقية. وهو يسلط الضوء على أهمية التوازن بين قدرات الاسترجاع والاستدلال مع استمرار تطور هذه النماذج.

تدريب نموذج Llama-3 بأكثر من 1 مليون رمز

تم تطوير نموذج Llama-3 مع نافذة سياق تبلغ مليون رمز من خلال الجهود المفتوحة المصدر. كان لنموذج Llama-3 الأصلي نافذة سياق أصغر بكثير تبلغ 8,000 رمز، وهي أصغر بكثير مقارنة بنماذج اللغة الكبيرة الأخرى (LLMs) مثل Mistral 7B Instruct، والتي لديها نافذة سياق تبلغ 32,000 رمز.

تمكن الباحثون من توسيع نافذة سياق Llama-3 إلى مليون رمز باستخدام تقنية تُعرف باسم تحسين Rope Theta. هذا السماح لهم بتحقيق هذه الزيادة الكبيرة في حجم نافذة السياق مع الحد الأدنى من التدريب الإضافي، باستخدام فقط 1.4 مليار رمز، وهو أقل من 0.1% من بيانات التدريب الأصلية لـ Llama-3.

تضمن عملية التدريب زيادة تدريجية في حجم نافذة السياق، بدءًا من 65,000 رمز، ثم 260,000 رمز، وأخيرًا الوصول إلى مليون رمز. سمح هذا النهج التدريجي للباحثين بتدريب النموذج بكفاءة دون موارد حسابية مفرطة.

النتائج من هذا الجهد مвпечатляющة، خاصة في اختبار "الإبرة في كومة القش", حيث يُظهر النموذج أداءً قويًا في استرجاع حقيقة واحدة من نافذة السياق الكبيرة. ومع ذلك، لم يتضمن الباحثون نتائج لقدرة النموذج على استرجاع الحقائق المتعددة، وهي معلومات قيمة.

بالإضافة إلى ذلك، لم يقدم الباحثون مقارنة لأداء نموذج مليون رمز على المعايير المختلفة مقارنة بنموذج Llama-3 الأصلي. ستكون هذه المعلومات مفيدة لفهم التحسينات الشاملة التي تم تحقيقها من خلال نافذة السياق الموسَّعة.

بشكل عام، يُعد عمل المجتمع المفتوح المصدر على توسيع نافذة سياق نموذج Llama-3 خطوة كبيرة إلى الأمام في دفع حدود ما هو ممكن مع نماذج اللغة الكبيرة. يمكن أن يكون هذا النموذج أداة قيمة للمهام التي تتطلب استرجاع المعلومات من المحتوى الطويل، مثل استرجاع المعلومات والمساعدة في البرمجة.

تشغيل نموذج Llama-3 بأكثر من 1 مليون رمز محليًا

لتشغيل نسخة مليون رمز من نموذج Llama-3 محليًا، ستحتاج إلى استخدام تنفيذ Llama المقدم من فريق Anthropic، والمعروف باسم OLlama. فيما يلي الخطوات:

  1. قم بتثبيت OLlama على نظامك. يمكنك العثور على التعليمات في مقاطع الفيديو السابقة المذكورة في الوصف.

  2. قم بتنزيل نموذج Llama-3 Gradient مليون رمز. يمكنك العثور على الرابط في النص.

  3. قم بتشغيل أمر OLlama لتحميل النموذج:

    oma run Llama3-gradient
    

    سيقوم هذا بتنزيل النموذج للمرة الأولى، وقد يستغرق ذلك بعض الوقت.

  4. قم بتعيين نافذة السياق إلى الحجم المطلوب. في المثال، تم تعيين نافذة السياق إلى 256,000 رمز:

    /set_parameter context_window 256000
    

    تذكر أن متطلبات الذاكرة لتشغيل نموذج مليون رمز قد تزيد عن 100 جيجابايت من VRAM، لذا تأكد من أن نظامك لديه الموارد الكافية.

  5. اختبر قدرات النموذج من خلال محاولة أساليب مختلفة، مثل التحقق من السلوك غير المحجوب، والقدرات الاستدلالية، والمساعدة في البرمجة.

النقاط الرئيسية التي يجب تذكرها هي:

  • استخدم تنفيذ OLlama لتشغيل نموذج Llama-3 Gradient مليون رمز.
  • قم بتعيين نافذة السياق إلى الحجم المطلوب، والتي يمكن أن تؤثر بشكل كبير على أداء النموذج.
  • كن على دراية بالمتطلبات العالية للذاكرة لتشغيل هذا النموذج الكبير.
  • اختبر قدرات النموذج عبر مهام مختلفة لفهم نقاط القوة والقيود لديه.

تقييم أداء النموذج على مختلف المطالبات

تم اختبار أداء النموذج على مجموعة متنوعة من الأساليب لتقييم قدراته:

  1. الأساليب غير المحجوبة: كان النموذج نسبيًا غير محجوب مقارنة بالإصدارات السابقة، حيث رفض تقديم تعليمات لأنشطة غير قانونية مثل التسلل إلى سيارة. ومع ذلك، كان على استعداد لتقديم معلومات حول كيفية قتل عملية Linux، مما يُظهر قدرته على تقديم معلومات فنية.

  2. القدرات الاستدلالية: أداء النموذج جيد على مهام الاستدلال، حيث حدد بشكل صحيح أنه لا يوجد "سالي" في المشكلة المعطاة وحدد عدد الإخوة. كما تمكن أيضًا من إنشاء نكتة بسيطة، مما يُظهر قدراته الإبداعية.

  3. استرجاع المعلومات: أداء النموذج جيد على مهام استرجاع السياق القصير، حيث أجاب بدقة على الأسئلة بناءً على المعلومات المقدمة. ومع ذلك، عند اختباره على وثيقة طويلة تبلغ 27 صفحة مع بيان خارج السياق، فشل النموذج في استرجاع المعلومات غير ذات الصلة، وبدلاً من ذلك أنتج استجابات وهمية.

  4. المساعدة في البرمجة: تمكن النموذج من تحديد وتصحيح الأخطاء في برنامج Python بسيط، مما يُظهر إمكانياته المحتملة كمساع

التعليمات