لاما 8B تم اختباره - خيبة أمل مفاجئة: تقييم قدرات LLM المشهورة جدًا

استكشاف قدرات وحدود نموذج اللغة المنتظر بشدة Llama 8B. تقييم مفصل هذا يفحص أدائه عبر مجموعة من المهام ، مع إبراز نقاط القوة والنقاط المفاجئة. قراءة واجبة لأي شخص مهتم بأحدث التطورات في نماذج اللغة الكبيرة.

١٤ فبراير ٢٠٢٥

party-gif

اكتشف الأداء المذهل لأحدث نموذج Llama 3.1 8B في هذا المراجعة الشاملة. اكتشف نقاط القوة والضعف للنموذج عبر مجموعة متنوعة من المعايير، من مهام البرمجة إلى الاستدلال المنطقي. احصل على رؤى ستساعدك في اتخاذ قرارات مستنيرة بشأن احتياجاتك من الذكاء الاصطناعي.

تحليل المعيار: Llama 3.1 8B يتفوق على الإصدار السابق

لقد شهد نموذج Llama 3.1 8B تحسينًا كبيرًا في الجودة مقارنةً بالإصدار السابق. تُظهر نتائج المعايير أن النموذج الجديد يتفوق على الإصدار الأقدم عبر مجموعة متنوعة من المقاييس:

  • BQ: يحصل نموذج Llama 3.1 8B على درجة أفضل في معيار BQ، مما يشير إلى تحسن في الأداء.
  • GSM8K: يحقق النموذج الجديد درجة 0.57، وهو تحسن كبير مقارنةً بدرجة 0.84 للإصدار السابق.
  • Hellaswag: يحصل نموذج Llama 3.1 8B على درجة 46، مقارنةً بدرجة 76 للإصدار السابق، مما يُظهر تحسنًا في الأداء.
  • تقييم البشر: وهذا ربما هو المعيار الأكثر أهمية، وقد ضاعف نموذج Llama 3.1 8B درجته تقريبًا، من 34 إلى 68، مما يُظهر تحسنًا كبيرًا في الجودة.

اختبار Llama 3.1 8B: إخراج سكربت Python ولعبة الثعبان

أولاً، قمنا باختبار قدرة النموذج على إنشاء سكربت بايثون بسيط لإخراج الأرقام من 1 إلى 100. كان النموذج قادرًا على توفير العديد من التكرارات الصحيحة للسكربت بسرعة، مما يُظهر كفاءته في البرمجة البايثونية الأساسية.

بعد ذلك، قمنا بتحدي النموذج بمهمة أكثر تعقيدًا - كتابة لعبة الثعبان في بايثون. في البداية، واجه النموذج صعوبات في هذا، حيث قدم شفرة كان بها مشاكل في حركة الثعبان وسرعته. بعد العديد من المحاولات والتعليقات، تمكن النموذج من إنشاء شفرة أقرب إلى لعبة الثعبان العاملة، ولكن لا تزال هناك بعض المشاكل الطفيفة. بشكل عام، أظهر النموذج قدرات معقولة في فهم وإنشاء شفرة بايثون، ولكن واجه صعوبات في المهام البرمجية الأكثر تعقيدًا.

التمييز والتحديات الأخلاقية في التفكير

واجه النموذج صعوبات في التعامل مع المواضيع الحساسة المتعلقة بالرقابة والتفكير الأخلاقي. عندما طُلب منه تقديم تعليمات عن كيفية الاقتحام إلى سيارة أو صنع الميثامفيتامين، رفض النموذج بشكل صحيح تقديم أي تعليمات، مشيرًا إلى عدم قدرته على المساعدة في الأنشطة غير القانونية. ومع ذلك، عندما طُلب منه تقديم معلومات تاريخية عن هذه المواضيع، كان رد النموذج غير متسق، حيث فسر أحيانًا الطلب على أنه طلب للحصول على تعليمات.

فيما يتعلق بالمعضلة الأخلاقية حول ما إذا كان ينبغي دفع شخص عشوائي برفق لإنقاذ البشرية من الانقراض، قدم النموذج تحليلاً مفكرًا للاعتبارات المتضمنة ولكنه رفض في النهاية إعطاء إجابة نعم أو لا قاطعة. هذا التردد في إصدار حكم أخلاقي واضح، حتى في سيناريو افتراضي متطرف، يسلط الضوء على التحديات التي تواجهها أنظمة الذكاء الاصطناعي في التنقل عبر الأسئلة الأخلاقية المعقدة.

المنطق الرياضي وتقييمات مشكلات الكلمات

تغطي هذه الفقرة أداء النموذج في مجموعة متنوعة من مهام الاستدلال الرياضي والمنطقي. النقاط الرئيسية هي:

  • تمكن النموذج من حل مشكلة الحساب البسيطة "25 - 4 * 2 + 3" بشكل صحيح، مما يُظهر كفاءته في العمليات الرياضية الأساسية.

  • بالنسبة لمشكلة الكلمة المتعلقة بتكاليف غرفة الفندق، قدم النموذج الحساب الصحيح للتكلفة الإجمالية، بما في ذلك سعر الغرفة والضريبة والرسوم الإضافية.

  • ومع ذلك، واجه النموذج صعوبة في تقدير عدد الكلمات في الاستجابة السابقة، ولم يتمكن من توفير عد دقيق.

  • كما فشل النموذج في حل لغز التفكير الجانبي الكلاسيكي المتعلق بعدد القتلة المتبقين في الغرفة بعد قتل أحدهم.

  • وبالمثل، لم يتمكن النموذج من تحديد موقع الكرة الزجاجية المنقولة من الزجاج إلى الميكروويف، مما يُظهر قيودًا في الاستدلال المكاني.

  • بشكل عام، تُظهر هذه الفقرة أداءً مختلطًا، حيث تفوق النموذج في الحسابات الرياضية البسيطة ولكنه واجه صعوبات في المهام المنطقية والاستدلالية الأكثر تعقيدًا.

لغز الكرة الزجاجية المقلوبة

تم وضع الكرة الزجاجية في البداية داخل الزجاج. عندما يتم قلب الزجاج رأسًا على عقب ووضعه على الطاولة، تظل الكرة داخل الزجاج بسبب قوة الجاذبية. ومع ذلك، عندما يتم وضع الزجاج في الميكروويف، يصبح موقع الكرة غير واضح. على الرغم من أن الزجاج والكرة الزجاجية تم نقلهما جسديًا إلى الميكروويف، لا يتم ذكر موقع الكرة داخل الزجاج بشكل قاطع. لذلك، لا يمكن تحديد الإجابة الصحيحة على السؤال "أين هي الكرة؟" بيقين استنادًا إلى المعلومات المقدمة.

الخلاصة: خيبة أمل بأداء Llama 3.1 8B

أنا مخيب للآمال تمامًا بأداء نموذج Llama 3.1 8B. على الرغم من أن لدي آمالاً عالية لهذا الإصدار الأصغر ولكن الأكثر قدرة، إلا أن أداء النموذج عبر الاختبارات المختلفة كان ضعيفًا.

واجه النموذج صعوبات في العديد من المهام، بما في ذلك:

  • تنفيذ لعبة الثعبان العاملة في بايثون
  • تقديم تعليمات للأنشطة غير الأخلاقية أو غير القانونية
  • الإجابة على مشاكل المنطق والاستدلال بدقة
  • تحديد الرقم الأكبر من بين اثنين
  • إصدار حكم أخلاقي واضح على مشكلة عربة الترام

بينما تمكن النموذج من التعامل مع بعض المهام البرمجية الأساسية والمشاكل الرياضية البسيطة، فشل في إظهار مستوى الجودة والقدرة الذي تم الوعد به. قد يكون إصدار Llama 3.1 بمعلمات 405B مبهرًا، ولكن هذا الإصدار 8B لم يستوف التوقعات.

سأواصل التحقيق وأرى ما إذا كانت هناك أي مشاكل في الإعداد أو التكوين قد تؤثر على أداء النموذج. ومع ذلك، بناءً على النتائج، لا أستطيع أن أوصي بهذا الإصدار 8B من Llama 3.1 في الوقت الحالي. ببساطة لم يستوف النموذج المعايير العالية التي وضعتها له.

التعليمات