معايير عالية: نموذج Smaug 70B LLaMA 3 المحسن يهيمن

اكتشف كيف يهيمن Smaug، وهو نموذج LLaMA 3 مرتب بدقة بقيمة 70B، على المعايير المرجعية، متفوقًا على GPT-4 Turbo. استكشف قدراته المвпечатляющة، بما في ذلك مهام البرمجة والاستدلال، في هذا التحليل المعمق.

١٥ فبراير ٢٠٢٥

party-gif

اكتشف قوة نموذج LLaMA 3 المحسن، Smaug 70b، حيث يهيمن على المعايير المرجعية ويتفوق حتى على GPT-4 Turbo. استكشف قدرات هذا النموذج المفتوح المصدر وشاهد كيف يمكنه التعامل مع مجموعة متنوعة من المهام، من البرمجة إلى حل المشكلات، في هذا التحليل الشامل.

سماوغ 70b يهيمن على المعايير المرجعية

وفقًا لبيندو ، الرئيس التنفيذي لشركة Abacus AI ، فإن نموذج Smaug 70b أفضل بكثير من النموذج المفتوح المصدر السابق ، LLaMA 37b. يتفوق Smaug 70b على LLaMA 37b و GPT-4 Turbo في مختلف المعايير ، بما في ذلك MT bench و Arena hard scores.

حصل نموذج Smaug 70b على درجة 56.7 في MT bench ، بينما حصل LLaMA 37b على درجة 41.1. هذا يُظهر التحسن في القدرة على التفكير والأداء لنموذج Smaug 70b مقارنة بسابقه.

لاختبار النموذج بشكل أكبر ، قام المؤلف بتنزيل إصدار مكمّم من نموذج Smaug بحجم 7 مليار معلمة وتشغيله محليًا باستخدام LM Studio. كان النموذج الأصغر قادرًا على إنشاء لعبة Snake بنجاح ، مما يُظهر مرونته وأدائه.

ثم انتقل المؤلف إلى اختبار الإصدار الأكبر من نموذج Smaug بحجم 70 مليار معلمة على Abacus.com. تمكن النموذج من إكمال مهام مختلفة ، مثل إخراج الأرقام من 1 إلى 100 وحل المشكلات الرياضية البسيطة. ومع ذلك ، واجه صعوبات في المهام الأكثر تعقيدًا ، مثل إنشاء لعبة Snake باستخدام مكتبة Curses أو تقديم حل خطوة بخطوة لغز منطقي.

على النقيض من ذلك ، كان الإصدار الأصغر بحجم 7 مليار معلمة مكمّم أداؤه أفضل في هذه المهام الأكثر تعقيدًا ، مما يسلط الضوء على الفوائد المحتملة لاستخدام نموذج أصغر وأكثر تحسينًا لبعض التطبيقات.

بشكل عام ، يُظهر نموذج Smaug 70b أداءً مвпечатляющًا في مختلف المعايير ، متفوقًا على النموذج السابق LLaMA 37b. ومع ذلك ، تشير اختبارات المؤلف إلى أن الإصدار الأصغر والمكمّم من النموذج قد يكون أكثر ملاءمة لبعض الحالات الاستخدامية ، خاصةً عند التشغيل المحلي.

اختبار النماذج: سكربت بايثون ولعبة الثعبان

يشير النص المكتوب إلى أن المؤلف اختبر إصدارين من نموذج Smog ، إصدارًا بحجم 70 مليار معلمة غير مكمّم وإصدارًا بحجم 7 مليار معلمة مكمّم ، على مهام مختلفة. فيما يلي ملخص للنقاط الرئيسية:

  • اختبر المؤلف أولاً قدرة كلا النموذجين على إخراج الأرقام من 1 إلى 100 في سكربت بايثون ، وتمكن كلا النموذجين من القيام بذلك بنجاح.
  • بعد ذلك ، اختبر المؤلف قدرة النماذج على إنشاء لعبة Snake في بايثون. تمكن النموذج الأصغر بحجم 7 مليار معلمة مكمّم من إنشاء لعبة Snake عاملة من المحاولة الأولى ، بينما واجه الإصدار الأكبر بحجم 70 مليار معلمة مشاكل ولم يتمكن من إنشاء لعبة عاملة.
  • حاول المؤلف بعد ذلك الحصول على النموذج الأكبر لإنشاء لعبة Snake باستخدام مكتبة pygame ، ولكن لم ينجح في هذه المهمة أيضًا.
  • استنتج المؤلف أن النموذج الأصغر المكمّم أدى أداءً أفضل في مهمة لعبة Snake مقارنةً بالإصدار الأكبر غير المكمّم.

بشكل عام ، تشير النتائج إلى أن النموذج الأصغر المكمّم كان أكثر قدرة على التعامل مع بعض المهام البرمجية ، مثل إنشاء لعبة Snake عاملة ، مقارنةً بالإصدار الأكبر غير المكمّم من نموذج Smog.

حل المشكلات الرياضية والمشكلات اللفظية

أظهر النموذج أداءً جيدًا في مجموعة متنوعة من المشكلات الرياضية واللفظية ، مما يُظهر قدراته في الاستدلال الكمي وحل المشكلات. بعض النقاط البارزة:

  • تمكن النموذج من حل مشكلات حسابية بسيطة مثل "25 - 4 * 2 + 3" وتقديم التفسير الخطوة بخطوة.
  • بالنسبة لمشكلة كلامية تتعلق بتكاليف الفندق ، حدد النموذج الصيغة الصحيحة لحساب التكلفة الإجمالية ، بما في ذلك الضرائب والرسوم.
  • عندما طُلب منه شرح المنطق لغز صعب عن القتلة في غرفة ، قدم النموذج المحلي الأصغر استجابة أكثر فهمًا ودقة مقارنةً بالإصدار الأكبر القائم على السحابة.
  • تفوق النموذج المحلي الأصغر أيضًا على الإصدار الأكبر في مشكلة تناسبية بسيطة عن تجفيف القمصان.
  • تعامل كلا النموذجين بنجاح مع المهام البرمجية الأساسية مثل توليد تسلسل من الأرقام وبناء لعبة Snake بسيطة.

بشكل عام ، تُظهر النتائج قدرات قوية للنموذج في الاستدلال الرياضي وحل المشكلات ، حيث تفوق النموذج المحلي الأصغر أحيانًا على الإصدار الأكبر القائم على السحابة. هذا يشير إلى أنه يمكن تحقيق استدلال كمي عالي الجودة حتى مع نشر نماذج أكثر كفاءة وصغرًا.

تحليل الكرة الزجاجية في سيناريو الكوب

سيناريو الكرة في الكوب هو لغز منطقي كلاسيكي يختبر القدرة على التفكير في العالم المادي والاستنتاجات المنطقية. في هذه الحالة ، ينطوي السيناريو على وضع كرة في كوب زجاجي ، وقلب الكوب رأسًا على عقب ووضعه على طاولة ، ثم رفع الكوب ووضعه في الميكروويف.

المفتاح لحل هذا اللغز هو فهم أن موقع الكرة بالنسبة إلى الكوب لا يتغير طوال الإجراءات المذكورة. على الرغم من أن الكوب يتم قلبه رأسًا على عقب وتحريكه ، تظل الكرة في أسفل الكوب ، والذي يواجه الآن لأعلى.

عندما يتم وضع الكوب في الميكروويف ، لا تزال الكرة داخل الكوب ، حيث لم تؤد الإجراءات المنفذة إلى خروج الكرة من الكوب. هذا هو الجواب الصحيح ، حيث تظل الكرة في نفس الموضع داخل الكوب طوال تسلسل الأحداث.

تحديد موقع الكرة

سيفترض جون ، الذي وضع الكرة في الصندوق قبل الذهاب إلى العمل ، أن الكرة لا تزال في الصندوق.

سيفترض مارك ، الذي وضع الكرة في السلة بينما كان جون بعيدًا ، أن الكرة في السلة.

نظرًا لأن كل من جون ومارك لديهما افتراضات مختلفة حول موقع الكرة ، فإن الموقع النهائي للكرة غير واضح بناءً على المعلومات المقدمة.

صياغة جمل تنتهي بكلمة 'تفاحة'

هنا جسم القسم بتنسيق markdown:

تمكن النموذج الأكبر من توليد 10 جمل جميعها تنتهي بكلمة "Apple":

  1. كان التفاح المقرمش واللذيذ متعة للأكل.
  2. ألقى جون التفاحة الناضجة في السلة.
  3. كان شجرة التفاح في الفناء الخلفي مليئة بالثمار.
  4. قطعت التفاحة وأضافتها إلى السلطة.
  5. امتلأت المطبخ برائحة لذيذة من فطيرة التفاح الدافئة.
  6. قدمت المعلمة تفاحة حمراء لامعة لكل طالب.
  7. كان التفاح المغطى بالكراميل وجبة شعبية في معرض المقاطعة.
  8. كان عصير التفاح المرافق المثالي لأوراق الخريف.
  9. رقصت بتلات زهرة التفاح في النسيم الخفيف.
  10. أخذ الصبي الصغير لدغة متحمسة من التفاحة الخضراء.

على النقيض من ذلك ، تمكن النموذج الأصغر الذي يعمل محليًا من توليد 7 جمل فقط من أصل 10 تنتهي بكلمة "Apple".

حساب وقت الحفر لحفرة بعمق 10 أقدام

هنا جسم القسم بتنسيق markdown:

لحساب الوقت اللازم لـ 50 شخصًا لحفر حفرة واحدة بعمق 10 أقدام ، يمكننا استخدام نهج تناسبي:

  • يستغرق شخص واحد 5 ساعات لحفر حفرة بعمق 10 أقدام
  • وبالتالي ، سيستغرق 50 شخصًا 1/50 من الوقت ، أي 6 دقائق

التفكير هو كما يلي:

  • إذا استغرق شخص واحد 5 ساعات ، فسيستغرق 50 شخصًا 1/50 من ذلك الوقت ، أي 5 ساعات / 50 = 0.1 ساعات = 6 دقائق.
  • وقت الحفر عكسي مع عدد الأشخاص ، لذلك مضاعفة عدد الأشخاص يقلل من وقت الحفر إلى النصف.

وبالتالي ، سيستغرق 50 شخصًا 6 دقائق لحفر حفرة واحدة بعمق 10 أقدام.

الخاتمة

أدى الإصدار الأصغر بحجم 7 مليار معلمة مكمّم من نموذج Smog أداءً مذهلاً ، حيث تطابق أو تفوق أحيانًا على الإصدار الأكبر بحجم 70 مليار معلمة غير مكمّم. بينما تفوق النموذج الأكبر في مهام مثل توليد جمل تنتهي بـ "Apple" ، تمكن النموذج الأصغر من التعامل مع مجموعة متنوعة من التحديات الأخرى ، بما في ذلك المشكلات الرياضية والألغاز المنطقية والمهام البرمجية.

هذا يشير إلى أنه بالنسبة للعديد من التطبيقات العملية ، قد يكون النموذج الأصغر المكمّم خيارًا قابلاً للتطبيق وأكثر كفاءة مقارنةً بالإصدار الأكبر. إمكانية تشغيل نماذج لغة عالية الجودة محليًا هي ميزة كبيرة أيضًا ، حيث تسمح بمزيد من التحكم والشفافية وربما

التعليمات