إطلاق رؤية الذكاء الاصطناعي: Grok 1.5 يثور على الفهم المتعدد الوسائط

استكشف قدرات Grok 1.5 الرائدة في التعدد الوسائطي، بما في ذلك الرؤية والنص واستخراج البيانات. اكتشف كيف يثور هذا النموذج الذكاء الاصطناعي في فهم الصور والمخططات والبيانات الواقعية. انغمس في أداء المعايير المرجعية والتطبيقات العملية لتعزيز الإنتاجية واتخاذ القرارات.

٢٣ فبراير ٢٠٢٥

party-gif

اكتشف قوة Grok Vision، أول نموذج متعدد الوسائط من XAi، والذي يمكنه الآن رؤية وفهم الصور والمخططات وأكثر من ذلك. تقدم هذه التقنية المتطورة قدرات مвпечатляющие، بما في ذلك القدرة على توليد رمز Python العامل من المدخلات المرئية واستخراج البيانات من الصور الحقيقية. استكشف المعايير والأمثلة التي توضح إمكانات Grok Vision التحويلية.

أداء المعيار المвпечатляющ لقدرات Grok Vision المتعددة الوسائط

أظهر نموذج Grok 1.5 Vision الجديد أداءً مвпечатляющим على مجموعة متنوعة من المعايير البصرية. من بين السبعة معايير بصرية التي تم تقييمها، تفوق Grok على النماذج المتعددة الوسائط الحالية في ثلاثة منها، بما في ذلك Math Vista و Text Visual Q&A وحزمة بيانات Real World Q&A الجديدة. حتى على المعايير الأخرى، كان أداء Grok قريبًا جدًا من النماذج الرائدة الأخرى مثل GPT-4 و CLIP و Opus و Gemini Pro.

توليد رمز Python من المخططات

تُظهر الأمثلة المعروضة في المدونة قدرة Grok على ترجمة مخططات التدفق إلى شفرة Python قابلة للتشغيل، وحساب معلومات السعرات الحرارية من ملصقات التغذية، وإنشاء قصص بناءً على الصور، وحتى فهم الدعابة في الميمات. تُظهر هذه القدرات فهم Grok القوي للوسائط المتعددة، مما يتيح له معالجة المعلومات المرئية والنصية بسلاسة.

حساب السعرات الحرارية من ملصقات التغذية

يوسع إصدار حزمة بيانات Real World Q&A، والتي تتضمن صورًا من مصادر متنوعة، بما في ذلك المركبات، نطاق فهم Grok البصري. يمكن استخدام هذه الحزمة لتطوير وتقييم نماذج رؤية أخرى، مما يساهم في تقدم الذكاء الاصطناعي المتعدد الوسائط.

السرد والتعرف على الفكاهة مع الصور

بالرغم من أن العديد من قدرات Grok ليست جديدة تمامًا، إلا أن حقيقة أن منصة X قد أدمجت بنجاح هذه الوظائف في نموذج واحد أمر مвпечатляющ. مع توفر نموذج Grok 1.5 Vision للمختبرين المبكرين ومستخدمي Grok الحاليين، سيكون من المثير للاهتمام رؤية أدائه في التطبيقات الحقيقية ومقارنته بنماذج الوسائط المتعددة الأخرى المتطورة.

استخراج البيانات من الصور باستخدام مجموعة بيانات الأسئلة والأجوبة الجديدة في العالم الحقيقي

تشمل القدرات المвпечатляющة لـ Gro 1.5 Vision القدرة على إنشاء شفرة Python قابلة للتشغيل من صور مخططات القرار. تتيح هذه الميزة للمستخدمين ببساطة توفير صورة لمخطط، ويمكن للنموذج بعد ذلك ترجمة هذه المعلومات المرئية إلى شفرة Python قابلة للتنفيذ.

الخاتمة

أظهر نموذج Gro 1.5 Vision قدرات впечатляющة في فهم المعلومات المرئية ومعالجتها، بما في ذلك القدرة على استخراج البيانات من ملصقات التغذية. في أحد الأمثلة المقدمة، تمكن النموذج من تحديد السعرات الحرارية لكل شريحة ثم حساب إجمالي السعرات الحرارية لعدد مختلف من الشرائح.

أظهر نموذج Gro 1.5 Vision قدرات впечатляющة في فهم المعلومات المرئية ومعالجتها. يمكن للنموذج الآن إنشاء قصص بناءً على الصور وحتى التعرف على الدعابة في الميمات.

يُعد إصدار حزمة بيانات Real-World Q&A الجديدة من قبل منصة X موردًا قيمًا لتطوير وتجربة النماذج المرئية. تتكون هذه الحزمة من حوالي 1,700 صورة، بما في ذلك تلك التي تم التقاطها من المركبات، والتي يمكن استخدامها لتقييم قدرة النموذج على استخراج البيانات والمعلومات من المدخلات المرئية الحقيقية.

يُعد إعلان Gro 1.5 Vision، النموذج المتعدد الوسائط من الجيل الأول من منصة X، إنجازًا впечатляющًا في مجال الرؤية الحاسوبية ومعالجة اللغة الطبيعية. إن قدرة النموذج على فهم المعلومات المرئية ومعالجتها، بما في ذلك المخططات والمستندات والرسوم البيانية ولقطات الشاشة والصور الفوتوغرافية، هي حقًا مذهلة.

التعليمات