استرداد المستندات الفعال باستخدام نماذج لغة الرؤية

اكتشف قوة نماذج لغة الرؤية للاسترداد الفعال للمستندات. هذا النهج المبتكر يتفوق على الطرق التقليدية ، مما يوفر القابلية للتفسير ويقلل من تعقيدات تحليل تنسيقات المستندات المتنوعة. تعرف على كيفية الاستفادة من هذه التقنية المتطورة لاحتياجات استرداد المعلومات الخاصة بك.

١٧ فبراير ٢٠٢٥

party-gif

اكتشف نهجًا ثوريًا لاسترداد المستندات الفعال يستفيد من نماذج لغة الرؤية. تتفوق هذه الطريقة المبتكرة على تقنيات الاسترداد القائمة على النص التقليدية ، وتوفر أداءً وقابلية للتفسير أفضل. استكشف كيف يمكن أن يحول هذا الحل الجديد عمليات إدارة المستندات واسترداد المعلومات الخاصة بك.

استكشاف تحديات أنظمة RAG

إحدى التحديات الرئيسية للأنظمة الحالية لـ RAG (Retrieval-Augmented Generation) هي صعوبة تحليل البيانات من تنسيقات مختلفة، مثل ملفات PDF وHTML وCSV. استخراج المعلومات من ملفات PDF، على وجه الخصوص، يمكن أن يكون عملية شاقة تنطوي على عدة خطوات:

  1. تشغيل نموذج التعرف على الحروف البصرية (OCR) لاستخراج النص من ملف PDF.
  2. تنفيذ نموذج كشف التخطيط لفهم هيكل الوثيقة.
  3. تقسيم النص المستخرج إلى قطع قابلة للإدارة.
  4. تضمين هذه القطع وتخزينها في متجر المتجهات.

يمكن أن يؤدي هذا الأنبوب المتعدد الخطوات إلى تراكم الأخطاء، مما يجعل العملية الإجمالية غير فعالة وعرضة للأخطاء.

للتصدي لهذه التحديات، يقترح ورقة ColPali نهجًا أبسط وأكثر فعالية. بدلاً من الاعتماد على استخراج النص وتحليله، يستخدم ColPali نهجًا قائمًا على الرؤية. إنه يأخذ صور صفحات ملف PDF ويضمنها باستخدام مشفر الرؤية، يليه نموذج الرؤية واللغة (PolyGamma) لاستخراج المعلومات ذات الصلة.

يتمتع هذا النهج بعدة مزايا:

  1. إنه يلغي الحاجة إلى تحليل PDF المعقد واستخراج النص، حيث يعمل النموذج مباشرة على بيانات الصورة.
  2. يتمكن نموذج الرؤية واللغة من التقاط الميزات المحلية (من البقع الفردية) والسياق العام (من خلال معالجة محول الرؤية ونموذج اللغة)، مما يسمح له بفهم التخطيطات البصرية المعقدة والنص والصور داخل الوثيقة.
  3. التمثيل المتعدد المتجهات لكل صفحة، على غرار نهج Colbert، يمكّن النموذج من التقاط العلاقات الأكثر دقة بين الاستعلام ومحتوى الوثيقة.

النتائج المقدمة في الورقة مвпечатляющая، حيث يتفوق ColPali على الطرق الحالية، بما في ذلك النهج القائم على الكلمات الرئيسية (BM25) والاسترجاع القائم على التضمين الكثيف (BGM3)، بهامش كبير على مجموعة بيانات المعيار الجديدة المنشأة.

بالإضافة إلى ذلك، تسلط الورقة الضوء على ملاحظة مهمة: في بعض الحالات، يمكن أن تكون النهج التقليدية القائمة على الكلمات الرئيسية (مثل BM25) جيدة بقدر أو أفضل من الاسترجاع القائم على التضمين الكثيف لبعض التطبيقات. هذا يؤكد على أهمية تضمين آليات قائمة على الكلمات الرئيسية وقائمة على التضمين في نظام RAG قوي.

بشكل عام، يقدم نهج ColPali حلاً واعدًا للتحديات التي تواجهها أنظمة RAG الحالية، خاصة في سياق العمل مع الوثائق المعقدة والغنية بالرؤية.

ColPali: نهج جديد لاسترداد الوثائق الفعال

تقدم ورقة ColPali نهجًا جديدًا لاسترجاع الوثائق يستفيد من نماذج لغة الرؤية، مقدمة العديد من المزايا على أنظمة Retrieval-Augmented Generation (RAG) التقليدية. أبرز ملامح هذا النهج هي:

  1. تبسيط تحليل ملفات PDF: بدلاً من الاعتماد على الأنابيب المعقدة التي تتضمن OCR وكشف التخطيط والتقطيع، يقوم ColPali بمعالجة صور صفحات ملف PDF مباشرة باستخدام نموذج الرؤية، مما يلغي الحاجة إلى هذه الخطوات التمهيدية.

  2. تحسين أداء الاسترجاع: يتفوق ColPali على الطرق الحالية، بما في ذلك النهج القائم على الكلمات الرئيسية مثل BM25 والنهج القائم على التضمين الكثيف مثل BGLM3، بهامش كبير على مجموعة بيانات المعيار الجديدة المنشأة لهذا الغرض.

  3. التمثيل المتعدد المتجهات: على غرار نهج Colbert، يستخدم ColPali تمثيلاً متعدد المتجهات لكل صفحة من الوثيقة، مما يلتقط السياق المحلي والعام من خلال مكونات محول الرؤية ونموذج اللغة.

  4. القابلية للتفسير: يسمح النهج القائم على الرؤية في ColPali بالقابلية للتفسير، حيث يمكن للنموذج تسليط الضوء على البقع المحددة من الوثيقة التي تكون ذات صلة بأكبر قدر بالاستعلام المدخل.

  5. فعالية الفهرسة: في حين أن أداء الاستعلام في وقت التنفيذ أبطأ قليلاً من الاسترجاع القائم على التضمين الكثيف، فإن عملية الفهرسة لـ ColPali أكثر كفاءة بكثير، حيث تستغرق 0.4 ثانية فقط لكل صفحة مقارنة بـ 7.22 ثانية للنهج التقليدي القائم على OCR.

يستند معمارية ColPali إلى نموذج PolyGamma 3 مليار من Google، وهو نموذج لغة الرؤية. الخطوات الرئيسية في العملية هي:

  1. تقسيم الصورة المدخلة (صفحة PDF) إلى شبكة من البقع 32x32.
  2. تضمين كل بقعة باستخدام إسقاط خطي ومعالجتها من خلال محول الرؤية لالتقاط العلاقات بين البقع.
  3. تغذية تضمينات البقع المحولة إلى نموذج اللغة PolyGamma لمعالجة المعلومات البصرية وموائمتها مع التمثيلات النصية.
  4. إسقاط إخراج نموذج اللغة إلى متجه ذي 128 بعدًا لكل بقعة، مما ينتج عن تمثيل متعدد المتجهات لصفحة الوثيقة.
  5. إجراء الاسترجاع عن طريق حساب التشابه بين رموز الاستعلام وبقع الوثيقة، باستخدام نهج التجميع الأقصى المشابه لـ Colbert.

تُظهر الورقة فعالية هذا النهج وتوفر نموذج Hugging Face الذي يمكن دمجه بسهولة في الأنظمة الحالية. بشكل عام، يقدم ColPali اتجاهًا واعدًا لاسترجاع الوثائق الفعال والقابل للتفسير، خاصة للوثائق الغنية بالرؤية.

تقييم أداء ColPali

تقترح ورقة ColPali نهجًا جديدًا لاسترجاع الوثائق باستخدام نماذج لغة الرؤية، والذي يتفوق على الطرق الحالية بهامش كبير. لتقييم أداء هذا النهج، قام الباحثون بإنشاء مجموعة بيانات معيار جديدة تتضمن مجموعة متنوعة من ملفات PDF من مجالات مختلفة.

أبرز النتائج من عملية المعايرة هي:

  1. يتفوق على الطرق الحالية: يتفوق ColPali على جميع الطرق الحالية، بما في ذلك النهج القائم على الكلمات الرئيسية مثل BM25 والنهج القائم على التضمين الكثيف مثل BGLM3، بهامش كبير. تُظهر النتائج فعالية نهج الاسترجاع القائم على الرؤية.

  2. مزايا على النهج القائمة على النص: تُظهر نتائج المعايرة أن النهج التقليدية القائمة على الكلمات الرئيسية مثل BM25 يمكن أن تكون جيدة بقدر أو أفضل من الاسترجاع القائم على التضمين الكثيف لبعض التطبيقات. هذا يسلط الضوء على أهمية تضمين آليات قائمة على الكلمات الرئيسية وقائمة على التضمين في نظام Retrieval Augmented Generation (RAG).

  3. عملية الفهرسة الفعالة: مقارنة بالنهج التقليدي لـ OCR وكشف التخطيط والتقطيع، تكون عملية الفهرسة لـ ColPali أكثر كفاءة بكثير، حيث تستغرق 0.40 ثانية فقط لكل صفحة، مقارنة بـ 7.22 ثانية لكل صفحة للنهج التقليدي.

  4. أداء وقت الاستعلام: على الرغم من أن عملية الفهرسة فعالة، فإن أداء وقت الاستعلام لـ ColPali أقل أداءً، حيث يستغرق حوالي 30 ملي ثانية لكل استعلام، مقارنة بـ 22 ملي ثانية للاسترجاع القائم على التضمين الكثيف.

  5. القابلية للتفسير: إحدى المزايا الرئيسية لنهج ColPali هي قدرته على توفير القابلية للتفسير. يمكن لمحول الرؤية في النموذج التركيز على بقع محددة من الصورة المدخلة، مما يسمح للمستخدم بفهم أي أجزاء من الوثيقة هي الأكثر صلة بالاستعلام.

بشكل عام، تُظهر نتائج المعايرة إمكانات كبيرة لنهج ColPali لاسترجاع الوثائق الفعال والقابل للتفسير، والذي يمكن أن يكون إضافة قيمة لأنظمة Retrieval Augmented Generation (RAG).

فهم هندسة ColPali

ColPali، نهج جديد لاسترجاع الوثائق الفعال، يستخدم نماذج لغة الرؤية لتجاوز التحديات التي تواجهها أنظمة Retrieval-Augmented Generation (RAG) التقليدية. الجوانب الرئيسية لمعمارية ColPali هي كما يلي:

  1. معالجة الصورة: يتم معالجة الوثيقة المدخلة، والتي عادة ما تكون في تنسيق PDF، أولاً عن طريق تقسيم كل صفحة إلى شبكة من البقع 32x32 بحجم متساوٍ. هذه الخطوة تلتقط الميزات المحلية للوثيقة.

  2. تضمين البقع: يتم بعد ذلك تضمين كل بقعة في فضاء متجهات أعلى بُعدًا باستخدام إسقاط خطي. هذا التضمين الأولي يساعد على التقاط الميزات على مستوى البكسل الخام.

  3. محول الرؤية: يتم بعد ذلك معالجة تضمينات البقع بواسطة محول الرؤية، والذي يطبق آلية الانتباه الذاتي لالتقاط العلاقات بين الأجزاء المختلفة من الصورة. هذه الخطوة تسمح للنموذج بفهم سياق و

التعليمات