افتح قوة نماذج اللغة الكبيرة: إتقان استخراج نص PDF وتحليله

استغل قوة نماذج اللغة الكبيرة لفتح آفاق جديدة في استخراج النص من ملفات PDF وتحليله. اكتشف تقنيات عملية لاسترجاع المعلومات الفعال، وتضمين المستندات، والمزيد. حسّن مهاراتك، وابتكر، وتواصل مع مجتمع من المحترفين المتشابهين في التفكير.

١٤ فبراير ٢٠٢٥

افتح قوة نماذج اللغة الكبيرة لتحويل مستنداتك النصية باستخدام دورة RAG Beyond Basics. مصممة للمؤسسين والمطورين والمديرين التنفيذيين والهواة في SaaS، ستزودك هذه الدورة بتقنيات عملية لتحليل والتفاعل بكفاءة مع ملفات PDF والمستندات النصية الأخرى. اكتسب خبرة عملية في بناء حزمة Python قوية يمكنك تطبيقها على مشاريعك الخاصة على الفور.

ما هذا المقرر عن؟
من هذا المقرر مخصص له؟
ما الذي سنغطيه في هذا المقرر؟
لماذا يجب عليك الانضمام إلى هذا المقرر؟
ما النماذج التي سنستخدمها في هذا المقرر؟
الخاتمة

ما هذا المقرر عن؟

تم تصميم هذه الدورة التدريبية لتعليمك كيفية التفاعل بفعالية مع المستندات النصية باستخدام قوة نماذج اللغة الكبيرة (LLMs). سيكون التركيز على العمل مع مستندات PDF، حيث إنها الصيغة الأكثر شيوعًا في المشهد التجاري. ومع ذلك، يمكن تطبيق التقنيات التي ستتعلمها على أي نوع من المستندات النصية.

ستبدأ الدورة التدريبية ببناء أنبوب استرداد أساسي واستكشاف مكوناته المختلفة. من هناك، سننغمس في تقنيات أكثر تقدمًا، مثل إعادة الترتيب والتوسع في الاستعلام والاسترداد متعدد الاستعلام، وتضمين المستندات الافتراضية. سنتناول أيضًا كيفية الجمع بين البحث الدلالي والبحث المستند إلى الكلمات الرئيسية، واستكشاف استخدام Pyramid Document Retriever لتوسيع السياق الذي يسترجعه نموذج التضمين.

الهدف ليس فقط تعليمك ما هي هذه التقنيات المختلفة، ولكن أيضًا متى وكيف استخدامها. طوال الدورة التدريبية، سنقدم أمثلة على الشفرة العملية لمساعدتك على تنفيذ هذه التقنيات في مشاريعك الخاصة. بحلول نهاية الدورة التدريبية، ستكون لديك حزمة Python كاملة يمكنك استخدامها في عملك الخاص.

ستركز الدورة التدريبية بشكل أساسي على استخدام نماذج اللغة الكبيرة (LLMs) ونماذج التضمين من OpenAI، حيث توفر واجهة برمجة تطبيقات بسيطة تسمح لنا ببناء نماذج أولية بسرعة. ومع ذلك، في نهاية الدورة التدريبية، سنستكشف أيضًا كيفية استخدام نماذج LLM المحلية ونماذج التضمين لتشغيل الأنبوب بالكامل محليًا، دون الاعتماد على واجهات برمجة التطبيقات الخارجية.

من هذا المقرر مخصص له؟

الجمهور المستهدف لهذه الدورة التدريبية هم مؤسسو SaaS والمطورون والمديرون والهواة. للاستفادة القصوى من هذه الدورة التدريبية، ستحتاج إلى خلفية في Python. ستساعدك هذه الدورة التدريبية في تحويل أفكارك الرائعة إلى نماذج أولية عاملة وتحليل آلاف المستندات في دقائق، لا أيام.

ما الذي سنغطيه في هذا المقرر؟

خلال هذه الدورة التدريبية، سنغطي مجموعة واسعة من المواضيع المتعلقة بالتفاعل مع المستندات النصية باستخدام قوة نماذج اللغة الكبيرة (LLMs). سيكون التركيز على العمل مع مستندات PDF، حيث إنها الصيغة الأكثر شيوعًا في المشهد التجاري.

سنبدأ ببناء أنبوب استرداد أساسي واستكشاف مكوناته المختلفة، مع تنفيذها في الشفرة. من هناك، سننغمس في تقنيات أكثر تقدمًا لتحسين أداء أنبوب الاسترداد، مثل إعادة الترتيب والتوسع في الاستعلام والاسترداد متعدد الاستعلام.

بالإضافة إلى ذلك، سنستكشف تقنيات لتوليد مستندات افتراضية استنادًا إلى المشكلة التي تعمل عليها، والمعروفة باسم "تضمين المستندات الافتراضية". سننظر أيضًا في طرق الجمع بين عمليات الاسترداد المتعددة لتعزيز أداء أنبوب الاسترداد، مع الجمع بين تقنيات البحث الدلالي والبحث المستند إلى الكلمات الرئيسية.

علاوة على ذلك، سنتناول Pyramid Document Retriever، وهي تقنية تساعد على توسيع السياق الذي يسترجعه نموذج التضمين.

طوال الدورة التدريبية، لن يكون التركيز فقط على فهم هذه التقنيات المختلفة، ولكن أيضًا على متى وكيف استخدامها. سنقدم أمثلة على الشفرة العملية لإظهار كيفية تطبيق هذه التقنيات في مختلف السيناريوهات.

ستغطي الدورة التدريبية هذه المواضيع الأساسية، ولكن نظرًا لأن مجال الاسترداد والتوليد باستخدام نماذج اللغة الكبيرة (LLMs) يتطور باستمرار، سيتم تحديث الدورة التدريبية بمحاضرات وموضوعات جديدة مع مرور الوقت.

لماذا يجب عليك الانضمام إلى هذا المقرر؟

تم تصميم هذه الدورة التدريبية لتزويدك بالمهارات والمعرفة العملية لاستغلال قوة نماذج اللغة الكبيرة (LLMs) في التفاعل مع المستندات النصية، وخاصة ملفات PDF. كمشارك، ستتعلم كيفية بناء أنابيب استرداد قوية، وتطبيق تقنيات متقدمة مثل إعادة الترتيب والتوسع في الاستعلام والاسترداد متعدد الاستعلام، واستكشاف طرق لتوليد مستندات افتراضية بناءً على احتياجاتك المحددة.

المدرب، الذي يحمل درجة الدكتوراه وخبرة صناعية تزيد عن 7 سنوات في قيادة فرق التعلم الآلي والذكاء الاصطناعي، لديه خلفية تقنية قوية وشغف بالمشاريع المفتوحة المصدر. لقد بنوا أنظمة تشغل عشرات الآلاف من الأجهزة الاستهلاكية وأنشأوا أحد أشهر المشاريع المفتوحة المصدر لـ RAG، Local GPT، والذي يحظى بأكثر من 19,000 نجمة على GitHub.

من خلال الانضمام إلى هذه الدورة التدريبية، ستتمكن من تعزيز مهاراتك والابتكار في مجالك والتواصل مع مجتمع من المهنيين المتشابهين في التفكير. ستوفر لك الدورة التدريبية حزمة Python كاملة يمكنك استخدامها في مشاريعك الخاصة، وستحصل على إمكانية الوصول إلى قناة مخصصة على خادم Discord الخاص بـ Prompt Engineering، حيث يمكنك التحدث مباشرةً مع المدرب وزملاء الممارسة الآخرين حول المواضيع المغطاة في الدورة التدريبية وما يتجاوزها.

ما النماذج التي سنستخدمها في هذا المقرر؟

ستركز الدورة التدريبية بشكل أساسي على استخدام نماذج اللغة الكبيرة (LLMs) ونماذج التضمين من OpenAI. السبب وراء ذلك هو أن واجهة برمجة التطبيقات (API) من OpenAI توفر طريقة بسيطة ومباشرة لبناء نماذج أولية بسرعة. ومع ذلك، في الجزء الأخير من الدورة التدريبية، سنستكشف أيضًا كيفية استخدام نماذج LLM المحلية ونماذج التضمين لتشغيل الأنبوب بالكامل محليًا، دون الاعتماد على أي واجهات برمجة تطبيقات خارجية. سيمنحك هذا المرونة لاستخدام النماذج التي تختارها وتشغيل النظام بالكامل دون اتصال بالإنترنت.

النماذج المحددة التي سنستخدمها تشمل:

GPT-3 من OpenAI وغيرها من نماذج اللغة الكبيرة (LLMs) لمهام توليد النص وفهمه المختلفة
نماذج التضمين من OpenAI لتوليد تمثيلات دلالية للنص
نماذج LLM المحلية ونماذج التضمين، مثل تلك الموجودة في Hugging Face، لتمكين نشر النظام بالكامل دون اتصال بالإنترنت

بحلول نهاية الدورة التدريبية، ستكون لديك فهم راسخ لكيفية الاستفادة من هذه النماذج لبناء تطبيقات قوية لمعالجة المستندات النصية، وستكون لديك حزمة Python كاملة يمكنك استخدامها في مشاريعك الخاصة.

الخاتمة

تم تصميم هذه الدورة التدريبية "Beyond Basics" لتزويدك بالمعرفة والمهارات اللازمة للتفاعل بفعالية مع المستندات النصية باستخدام قوة نماذج اللغة الكبيرة (LLMs). سواء كنت مؤسسًا لـ SaaS أو مطورًا أو مديرًا أو هاوٍ، ستوفر لك هذه الدورة التدريبية تقنيات عملية لتحويل أفكارك إلى نماذج أولية عاملة وتحليل كميات هائلة من المستندات في جزء من الوقت.

طوال الدورة التدريبية، سنغطي مجموعة واسعة من المواضيع، بما في ذلك بناء أنبوب استرداد أساسي والتقنيات المتقدمة مثل إعادة الترتيب والتوسع في الاستعلام والاسترداد متعدد الاستعلام. سنستكشف أيضًا تضمين المستندات وكيفية الجمع بين البحث الدلالي والبحث المستند إلى الكلمات الرئيسية. بالإضافة إلى ذلك، سنتعمق في استخدام Pyramid Document Retriever لتوسيع السياق الذي يسترجعه نموذج التضمين.

لا يركز هذا المقرر فقط على فهم هذه التقنيات، ولكن أيضًا على متى وكيف استخدامها. سيتم تزويدك بأمثلة على الشفرة العملية لمساعدتك على تنفيذ هذه الاستراتيجيات في مشاريعك الخاصة. علاوة على ذلك، ستحصل على حزمة Python كاملة يمكنك استخدامها في مساعيك المستقبلية.

ستغطي الدورة التدريبية هذه المواضيع الأساسية، ولكن نظرًا لأن مجال الاسترداد والتوليد (RAG) يتطور باستمرار، سيتم تحديث الدورة التدريبية بمحاضرات وموضوعات جديدة لضمان بقائك على رأس أحدث التطورات.

المدرب، الذي يحمل درجة الدكتوراه وخبرة صناعية تزيد عن سبع سنوات في قيادة فرق التعلم الآلي والذكاء الاصطناعي، لديه شغف بالمشاريع المفتوحة المصدر وقد أنشأ أحد أشهر المشاريع المفتوحة المصدر لـ RAG، Local GPT، والذي يحظى بأكثر من 19,000 نجمة على GitHub. ستتمكن من التفاعل مباشرةً مع المدرب وزملاء الممارسة من خلال قناة مخصصة على خادم Discord الخاص بـ Prompt Engineering، مما يتيح لك تعزيز مهاراتك والابتكار في مجالك والتواصل م

التعليمات

ما هو دورة RAG Beyond Basics؟

من هو الجمهور المستهدف لهذه الدورة؟

ما الذي سيتم تغطيته خلال الدورة؟

ما هي النماذج والأدوات التي سيتم استخدامها في الدورة؟

لماذا ينبغي لي أن أتخذ هذه الدورة؟

قم بإنشاء صديقة الذكاء الاصطناعي الخاصة بك

قم ببناء رفيقك المثالي باستخدام AI Girlfriend Builder