الاستفادة من تخزين السياق لتحسين استخدام نماذج اللغة الكبيرة للنصوص الطويلة

اكتشف كيفية الاستفادة من ميزة تخزين السياق في Google في واجهة برمجة تطبيقات Gemini لتحسين استخدام LLM طويلة الشكل، وتقليل وقت المعالجة والتكاليف. تعرف على تفاصيل التنفيذ والفوائد المحتملة للمطورين الذين يبنون على واجهة برمجة تطبيقات Gemini.

١٧ فبراير ٢٠٢٥

party-gif

افتح قوة LLMs ذات السياق الطويل باستخدام واجهة برمجة تطبيقات Gemini من Google وميزة التخزين المؤقت للسياق الجديدة. اكتشف كيف يمكن لهذا الحل المبتكر أن يقلل بشكل كبير من وقت المعالجة والتأخير والتكاليف، مما يجعل من السهل الاستفادة من مجموعات البيانات الكبيرة في تطبيقات الذكاء الاصطناعي الخاصة بك. استكشف تفاصيل التنفيذ العملي وتعلم كيفية الاستفادة بفعالية من هذه التكنولوجيا المغيرة للقواعد.

فهم التخزين المؤقت والفوائد المترتبة عليه

إن إضافة Google مؤخرًا لتخزين السياق المؤقت إلى واجهة برمجة التطبيقات Gemini تهدف إلى معالجة بعض القيود الرئيسية لنماذج اللغة طويلة السياق (LLMs). بينما يمكن لنماذج اللغة طويلة السياق الاحتفاظ بكمية كبيرة من المعلومات، إلا أنها تعاني من عدة مشكلات:

  • زيادة وقت المعالجة: مع كل استعلام، يجب إرسال السياق بأكمله إلى نموذج اللغة طويل السياق، مما ينتج عنه معالجة كمية كبيرة من البيانات، مما يؤدي إلى زيادة وقت المعالجة.
  • ارتفاع التأخير: تؤدي عمليات نقل البيانات الكبيرة المطلوبة لكل استعلام إلى ارتفاع التأخير.
  • تكاليف أعلى: نظرًا لأن مزودي واجهة برمجة التطبيقات يفرضون رسومًا على أساس عدد الرموز، فإن زيادة نقل البيانات تؤدي إلى تكاليف أعلى.

تحاول ميزة تخزين السياق المؤقت في Google تخفيف هذه المشكلات. وفيما يلي كيفية عملها:

  1. تهيئة التخزين المؤقت: تقوم بتوفير تعليمات النظام أو سياق كبير (مثل المستندات أو ملفات الفيديو أو ملفات الصوت) الذي تريد تخزينه مؤقتًا.
  2. تحديد التخزين المؤقت: لكل تخزين مؤقت معرّف فريد، والذي يمكن اعتباره اسم التخزين المؤقت، وبارامتر "وقت الانتهاء" لتحديد انتهاء صلاحية التخزين المؤقت.
  3. استرداد التخزين المؤقت: عند استلام واجهة برمجة التطبيقات Gemini لاستعلام المستخدم، تقوم بتحليل مجموعات البيانات المتاحة في التخزين المؤقت، واسترداد التخزين المؤقت المناسب، ودمجه مع استعلام المستخدم للمعالجة.

يوفر هذا النهج عدة فوائد:

  • تقليل وقت المعالجة: من خلال إعادة استخدام البيانات المخزنة مؤقتًا، يحتاج النظام فقط إلى معالجة استعلام المستخدم، مما يؤدي إلى تقليل وقت المعالجة الإجمالي.
  • انخفاض التأخير: إرسال استعلام المستخدم فقط بدلاً من السياق بأكمله ينتج عنه انخفاض التأخير.
  • توفير التكاليف: تقليل عدد الرموز المرسلة مع كل استعلام يؤدي إلى انخفاض التكاليف.

تدعي Google أن استخدام التخزين المؤقت لما يصل إلى 2,128,000 رمز يمكن أن ينتج عنه تكلفة أقل بنحو أربع مرات مقارنة بإرسال السياق بأكمله مع كل استعلام.

من المهم ملاحظة أن هناك بعض القيود والاعتبارات عند استخدام تخزين السياق المؤقت:

  • الحد الأدنى لعدد رموز الإدخال: الحد الأدنى لعدد رموز الإدخال لتخزين السياق المؤقت هو حاليًا 32,000 رمز.
  • الحد الأقصى لعدد الرموز: الحد الأقصى لعدد الرموز التي يمكن تخزينها مؤقتًا محدود بنافذة السياق الأقصى للنموذج، والتي تبلغ حوالي 2 مليون رمز لكل من طرازي Gemini Pro و Gemini Flash.
  • تكلفة التخزين: هناك تكلفة تخزين مرتبطة بالمحتوى المخزن مؤقتًا، والتي تبلغ 1 دولار لكل مليون رمز لكل ساعة.

بشكل عام، تعد ميزة تخزين السياق المؤقت في واجهة برمجة التطبيقات Gemini من Google إضافة قيمة يمكن أن تحسن بشكل كبير أداء وفعالية التكلفة للتطبيقات القائمة على نماذج اللغة طويلة السياق، خاصة بالنسبة لتلك التي تتعامل مع كميات كبيرة من السياق.

استكشاف عملية التخزين المؤقت

تهدف إضافة Google مؤخرًا لتخزين السياق المؤقت إلى واجهة برمجة التطبيقات Gemini إلى معالجة قيود نماذج اللغة طويلة السياق. من خلال تخزين السياق مؤقتًا، يمكن للنظام تقليل وقت المعالجة والتأخير والتكلفة المرتبطة بإرسال السياق بأكمله مع كل استعلام.

يعمل عملية التخزين المؤقت على النحو التالي:

  1. تهيئة التخزين المؤقت: تقوم بتوفير تعليمات النظام أو سياق كبير (مثل المستندات أو ملفات الفيديو أو ملفات الصوت) الذي تريد تخزينه مؤقتًا. لكل تخزين مؤقت معرّف فريد وبارامتر "وقت الانتهاء" لتحديد انتهاء صلاحية التخزين المؤقت.

  2. تخزين التخزين المؤقت: يقوم نظام التخزين الداخلي لواجهة برمجة التطبيقات Gemini، المحسّن للاسترداد السريع، بتخزين البيانات المخزنة مؤقتًا.

  3. معالجة الاستعلام: عند استلام واجهة برمجة التطبيقات Gemini لاستعلام المستخدم، تقوم بتحليل مجموعات البيانات المتاحة في التخزين المؤقت، وتحديد التخزين المؤقت المناسب بناءً على المعرّف الفريد، والتحقق من صلاحية التخزين المؤقت من خلال التحقق من بارامتر "وقت الانتهاء". ثم تقوم الواجهة بدمج البيانات المخزنة مؤقتًا وبيانات استعلام المستخدم كمدخلات للمعالجة.

  4. تقليل التكاليف والتأخير: من خلال استخدام البيانات المخزنة مؤقتًا، يقلل النظام من عدد الرموز المرسلة مع كل استعلام، مما يؤدي إلى انخفاض وقت المعالجة والتكلفة. تقدر Google أن استخدام التخزين المؤقت لما يصل إلى 2,128,000 رمز يمكن أن ينتج عنه تكلفة أقل بنحو أربع مرات مقارنة بإرسال السياق بأكمله مع كل استعلام.

  5. تكلفة التخزين: تبلغ تكلفة تخزين المحتوى المخزن مؤقتًا 1 دولار لكل مليون رمز لكل ساعة. تعتمد التكلفة الإجمالية على عوامل مثل عدد رموز التخزين المؤقت وبارامتر "وقت الانتهاء".

  6. النماذج المدعومة: يتم دعم تخزين السياق المؤقت حاليًا بواسطة كل من طرازي Gemini Pro و Gemini Flash.

  7. الحد الأدنى والحد الأقصى للرموز: الحد الأدنى لعدد رموز الإدخال لتخزين السياق المؤقت هو 32,000 رمز، والحد الأقصى هو نافذة السياق الأقصى للنموذج، والتي تبلغ حوالي 2 مليون رمز لكل من Gemini Pro و Gemini Flash.

من خلال الاستفادة من تخزين السياق المؤقت، يمكن للمطورين تحسين استخدامهم لواجهة برمجة التطبيقات Gemini، مما يقلل التكاليف ويحسن الأداء، خاصة بالنسبة للتطبيقات التي تتطلب استعلامات متكررة على مجموعات بيانات كبيرة.

فهم حدود الرموز والتكاليف

عند استخدام ميزة تخزين السياق المؤقت في واجهة برمجة التطبيقات Gemini، هناك بعض الاعتبارات المهمة فيما يتعلق بحدود الرموز والتكاليف:

  1. الحد الأدنى لعدد رموز الإدخال: الحد الأدنى لعدد رموز الإدخال لتخزين السياق المؤقت هو 32,000 رمز. هذا يعني أنك ستحتاج إلى تخزين ما لا يقل عن 32,000 رمز حتى تعمل هذه الميزة.

  2. الحد الأقصى لعدد الرموز: الحد الأقصى لعدد الرموز التي يمكنك تخزينها مؤقتًا هو نافذة السياق الأقصى للنموذج المعين. بالنسبة لكل من طرازي Gemini Pro و Gemini Flash، فإن هذا الرقم هو حوالي 2 مليون رمز.

  3. تكلفة التخزين: تبلغ تكلفة تخزين المحتوى المخزن مؤقتًا 1 دولار لكل مليون رمز لكل ساعة. هذه التكلفة إضافة إلى رسوم استخدام واجهة برمجة التطبيقات العادية.

  4. وقت الانتهاء (TTL): عند إنشاء تخزين مؤقت، يمكنك تحديد بارامتر "وقت الانتهاء" لتحديد مدة بقاء التخزين المؤقت. إذا لم تقدم قيمة، فالافتراضي هو ساعة واحدة. الحد الأدنى لـ TTL هو 60 ثانية.

  5. عدد الرموز: عند استخدام المحتوى المخزن مؤقتًا، يشمل إجمالي عدد الرموز كل من الرموز المخزنة مؤقتًا والرموز الجديدة من استعلام المستخدم. يتم استخدام هذا العدد الإجمالي للرموز لأغراض الفوترة.

  6. توفر التخزين المؤقت: يتم دعم تخزين السياق المؤقت حاليًا بواسطة كل من طرازي Gemini Pro و Gemini Flash.

من خلال فهم هذه الحدود للرموز واعتبارات التكلفة، يمكنك الاستفادة بفعالية من ميزة تخزين السياق المؤقت لتقليل وقت المعالجة والتكاليف عند استخدام واجهة برمجة التطبيقات Gemini.

تنفيذ التخزين المؤقت باستخدام أمثلة الرمز

لتنفيذ التخزين المؤقت باستخدام واجهة برمجة التطبيقات Gemini، سنحتاج إلى اتباع هذه الخطوات:

  1. تثبيت الحزم المطلوبة:

    !pip install google-generative-ai-client pdfplumber
    
  2. استيراد الوحدات اللازمة:

    from google.generative.v1 import GenerativeAIClient
    from google.generative.v1.types import CachedContent
    import markdown
    import pdfplumber
    
  3. إعداد عميل واجهة برمجة التطبيقات Gemini باستخدام مفتاح API Google الخاص بك:

    api_key = "your
    

التعليمات