יעיל אחזור מסמכים עם דגמי שפה חזותיים

גלה את כוחם של דגמי שפת חזון למשיכת מסמכים יעילה. גישה חדשנית זו עולה על שיטות מסורתיות, מציעה הסבר והקטנת מורכבויות של פענוח פורמטי מסמכים מגוונים. למד כיצד לנצל טכנולוגיה מתקדמת זו לצרכי משיכת מידע שלך.

21 בפברואר 2025

party-gif

גלה גישה פורצת דרך לאחזור מסמכים יעיל המנצל דגמי שפה חזותיים. שיטה חדשנית זו עולה על טכניקות אחזור מבוססות טקסט מסורתיות, מציעה ביצועים ופירוט עליונים. חקור כיצד פתרון חדשני זה יכול להפוך את ניהול המסמכים והאחזור המידע שלך.

חקירת האתגרים של מערכות RAG

אחד האתגרים המרכזיים עם מערכות RAG (Retrieval-Augmented Generation) הקיימות הוא הקושי בניתוח נתונים מתבניות שונות, כגון PDF, HTML ו-CSV. استخراج מידע מקבצי PDF, בפרט, יכול להיות תהליך מייגע הכולל מספר שלבים:

  1. הרצת מודל זיהוי תווים אופטי (OCR) כדי להפיק טקסט מתוך ה-PDF.
  2. יישום מודל זיהוי פריסה כדי להבין את המבנה של המסמך.
  3. חלוקת הטקסט המופק לקטעים ניהוליים.
  4. הטמעת קטעים אלה ואחסונם במאגר וקטורי.

צינור רב-שלבי זה יכול להוביל לצבירת שגיאות, מה שהופך את התהליך הכולל לבלתי יעיל ונוטה לשגיאות.

כדי להתמודד עם אתגרים אלה, מאמר ColPali מציע גישה פשוטה ויעילה יותר. במקום להסתמך על استخراج טקסט וניתוח, ColPali משתמש בגישה מבוססת חזותית. הוא לוקח את תמונות דפי ה-PDF ומטמיע אותן באמצעות מקודד חזותי, בהמשך למודל חזותי-שפתי (PolyGamma) כדי להפיק מידע רלוונטי.

גישה זו מציעה מספר יתרונות:

  1. היא מבטלת את הצורך בניתוח PDF מורכב ובהפקת טקסט, מכיוון שהמודל פועל ישירות על נתוני התמונה.
  2. המודל חזותי-שפתי מסוגל ללכוד מאפיינים מקומיים (מתוך טלאים בודדים) והקשר גלובלי (באמצעות המרכיב המבוסס על טרנספורמטור חזותי ועיבוד מודל שפה), מה שמאפשר לו להבין פריסות חזותיות מורכבות, טקסט ותמונות במסמך.
  3. ייצוג הווקטור הרב-ממדי של כל עמוד, בדומה לגישת Colbert, מאפשר למודל ללכוד יחסים מעודנים יותר בין השאילתה לתוכן המסמך.

התוצאות המוצגות במאמר מרשימות, כאשר ColPali עולה על שיטות קיימות, כולל גישות מבוססות מילות מפתח (BM25) וקריאה מבוססת הטמעה צפופה (BGM3), בשיעור ניכר על מערך נתונים בנצ'מרק חדש שנוצר למטרה זו.

בנוסף, המאמר מדגיש תצפית חשובה: במקרים מסוימים, גישות מבוססות מילות מפתח מסורתיות (כמו BM25) יכולות להיות טובות כמו או אפילו טובות יותר מקריאה מבוססת הטמעה צפופה עבור יישומים מסוימים. זה מדגיש את החשיבות של שילוב מנגנונים מבוססי מילות מפתח ומבוססי הטמעה בתוך מערכת RAG עמידה.

בכללותה, גישת ColPali מציגה פתרון מבטיח לאתגרים שעומדים בפני מערכות RAG קיימות, בפרט בהקשר של עבודה עם מסמכים מורכבים ועשירים חזותית.

ColPali: גישה חדשנית לאחזור מסמכים יעיל

מאמר ColPali מציג גישה חדשנית לאחזור מסמכים המנצלת מודלי שפה חזותיים, המציעה מספר יתרונות על מערכות Retrieval-Augmented Generation (RAG) מסורתיות. הנקודות הבולטות העיקריות של גישה זו הן:

  1. פישוט ניתוח PDF: במקום להסתמך על צינורות מורכבים הכוללים OCR, זיהוי פריסה וחלוקה לקטעים, ColPali מעבד ישירות את תמונות דפי ה-PDF באמצעות מודל חזותי, מבטל את הצורך בשלבי טרום-עיבוד אלה.

  2. שיפור ביצועי האחזור: ColPali עולה על שיטות קיימות, כולל גישות מבוססות מילות מפתח כמו BM25 והגישות מבוססות הטמעה צפופה כמו BGLM3, בשיעור ניכר על מערך נתונים בנצ'מרק חדש שנוצר למטרה זו.

  3. ייצוג ווקטורי רב-ממדי: בדומה לגישת Colbert, ColPali משתמש בייצוג ווקטורי רב-ממדי לכל עמוד במסמך, ללכוד הן מאפיינים מקומיים והן הקשר גלובלי באמצעות רכיבי הטרנספורמטור החזותי והמודל השפתי.

  4. הסבירות: הגישה המבוססת על חזות של ColPali מאפשרת הסבירות, שבה המודל יכול להדגיש את הטלאים הספציפיים של המסמך שהכי רלוונטיים לשאילתת הקלט.

  5. אינדוקס יעיל: בעוד שביצועי השאילתה מעט איטיים יותר מאשר קריאה מבוססת הטמעה צפופה, תהליך האינדוקס של ColPali הרבה יותר יעיל, לוקח רק 0.4 שניות לעמוד לעומת 7.22 שניות לגישה המסורתית המבוססת על OCR.

בחינת ביצועי ColPali

מאמר ColPali מציע גישה חדשנית לאחזור מסמכים באמצעות מודלי שפה חזותיים, אשר עולה על שיטות קיימות בשיעור ניכר. כדי להעריך את ביצועי הגישה הזו, החוקרים יצרו מערך נתונים בנצ'מרק חדש הכולל מגוון קבצי PDF מתחומים שונים.

הממצאים העיקריים מתהליך הבנצ'מרק הם:

  1. עולה על שיטות קיימות: ColPali עולה על כל השיטות הקיימות, כולל גישות מבוססות מילות מפתח כמו BM25 והגישות מבוססות הטמעה צפופה כמו BGLM3, בשיעור ניכר. התוצאות מדגימות את היעילות של הגישה המבוססת על חזות לאחזור.

  2. יתרונות על גישות מבוססות טקסט: תוצאות הבנצ'מרק מראות שגישות מבוססות מילות מפתח מסורתיות כמו BM25 יכולות להיות טובות כמו או אפילו טובות יותר מקריאה מבוססת הטמעה צפופה עבור יישומים מסוימים. זה מדגיש את החשיבות של שילוב מנגנונים מבוססי מילות מפתח ומבוססי הטמעה בתוך מערכת Retrieval Augmented Generation (RAG).

  3. תהליך אינדוקס יעיל: בהשוואה לגישה המסורתית של OCR, זיהוי פריסה וחלוקה לקטעים, תהליך האינדוקס של ColPali הרבה יותר יעיל, לוקח רק 0.40 שניות לעמוד, לעומת 7.22 שניות לעמוד בגישה המסורתית.

  4. ביצועי זמן שאילתה: בעוד שתהליך האינדוקס יעיל, ביצועי זמן השאילתה של ColPali פחות ביצועיים, לוקחים כ-30 מילישניות לשאילתה, לעומת 22 מילישניות לקריאה מבוססת הטמעה צפופה.

  5. הסבירות: אחד היתרונות המרכזיים של גישת ColPali היא היכולת לספק הסבירות. הטרנספורמטור החזותי במודל יכול להתייחס לטלאים ספציפיים של קלט התמונה, מאפשר למשתמש להבין אילו חלקים של המסמך הכי רלוונטיים לשאילתה.

בכללותן, תוצאות הבנצ'מרק מדגימות את הפוטנציאל המשמעותי של גישת ColPali לאחזור מסמכים יעיל והסביר, אשר יכול להוות תוספת ערכית למערכות Retrieval Augmented Generation (RAG).

הבנת האדריכלות של ColPali

ColPali, גישה חדשנית לאחזור מסמכים יעיל, משתמשת במודלי שפה חזותיים כדי להתגבר על האתגרים שעומדים בפני מערכות Retrieval-Augmented Generation (RAG) מסורתיות. ההיבטים המרכזיים של אדריכלות ColPali הם כדלקמן:

  1. טרום-עיבוד תמונה: המסמך הקלט, בדרך כלל בפורמט PDF, מעובד תחילה על ידי חלוקת כל עמוד לרשת של טלאים בגודל 32x32. שלב זה לוכד את המאפיינים המקומיים של המסמך.

  2. הטמעת טלאים: כל טלאה מוטמעת לתוך מרחב וקטורי בממדים גבוהים יותר באמצעות הטלה לינארית. הטמעה ראשונית זו עוזרת ללכוד את התכונות ברמת הפיקסלים הגולמיים.

  3. טרנספורמטור חזותי: הטמעות הטלאים מעובדות לאחר מכן על ידי טרנספורמטור חזותי, המיישם מנגנון תשומת לב עצמית כדי ללכוד את הקשרים בין חלקים שונים של התמונה. שלב זה מאפשר למודל להבין את ההקשר והפריסה של המסמך.

  4. שילוב מודל שפה: פלט הטרנספורמטור החזותי מוזן לאחר מכן למודל שפה, במקרה זה מודל PolyGamma 3 מיליארד מ-Google. שילוב זה מאפשר למודל ליישר את המידע החזותי עם הייצוג הטקסטי, מה שמאפשר לו להבין פריסות חזותיות מורכבות, טקסט ותמונות במסמך.

  5. ייצוג ווקטורי רב-ממדי: פלט מודל השפה מוטמע לחלל ממדים נמוכים יותר, מה שמניב מערך של 1024 וקטורי הטמעה, כל אחד בממד של 128 יחידות. ייצוג ווקטורי רב-ממדי זה, בדומה לגישה המשמשת ב-Colbert, לוכד הן מאפיינים מקומיים והן הקשר גלובלי.

  6. תהליך האחזור: כאשר מסופקת שאילתה, הטוקנים מקודדים תחילה באמצעות אותו מודל PolyGamma 3 מיליארד. לאחר מכן, מחושבת מטריצת דמיון בין טוקני השאילתה להטמעות טלאי המסמך. מבוצעת פעולת מקס-פוליניג כדי לזהות את הטלאים הרלוונטיים ביותר עבור כל טוקן שאילתה, והציון הדמיון הסופי מחושב על ידי סיכום הדמיונות המקס-פוליניג.

  7. תוצאות האחזור: תהליך האחזור מבוצע עבור כל עמוד במסמך, והעמודים המדורגים בראש מוחזרים כהרלוונטיים ביותר לשאילתה. עמודים אלה יכולים ל

שאלות נפוצות