אופטימיזציה של גרף RAG עם LLMs מקומיים: אתגרים ותובנות
גלה את האתגרים והתובנות של אופטימיזציה של Graph RAG עם Local LLMs. למד על השימוש ב-AMA ו-Gro API כדי לשפר את אחזור והפקת מידע מגרף הידע. חקור את החשיבות של בחירת המודל LLM הנכון ליישום Graph RAG אפקטיבי.
15 בפברואר 2025

פתח את כוחם של דגמי שפה מקומיים ואת ה-Gro API כדי לשפר את יצירת התוכן המונע על ידי גרף הידע שלך. גלה את הגוונים והשיקולים בעת שימוש מחדש בתוכן וידאו לפוסט בלוג שמספק ערך לקהל שלך.
חקירת LLMs מקומיים עבור Graph RAG: יתרונות וחסרונות
הגדרת סביבת LLM מקומית: מדריך צעד אחר צעד
אינדקסציה והטמעה: התשתית עבור Graph RAG
הערכת ביצועי LLM מקומי: השוואה ל-GPT-4
הנדסת פרומפט: המפתח לשחרור הפוטנציאל של LLM
חקירת יישומי Graph RAG חלופיים: כיוונים עתידיים
מסקנה
חקירת LLMs מקומיים עבור Graph RAG: יתרונות וחסרונות
חקירת LLMs מקומיים עבור Graph RAG: יתרונות וחסרונות
בחלק זה, נחקור את השימוש במודלי שפה מקומיים (LLMs) עם מסגרת ה-Graph RAG (Retrieval-Augmented Generation). בעוד שהשימוש במודל מקומי יכול להעניק מספר יתרונות, קיימים גם אתגרים משמעותיים לשקול.
אחד היתרונות העיקריים של שימוש במודל LLM מקומי הוא החיסכון הפוטנציאלי בעלויות. גישה לממשק API מרוחק כמו של OpenAI יכולה להיות יקרה, במיוחד עבור יישומים בקנה מידה גדול. על ידי הרצת מודל מקומי, ניתן להימנע מעלויות API אלה ולהפחית את ההוצאות התפעוליות הכוללות של מערכת ה-Graph RAG שלך. 然, בחירת ה-LLM קריטית כאשר מדובר ב-Graph RAG. בשונה ממערכות מסורתיות של אחזור מוגבר, שבהן מודל הטמעה משחק תפקיד חשוב יותר, ה-LLM ב-Graph RAG אחראי על استخراج ישויות, זיהוי יחסים וייצור תקצירים. מודל LLM קטן או פחות מסוגל, כמו מודל Llama-38B שנעשה בו שימוש בדוגמה, עשוי להתקשות לבצע משימות אלה באופן יעיל, מה שיוביל לתוצאות לא אופטימליות.
הדוגמה מדגימה שביצועי מודל Llama-38B אינם טובים כמו מודל GPT-4 שנעשה בו שימוש בסרטון הקודם. התקציר שנוצר על ידי Llama-38B נכשל בלכוד את הנושא העיקרי של הספר באותה מידת דיוק כפלט ה-GPT-4. זה מדגיש את החשיבות של שימוש במודל LLM גדול ויותר מסוגל עבור יישומי Graph RAG.
כדי להתמודד עם אתגר זה, הסרטון מציע לחקור את השימוש במודלים גדולים יותר, כמו מודל Llama-370B מ-Gro. עם זאת, זה מגיע עם סט שיקולים משלו, כמו הצורך לנהל מגבלות קצב והזמן העיבוד הארוך יותר הנדרש עבור אינדקסציה ושאילתות.
הגדרת סביבת LLM מקומית: מדריך צעד אחר צעד
הגדרת סביבת LLM מקומית: מדריך צעד אחר צעד
כדי להגדיר את הסביבה של מודל LLM המקומי עבור מערכת ה-Graph Retrieval Augmented Generation (Graph RAG), פעל לפי השלבים הבאים:
-
הורד והתקן את AMA: ראשית, עליך להוריד ולהתקין את ה-AMA (Anthropic Model API) במחשב המקומי שלך. זה יאפשר לך להשתמש במודל שפה מקומי, כמו מודל Llama 3, עבור יישום ה-Graph RAG שלך.
-
בחר את מודל ה-LLM: לאחר הגדרת ה-AMA, עליך לבחור את מודל השפה שברצונך להשתמש בו. במקרה זה, נשתמש במודל Llama 3, אך מומלץ להשתמש במודל גדול יותר אם החומרה שלך יכולה לתמוך בו, מכיוון שמודלים גדולים נוטים להיות יותר יעילים עם Graph RAG.
-
הגדר את הגדרות ה-Graph RAG: לאחר מכן, עליך לעדכן את קובץ settings.yml בפרויקט ה-Graph RAG שלך. הגדר את החלק
llm
להשתמש בממשק API של AMA, תוך מתן מפתח API (שהוא "AMA" במקרה זה), שם המודל (Llama 3) וכתובת ה-API הבסיסית (http://localhost:11434/v1). -
הרץ את האינדקסציה המקומית: כדי ליצור את האינדקס עבור המסמכים שלך, הרץ את הפקודה
python dm_craft_rank.index
. זה יעבד את הקבצים הקלט בתיקייה המצוינת ויצור את הטמעות והקבצי האינדקס הנחוצים. -
בדוק את ה-LLM המקומי עם Graph RAG: לאחר השלמת האינדקסציה, ניתן לבדוק את ה-LLM המקומי על ידי הרצת הפקודה
python dm_graph_rag.query
עם השאלה "מהו הנושא העיקרי של הספר". זה ישתמש במודל Llama 3 המקומי כדי לייצר תגובה על בסיס הגרף שנוצר.
אינדקסציה והטמעה: התשתית עבור Graph RAG
אינדקסציה והטמעה: התשתית עבור Graph RAG
כדי להשתמש במודל מקומי עם Graph RAG, תחילה עליך להוריד ולהגדיר את ה-AMA (Anthropic) במחשב המקומי שלך. במקרה זה, נשתמש במודל Llama 3, אך מומלץ להשתמש במודל גדול יותר אם החומרה שלך יכולה לתמוך בו.
מודל Llama 3 עוקב אחר אותו תקן ממשק API כמו OpenAI, מה שהופך אותו לקל להחלפת שרת ה-API של OpenAI בנקודת הקצה החדשה של AMA. כתובת ה-URL הבסיסית ברירת המחדל עבור ממשק ה-API של AMA היא http://localhost:11434/v1
, והמפתח API הוא פשוט "AMA".
לאחר מכן, עליך לעדכן את קובץ settings.yml בפרויקט ה-Graph RAG שלך כדי להצביע על נקודת הקצה החדשה של ממשק ה-API של AMA ועל המודל. הגדר את llm.api_key
ל-"AMA", את llm.model
ל-"Llama 3" ואת llm.base_api
לנקודת הקצה המקומית של ממשק ה-API של AMA.
אם אתה משתמש בממשק ה-API של Gro כדי לשרת את המודל, עליך לעדכן את llm.api_key
לנקודת הקצה של ממשק ה-API של Gro ואת llm.model
למודל Llama 370 מיליארד. בנוסף, עליך להגדיר את llm.requests_per_minute
לערך נמוך יותר (למשל, 30) כדי למנוע עיכובים.
תהליך האינדקסציה יכול לקחת זמן משמעותי, במיוחד בעת שימוש במודל גדול יותר. על מחשב M2 MacBook Pro עם 96GB RAM, תהליך האינדקסציה לקח כ-27 דקות להשלים 50-58% מהמשימה.
לאחר השלמת האינדקסציה, ניתן להריץ את שאילתת ה-Graph RAG באמצעות אותה שאלה כמו בסרטון הקודם. התגובה ממודל Llama 3 עשויה שלא להיות טובה כמו התגובה ממודל GPT-4, מכיוון שבחירת מודל השפה קריטית יותר עבור מערכות Graph RAG בהשוואה למערכות שאילתות מסורתיות.
הערכת ביצועי LLM מקומי: השוואה ל-GPT-4
הערכת ביצועי LLM מקומי: השוואה ל-GPT-4
שימוש במודל שפה מקומי כמו Llama 3 עבור מערכת ה-Graph Rack יכול להיות מאתגר בהשוואה לשימוש במודל חזק יותר כמו GPT-4. הסיבות העיקריות הן:
-
استخراج ישויות וזיהוי יחסים: איכות הגרף הידע שנבנה על ידי Graph Rack תלויה במידה רבה ביכולת של ה-LLM לזהות בדיוק ישויות ואת היחסים ביניהן מהטקסט הקלט. מודלים קטנים כמו Llama 3 עשויים להתקשות במשימה זו, מה שמוביל לגרף ידע ירוד.
-
ייצור תקציר: Graph Rack מסתמך על ה-LLM כדי לייצר תקצירים של הקהילות המזוהות בתוך גרף הידע. מודל LLM חזק יותר כמו GPT-4 מתאים יותר למשימה זו, ומייצר תקצירים קוהרנטיים ומידעיים יותר.
-
הנדסת שאלות: מודלי LLM שונים מגיבים באופן שונה לאותה שאלה. לאופטימיזציה של השאלות עבור מודל קטן כמו Llama 3 נדרש יותר מאמץ וניסוי בהשוואה לשימוש ב-GPT-4, שהראה ביצועים טובים יותר בשאלות מועטות.
הנדסת פרומפט: המפתח לשחרור הפוטנציאל של LLM
הנדסת פרומפט: המפתח לשחרור הפוטנציאל של LLM
הנדסת שאלות היא היבט קריטי בעבודה עם מודלי שפה גדולים (LLMs) בהקשר של מערכות מבוססות גרף לאחזור ויצירה מוגברת (graph-RAG). בחירת ה-LLM קריטית יותר במערכות graph-RAG בהשוואה למערכות אחזור מסורתיות, מכיוון שה-LLM ממלא תפקיד מרכזי בהסקת ישויות, זיהוי יחסים וייצור תקצירים קוהרנטיים.
בעת שימוש במודל LLM קטן כמו Lama-38B, המודל עשוי להתקשות לזהות בדיוק ישויות ויחסים מהטקסט, מה שמוביל ליצירת גרף ידע ירוד. זה, בתורו, מוביל לתקצירים ותגובות לא אופטימליים. לעומת זאת, מודלי LLM גדולים יותר כמו Lama-370B או GPT-4 יש יכולת גדולה יותר להבין את העדינויות של הטקסט וליצור פלטים מדויקים ומידעיים יותר.
עם זאת, השימוש פשוט במודל LLM גדול יותר אינו פתרון קסם. הנדסת שאלות הופכת קריטית כדי להבטיח שה-LLM מקבל את ההקשר והוראות המתאימים כדי לייצר את התגובות הרצויות. שאלות שפועלות היטב עבור מודל LLM אחד עשויות שלא להיות אפקטיביות באותה מידה עבור אחר, מכיוון שלמודלים שונים יש נקודות חוזק וחולשה ייחודיות.
כדי לנצל את הפוטנציאל המלא של מערכות graph-RAG, חשוב לעצב בקפידה שאלות המותאמות למודל ה-LLM הספציפי שבשימוש. זה עשוי לכלול ניסוי עם פורמטים, אורכים וסגנונות שונים של שאלות כדי למצוא את הגישה היעילה ביותר עבור מודל LLM ומשימה נתונים. בנוסף, ניטור ביצועי המודל ושיפור השאלות באופן איטרטיבי יכול להוביל לשיפורים משמעותיים באפקטיביות הכוללת של המערכת.
חקירת יישומי Graph RAG חלופיים: כיוונים עתידיים
חקירת יישומי Graph RAG חלופיים: כיוונים עתידיים
בחלק זה, נחקור יישומים חלופיים של מסגרת ה-Graph RAG ונדון בכיוונים עתידיים אפשריים עבור גישה זו.
בעוד שהסרטון הקודם הדגים את השימוש במודל Llama מקומי עם מערכת ה-Graph RAG, התוצאות הדגישו את החשיבות של בחירת מודל שפה באיכות גבוהה לביצועים אופטימליים. בחירת מודל השפה היא גורם קריטי בגישת ה-Graph RAG, מכיוון שהיא משפיעה ישירות על استخراج ישויות וזיהוי יחסים, שהם קריטיים לבניית ג
שאלות נפוצות
שאלות נפוצות