הרחבת ההקשר של Llama-3 ל-1M+ אסימונים: השפעה על הביצועים

הרחבת ההקשר של Llama-3 ל-1M+ אסימונים: חקירת ההשפעה על הביצועים. פוסט הבלוג הזה בוחן את היכולות של דגם Llama-3 המשופר עם חלון הקשר של מיליון אסימונים, תוך ניתוח ביצועיו במשימות כמו אחזור מידע, סיבוב והסברה, וסיוע בקידוד.

23 בפברואר 2025

party-gif

שחרר את הכוח של הקשר מורחב עם הגרסה האחרונה של Llama-3, המסוגלת כעת לטפל בעד מיליון אסימונים. גלה כיצד התקדמות זו משפיעה על הביצועים וחקור את הפוטנציאל שלה כעוזר קידוד מגוון ככלי אחזור מידע.

יתרונות של הרחבת Llama-3 ל-1M+ טוקנים

הגרסה המורחבת של Llama-3 עם חלון הקשר של עד מיליון אסימונים מציגה מספר יתרונות:

  1. שיפור באחזור מידע: חלון הקשר הגדול יותר מאפשר למודל לאחזר מידע רלוונטי טוב יותר מהקלט הנתון, כפי שמוכח בתוצאות המרשימות במבחן "מחט בערימת שחת".

  2. יכולות סיבוכיות משופרות: למרות שלא נכללו תוצאות לאחזור של מספר עובדות, הביצועים החזקים של המודל באחזור של עובדה יחידה מרמזים על שיפורים פוטנציאליים ביכולות הסיבוכיות שלו בהשוואה למודלים עם חלונות הקשר קטנים יותר.

  3. הדרכה יעילה: תהליך ההדרכה של מודל Llama-3 המורחב היה מהיר יחסית, ודרש רק 1.4 מיליארד אסימונים, שהם פחות מ-0.1% מנתוני ההדרכה המקוריים של Llama-3. גישת ההדרכה היעילה הזו היא עדות לאפקטיביות של טכניקת האופטימיזציה של Rope Theta.

  4. דרישות זיכרון מופחתות: הגרסה המקוטנעת ב-4 סיביות של מודל Llama-3 המורחב יכולה להיות מופעלת במערכות עם כמות זיכרון וידאו של 64GB בלבד, מה שהופך אותה נגישה למגוון רחב יותר של משתמשים וחוקרים.

  5. פוטנציאל לביצועים משופרים: למודל Llama-3 המורחב יש פוטנציאל לעבור את הביצועים של המודל המקורי בעל 8 מיליארד פרמטרים במשימות הדורשות אחזור ושיקול דעת של מידע מתוכן ארוך, כמו עזרה בקידוד ואחזור מידע.

בכללות, מודל Llama-3 המורחב עם חלון הקשר המורחב שלו מהווה צעד משמעותי קדימה בפיתוח של מודלי שפה גדולים, מציג את היתרונות של מאמצים בקוד פתוח בדחיפת הגבולות של מה שניתן להשיג.

הבנת בדיקת המחט בערימת השחת

מבחן "מחט בערימת שחת" הוא דרך להעריך את יכולות הסיבוכיות והאחזור של מודלי שפה גדולים (LLMs) כמו Lama 3. במבחן זה, עובדה או הצהרה אקראית מוצבת באמצע של הקשר גדול יותר (ה"ערימת שחת"), והמודל נשאל לאחזר את ההצהרה הזו.

המבחן כולל חזרה על עומקי מסמך ואורכי הקשר שונים כדי למדוד את ביצועי המודל. הבנות מרכזיות מהמבחן הזה הן:

  1. גודל חלון הקשר: חלונות קשר גדולים יותר (למשל, 128,000 אסימונים עבור GPT-4) מאפשרים למודל לאחזר טוב יותר עובדה יחידה, ללא קשר למיקומה בהקשר. עם זאת, ככל שגודל חלון הקשר גדל, דיוק המודל באחזור מספר עובדות מההקשר מתחיל להידלדל.

  2. אחזור לעומת סיבוכיות: מבחן "מחט בערימת שחת" מדגיש את הפשרה בין יכולות האחזור של המודל (למצוא עובדה יחידה) ליכולות הסיבוכיות שלו (להבין ולאחזר מספר עובדות). חלונות קשר גדולים משפרים את האחזור, אך יכולים להשפיע לרעה על ביצועי הסיבוכיות של המודל.

  3. ביצועי Lama 3: הגרסה המורחבת של Lama 3 עם חלון קשר של מיליון אסימונים מבצעת היטב במשימת אחזור עובדה יחידה, אך המחברים לא כללו תוצאות לאחזור של מספר עובדות. מידע זה היה חשוב כדי להבין לעומק את יכולות המודל.

אימון דגם Llama-3 בן 1M+ טוקנים

מודל Llama-3 עם חלון קשר של מיליון אסימונים פותח באמצעות מאמצים בקוד פתוח. המודל המקורי של Llama-3 היה בעל חלון קשר קטן הרבה יותר של 8,000 אסימונים, שהוא קטן בהרבה בהשוואה למודלי שפה גדולים אחרים (LLMs) כמו Mistral 7B Instruct, שיש לו חלון קשר של 32,000 אסימונים.

החוקרים הצליחו להרחיב את חלון הקשר של Llama-3 למיליון אסימונים באמצעות טכניקה הנקראת אופטימיזציית Rope Theta. זה אפשר להם להשיג את הגדלה משמעותית זו בגודל חלון הקשר עם הדרכה נוספת מינימלית, תוך שימוש ב-1.4 מיליארד אסימונים בלבד, שהם פחות מ-0.1% מנתוני ההדרכה המקוריים של Llama-3.

תהליך ההדרכה כלל הגדלה הדרגתית של גודל חלון הקשר, החל מ-65,000 אסימונים, ואז 260,000 אסימונים, וסופית הגיע למיליון אסימונים. גישה זו בשלבים אפשרה לחוקרים להדריך את המודל ביעילות מבלי להשקיע משאבים חישוביים מופרזים.

תוצאות המאמץ הזה מרשימות, במיוחד במבחן "מחט בערימת שחת", שבו המודל מציג ביצועים חזקים באחזור עובדה יחידה מתוך חלון הקשר הגדול. עם זאת, החוקרים לא כללו תוצאות ליכולת המודל לאחזר מספר עובדות, מידע שהיה חשוב.

בנוסף, החוקרים לא סיפקו השוואה של ביצועי הגרסה בעלת מיליון האסימונים לעומת המודל המקורי של Llama-3 על בנצ'מרקים שונים. מידע זה היה שימושי להבנת השיפורים הכוללים שהושגו על ידי הרחבת חלון הקשר.

הרצת דגם Llama-3 בן 1M+ טוקנים באופן מקומי

כדי להפעיל את הגרסה בעלת מיליון האסימונים של מודל Llama-3 באופן מקומי, תצטרך להשתמש ביישום Llama שסיפק צוות Anthropic, הידוע בשם OLlama. להלן השלבים:

  1. התקן את OLlama במערכת שלך. אתה יכול למצוא הוראות בסרטונים הקודמים שצוינו בתיאור.

  2. הורד את מודל Llama-3 Gradient בעל מיליון האסימונים. אתה יכול למצוא את הקישור בפרוטוקול.

  3. הפעל את פקודת OLlama כדי לטעון את המודל:

    oma run Llama3-gradient
    

    זה יוריד את המודל לראשונה, תהליך שעשוי להימשך זמן מה.

  4. הגדר את חלון הקשר לגודל הרצוי. בדוגמה, חלון הקשר מוגדר ל-256,000 אסימונים:

    /set_parameter context_window 256000
    

    זכור שדרישות הזיכרון להפעלת מודל בעל מיליון אסימונים יכולות להיות מעל 100 ג'יגה-בייט של זיכרון וידאו, אז ודא שלמערכת שלך יש די משאבים.

  5. בדוק את יכולות המודל על ידי ניסיון של פרומפטים שונים, כמו בדיקת ההתנהגות הלא מצונזרת, היכולות הסיבוכיות והעזרה בקידוד.

הערכת ביצועי הדגם על פי פרומפטים שונים

ביצועי המודל נבדקו על מגוון פרומפטים כדי להעריך את יכולותיו:

  1. פרומפטים לא מצונזרים: המודל היה יחסית לא מצונזר בהשוואה לגרסאות קודמות, מסרב לספק הוראות לפעילויות בלתי חוקיות כמו לשבור לרכב. עם זאת, הוא היה מוכן לספק מידע על כיצד להרוג תהליך Linux, מדגים את יכולתו לספק מידע טכני.

  2. יכולות סיבוכיות: המודל ביצע היטב במשימות סיבוכיות, מזהה נכונה שאין "סאלי" בבעיה הנתונה ומקבע את מספר האחים. הוא גם הצליח ליצור בדיחה פשוטה, מציג את יכולותיו היצירתיות.

  3. אחזור מידע: המודל ביצע היטב במשימות אחזור הקשר הקצר, עונה בדיוק על שאלות על בסיס המידע שסופק. עם זאת, כשנבדק על מסמך ארוך בן 27 עמודים עם הצהרה לא רלוונטית, המודל נכשל באחזור המידע הלא רלוונטי, במקום זאת הוא הזיין תגובות.

  4. עזרה בקידוד: המודל הצליח לזהות ולתקן שגיאות בתוכנית Python פשוטה, מדגים את הפוטנציאל שלו כעוזר קידוד.

בכללות, המודל הציג מזיג של יכולות והגבלות. בעוד שהוא ביצע היטב במשימות כלליות ובעזרה בקידוד, הוא נאבק באחזור מידע מהקשר ארוך, כנראה בשל השפעות הקוונטיזציה. מאמצי הקהילה בקוד פתוח להרחבת חלון הקשר של המודל ראויים להערכה, אך שיפורים נוספים עשויים להיות דרושים כדי להתמודד עם בעיות ההזיה שנצפו במבחנים.

מגבלות הגרסה המקוונת ב-4 ביטים

בדיקת הגרסה המקוטנעת ב-4 סיביות של מודל Llama 3 עם חלון קשר של מיליון אסימונים חשפה מספר מגבלות:

  1. הזיה ואחזור לא מדויק: כשהוצג עם הקשר גדול של 27 עמודים, המודל נאבק לאחזר מידע ספציפי בדיוק. במקום זאת, הוא לעתים קרובות הזיה פרטים לא רלוונטיים או יצר טקסט שאינו הגיוני.

  2. תוצרי לוואי של הקוונטיזציה: הקוונטיזציה הכבדה של המודל ל-4 סיביות נראה שפגעה ביכולות הסיבוכיות והאחזור שלו, בעיקר כשמתמודדים עם תוכן ארוך. זה כנראה בשל אובדן הדיוק במהלך תהליך הקוונטיזציה.

  3. בעיות אפשריות עם יישום AMA: המחבר חושד שיישום AMA אולי לא מטפל כראוי בסימן סוף הרצף, מה שעשוי לתרום לנטייה של המודל ליצור מחזורים אינסופיים של טקסט חסרי קוהרנטיות.

שאלות נפוצות