גוגל גמה-2: תובנות טכניות ופריצות דרך בדגמי שפה גדולים

גלה את התובנות הטכניות והפריצות הטכנולוגיות שמאחורי דגמי השפה Gemma-2 של Google. חקור את האדריכלות, טכניקות האימון והמדדים לביצועים שהופכים את דגמי השפה הגדולים האלה למיוחדים. קבל הבנה עמוקה יותר של ההתקדמויות בתחום זה.

14 בפברואר 2025

party-gif

פתח את עוצמת ההתקדמויות האחרונות בדגמי שפה עם דו"ח טכני מעמיק של Gemma 2. גלה כיצד הגישה החדשנית של Google לדילול ידע ושיפורים ארכיטקטוניים הובילו לביצועים מהמובילים בעולם בבנצ'מרקים אקדמיים ויישומי צ'אטבוט בעולם האמיתי. ניתוח מקיף זה מספק תובנות חשובות שיכולות לעזור לך לנצל את דגמי השפה החדישים האלה כדי לשפר את הפרויקטים שלך.

חידושים אדריכליים בג'מה 2

Gemma 2, הדגם החדש של שפה פתוח-מקור של Google, מציג מספר חידושים ארכיטקטוניים שתורמים לביצועיו החזקים. הדגם משתמש בארכיטקטורת Transformer עם מפענח בלבד, אשר מפשטת את עיצוב הדגם בהשוואה למבנה המקודד-מפענח המסורתי.

חידוש מרכזי הוא השימוש בגודל אוצר מילים גדול של 256,000 אסימונים. זה מאפשר לדגם לטפל במגוון רחב של משימות רב-לשוניות, למרות שהוא מודרך בעיקר על נתוני אנגלית. גודל אוצר המילים הגדול מספק לדגם הבנה לקסיקלית עשירה, מאפשר לו לבצע היטב במגוון תחומי שפה.

בנוסף, ארכיטקטורת Gemma 2 כוללת מספר שינויים לעיצוב Transformer הסטנדרטי. אלה כוללים התאמות למנגנון תשומת הלב, נורמליזציית שכבה, וחיבורים שיריריים, שנועדו לשפר את יעילות והאפקטיביות של הדגם. הדו"ח הטכני מספק תובנות מפורטות על בחירות ארכיטקטוניות אלה והשפעתן על ביצועי הדגם.

יתרה מכך, Gemma 2 מנצל גישת הפחתת ידע כדי להכשיר גרסאות דגם קטנות יותר, כמו הגרסאות בעלות 9 מיליארד ו-27 מיליארד פרמטרים. על ידי הפחתת ידע מדגם מורה גדול יותר, הדגמים התלמידים הקטנים יכולים להשיג תוצאות חזקות תוך שמירה על גודל יותר מעשי להטמעה. טכניקה זו מדגימה את הפוטנציאל להכשרת מודלי שפה בעלי ביצועים גבוהים ביעילות מבלי לדרוש מאגרי נתונים ומשאבים חישוביים עצומים.

באופן כללי, החידושים הארכיטקטוניים ב-Gemma 2 תורמים לביצועיו ברמה העולמית בפרמטרים שונים, הופכים אותו לבחירה מרשימה למגוון רחב של משימות עיבוד שפה טבעית.

מגוון סטים של נתוני אימון בשימוש

דגמי Gemini 2 של Google הוכשרו על מגוון מקורות נתונים, כולל מאגרי נתונים פנימיים וציבוריים חיצוניים. ההיבטים המפתחים של נתוני האימון הם:

  1. פרומטים של LMS Chat: הצוות השתמש בפרומטים (אך לא בתשובות) ממאגר הנתונים הציבורי LMS Chat, המכיל פרומטים של שיחות. זה אפשר לדגמים ללמוד ממגוון רחב של תרחישי שיחה מבלי להיות מוטים על ידי התשובות המוקדמות.

  2. נתונים פנימיים: בנוסף לנתונים הציבוריים, הצוות השתמש גם במקורות נתונים פנימיים לאימון מוקדם של הדגמים. זה סביר להניח שסיפק לדגמים בסיס ידע רחב ומגוון יותר.

  3. סינון נתונים: כל נתוני האימון עברו תהליך סינון קפדני כדי להסיר תוכן בלתי בטוח או כפול. זה סייע להבטיח שהדגמים למדו מנתונים איכותיים ומנוקים.

  4. מפענח רב-לשוני: הדגמים משתמשים במפענח עם אוצר מילים גדול של 256,000 אסימונים, מה שמאפשר להם לטפל במגוון רחב של שפות, כולל שפות שאינן אנגלית, במהלך האימון והסקה.

בזכות ניצול מגוון זה של נתוני אימון, דגמי Gemini 2 הצליחו לרכוש בסיס ידע רחב ועמיד, שככל הנראה תרם לביצועיהם החזקים בפרמטרים ובמשימות שיחה בעולם האמיתי.

הפחתת ידע: שיפור של דגמים קטנים יותר

אחד האתגרים המרכזיים באימון מודלי שפה גדולים הוא הצורך בכמויות עצומות של נתונים כדי להתאים אותם בצורה יעילה. אפילו הדגמים הקטנים יותר במשפחת Gemini 2 דורשים כמות נתונים משמעותית, כאשר משפחת Lamda 3 מתואמנת על עד 15 טריליון אסימונים, מה שמניב פחות מ-1% שיפור בהשוואה למודלים ברמה העולמית.

כדי להתמודד עם בעיה זו, צוות Gemini 2 אימץ טכניקה הנקראת הפחתת ידע. גישה זו כוללת שימוש במודל "מורה" גדול יותר, כמו Gemini 1.5 או Colossal-AI, כדי להכשיר מודל "תלמיד" קטן יותר. במקום לחזות ישירות את האסימון הבא, המודל התלמיד מאומן להתאים את התפלגות ההסתברות של המודל המורה, תוך שימוש בפיזור קולבק-לייבלר (KL) כפונקציית אובדן.

תהליך הפחתת הידע הזה מיושם הן בשלב האימון המוקדם והן בשלב הכוונון המדויק עבור הדגמים הקטנים יותר של Gemini 2 בעלי 9 ו-2 מיליארד פרמטרים. לעומת זאת, הדגם בעל 27 מיליארד הפרמטרים מאומן מההתחלה ללא שימוש בהפחתת ידע.

היתרונות של גישה זו הם כפולים. ראשית, היא מאפשרת לדגמים הקטנים יותר להפיק תועלת מהידע והיכולות של המודל המורה הגדול יותר, משפרת את ביצועיהם בפרמטרים ובמשימות. מחקרי ההשמטה המוצגים במאמר מראים שהדגם בעל 2 מיליארד אסימונים שאומן באמצעות הפחתת ידע משיג ציון של 67.8, לעומת רק 60 כאשר אומן מההתחלה.

שנית, תהליך הפחתת הידע גם משפר את הפרפלקסיה של הדגמים הקטנים יותר, מה שהופך אותם ליעילים יותר במהלך הסקה. המאמר מציין שהשינוי בגודל החלון הנע במהלך הסקה משפיע במינימום על הפרפלקסיה, מאפשר מהירות סקה מהירה יותר ללא הידרדרות משמעותית בביצועים.

באופן כללי, השימוש בהפחתת ידע בדגמי Gemini 2 הוא גישה מבטיחה להכשרת מודלי שפה קטנים יותר ויעילים יותר מבלי לוותר על ביצועים. טכניקה זו עשויה להיות בעלת השלכות רחבות יותר על פיתוח מערכות AI מעשיות ובעלות ביצועים גבוהים.

תבנית הפעלה והבנייה של שיחה

דגם Gemini 2 משתמש בתבנית פרומט ספציפית עבור שיחות חד-פעמיות. מבנה הפרומט הוא כדלקמן:

<start_of_conversation>
<user_role>
<end_of_turn>
<model_role>
<end_of_sequence>

עבור סיבוב שני בשיחה, הפרומט היה מתווסף כך:

<start_of_conversation>
<user_role>
<end_of_turn>
<model_role>
<end_of_turn>
<user_role>
<end_of_sequence>

הנקודות המפתחות הן:

  • הפרומט מתחיל עם האסימון <start_of_conversation>.
  • האסימון <user_role> מציין את חלקו של המשתמש בשיחה.
  • האסימון <end_of_turn> מפריד בין קלט המשתמש ותגובת המודל.
  • האסימון <model_role> מציין את חלקו של המודל בשיחה.
  • האסימון <end_of_sequence> מסמן את סוף השיחה.

תבנית הפרומט המבנית הזו מאפשרת למודל להבין את ההקשר והזרימה של השיחה, מה שעשוי לתרום לביצועיו החזקים בפרמטרים מבוססי שיחה.

ניצול נתוני צ'אט של LMS לביצועים עליונים

הגישה של Google להכשרת דגמי Gemma 2 כללה ניצול הפרומטים ממאגר הנתונים LMS chat, אך לא את התשובות בפועל. במקום זאת, הם השתמשו במודל המורה כדי לייצר תשובות לפרומטים האלה, אשר לאחר מכן שימשו להכשרת הדגמים התלמידים באמצעות הפחתת ידע.

אסטרטגיה זו יכולה להיות בעלת מספר יתרונות פוטנציאליים:

  1. הימנעות מהטיות: על ידי שלא להשתמש בתשובות המוקדמות ממאגר הנתונים LMS chat, המודל מעודד להיות יצירתי ואלסטי יותר בפלטים שלו, במקום פשוט לחקות את ההטיות הקיימות במאגר הנתונים.

  2. ניצול מומחיות המודל המורה: המודל המורה, שהוא גדול ויותר מסוגל, משמש לייצור תשובות באיכות גבוהה לפרומטי LMS chat. תשובות אלה משמשות לאחר מכן להכשרת הדגמים התלמידים, מאפשרות להם להנות מהמומחיות של המורה.

  3. שיפור ביצועים בפרמטרי LMS: תהליך הפחתת הידע, בשילוב עם השימוש בפרומטי LMS chat, סביר להניח שעוזר לדגמי Gemma 2 להשיג ביצועים טובים יותר בפרמטרים ובמשימות הקשורות ל-LMS, מאחר שהם אומנו באופן ספציפי על סוג נתונים זה.

באופן כללי, גישה זו מדגימה את המאמצים של Google לנצל מקורות נתונים מגוונים וטכניקות אימון חדשניות כדי לשפר את ביצועי מודלי השפה שלהם, בפרט במשימות ובפרמטרים רלוונטיים ליישומים בעולם האמיתי.

מחקרי אבלציה: אימות היעילות של טכניקות

המאמר מציג מחקרי השמטה חשובים המאמתים את האפקטיביות של הטכניקות המשמשות באימון דגמי Gemini 2. מחקרים אלה מספקים תובנות חשובות:

  1. השפעת הפחתת הידע: המחקר ההשמטתי מראה שעבור הדגם הקטן בעל 2 מיליארד פרמטרים, אימון מההתחלה משיג ציון ממוצע של 60 בפרמטרים, בעוד שתהליך הפחתת הידע מעלה זאת ל-67.8 - שיפור משמעותי. זה מדגים את הכוח של הפחתת הידע בשיפור ביצועי הדגמים הקטנים יותר, מבלי לדרוש כמויות עצומות של נתוני אימון.

  2. **גודל החלון

שאלות נפוצות