לשחרר 90% מאיכות GPT-4 בעלות של 80% פחות עם RouteLLM

לשחרר 90% מאיכות GPT-4 בעלות של 80% פחות עם RouteLLM, מסגרת קוד פתוח לניתוב מודל שפה גדול בעלות יעילה. לייעל את הביצועים והיעילות עם גישה חדשנית באמצעות נתוני העדפה.

15 בפברואר 2025

גלה כיצד RouteLLM, מסגרת קוד פתוח, יכולה להפחית באופן משמעותי את עלות הפעלת דגמי שפה גדולים (LLMs) בעד 80% תוך שמירה על 95% מביצועי GPT-4. גישה חדשנית זו מציעה פתרון לדילמה של איזון עלות ואיכות בעת הטמעת LLMs, מה שהופך את הבינה המלאכותית לנגישה ויעילה יותר.

הפתרון היעיל מבחינת עלויות וביצועים גבוהים: RouteLLM
ניצול נתוני העדפה לאימון נתבים
הערכת RouteLLM: חיסכון משמעותי בעלויות מבלי לפגוע באיכות
הדגמת יכולת הכללה: RouteLLM פני זוגות דגמים שונים
התמונה הגדולה יותר: מדוע RouteLLM מרגש אותי
מסקנה

הפתרון היעיל מבחינת עלויות וביצועים גבוהים: RouteLLM

RouteLLM היא מסגרת קוד פתוח שפותחה על ידי LM.org והמציעה פתרון בעלות יעילה להטמעת דגמי שפה גדולים (LLMs) מבלי לפגוע בביצועים. החידוש המרכזי של RouteLLM הוא היכולת שלה לנתב שאילתות אל הדגם ה-LLM המתאים ביותר, תוך איזון בין עלות ואיכות.

המסגרת מתמודדת עם הדילמה שעולה בעת הטמעת LLMs, כאשר השימוש בדגם הגדול והמסוגל ביותר מוביל לתגובות באיכות הגבוהה ביותר אך עלול להיות יקר מדי. RouteLLM פותרת זאת על ידי עיבוד כל שאילתה תחילה דרך מערכת ניתוב המחליטה איזה LLM להשתמש בו. שאילתות שניתן לטפל בהן באמצעות דגמים חלשים וזולים יותר מנותבות לדגמים אלה, בעוד שאילתות מורכבות יותר מנותבות לדגמים חזקים יותר, מה שמקטין את העלויות הכוללות תוך שמירה על איכות התגובות.

החוקרים שמאחורי RouteLLM הדגימו חיסכון משמעותי בעלויות מבלי לפגוע בביצועים. הניסויים שלהם מראים על חיסכון בעלויות של למעלה מ-85% במדד MT, 45% במדד MLU ו-35% במדד GSMA-K, בהשוואה לשימוש רק בדגם המסוגל ביותר (GPT-4), תוך השגת 95% מביצועיו.

RouteLLM משיגה תוצאות מרשימות אלה על ידי ניצול נתוני העדפה, המאפשרים למערכת הניתוב ללמוד על נקודות החוזק והחולשה של דגמים שונים וכיצד הם קשורים לשאילתות ספציפיות. החוקרים חקרו טכניקות ניתוב שונות, כולל דירוג משוקלל על פי דמיון, פקטוריזציה מטרית וסיווגי מבוססי מודלי שפה, שכולם הראו שיפורים משמעותיים לעומת קו הבסיס של ניתוב אקראי כאשר הוגברו באמצעות שופט מבוסס LLM.

יתרה מכך, מסגרת RouteLLM הדגימה יכולת להכללה, שכן החוקרים הצליחו להשתמש באותם מנתבים ללא הדרכה מחדש לניתוב בין זוגות דגמים שונים, כמו CLA-3 Opus ו-Llama 38B, תוך חיסכון בעלויות ותועלות ביצועים דומים.

בכללותו, RouteLLM מייצג התפתחות מרגשת בתחום הטמעת דגמי שפה גדולים, המציעה פתרון בעלות יעילה וביצועים גבוהים שיכול לפתוח אפשרויות חדשות ליישומי בינה מלאכותית ולדחוף את הגבולות של מה שניתן להשיג באמצעות LLMs.

ניצול נתוני העדפה לאימון נתבים

המאמר מציג גישה חדשנית לאימון מנתבים עבור ניתוב דגמי שפה גדולים (LLM), המנצלת נתוני העדפה. כל נקודת נתונים בנתוני ההעדפה מורכבת מפרומפט ומהשוואה בין איכות התגובה של שני דגמים לאותו פרומפט. זה יכול להיות ניצחון עבור הדגם הראשון, ניצחון עבור הדגם השני או תיקו.

שימוש בנתוני העדפה מאפשר לחוקרים ללמוד על נקודות החוזק והחולשה של דגמים שונים וכיצד הם קשורים לשאילתות, מה שיעיל לאימון מנתבים. הם אימנו ארבעה מנתבים שונים באמצעות שילוב של נתוני ChatGPT Arena ועיבוד נתונים:

מנתב דירוג משוקלל על פי דמיון: מנתב זה משתמש בגישת דירוג משוקלל על פי דמיון כדי לקבוע איזה דגם לנתב את השאילתה אליו.
מודל פקטוריזציה מטרית: מנתב זה משתמש במודל פקטוריזציה מטרית כדי ללמוד את ההעדפות בין דגמים ושאילתות.
מסווג BERT: מנתב זה משתמש במסווג מבוסס BERT כדי לחזות איזה דגם יבצע טוב יותר על שאילתה נתונה.
מסווג מבוסס LLM סיבתי: מנתב זה משתמש במסווג מבוסס מודל שפה סיבתי כדי לחזות איזה דגם יבצע טוב יותר על שאילתה נתונה.

החוקרים העריכו את ביצועי מנתבים אלה במדדי MT bench, MLU ו-GSM8K, ומצאו שהם יכולים להפחית באופן משמעותי את העלויות (למעלה מ-85% במדד MT bench, 45% במדד MLU ו-35% במדד GSM8K) מבלי לפגוע באיכות, תוך השגת 95% מביצועי הדגם החזק ביותר (GPT-4).

חשוב לציין, שהחוקרים הדגימו גם את יכולת ההכללה של המסגרת שלהם על ידי שימוש באותם מנתבים (ללא הדרכה מחדש) לניתוב בין זוג דגמים שונה (CLA 3 Opus ו-Llama 38B) והשגת שיפורים דומים בעלות-יעילות.

הערכת RouteLLM: חיסכון משמעותי בעלויות מבלי לפגוע באיכות

החוקרים העריכו את RouteLLM באמצעות נתונים ציבוריים מ-ChatAO והדגימו חיסכון משמעותי בעלויות מבלי לפגוע באיכות:

במדד MT, הם השיגו חיסכון בעלויות של למעלה מ-85% בהשוואה לשימוש רק ב-GPT-4, תוך השגת 95% מביצועיו.
במדד MLU, הם השיגו חיסכון בעלויות של 45%.
במדד GSM8K, הם השיגו חיסכון בעלויות של 35%.

ההערכה התמקדה במקרה שבו יש שני דגמים - דגם חזק ויקר יותר (GPT-4) ודגם חלש וזול יותר (Megatron-LM 8x7B). החוקרים השתמשו במנתב אקראי כקו בסיס וחקרו טכניקות ניתוב שונות, כולל הגברת נתוני האימון באמצעות שופט מבוסס LLM.

התוצאות מראות שטכניקות הניתוב המוגברות עלו בביצועים באופן משמעותי על המנתב האקראי. החוקרים הדגימו גם את יכולת ההכללה של המסגרת שלהם על ידי שימוש באותם מנתבים לניתוב בין זוג דגמים שונה (CLA-3 Opus ו-LLaMA 38B) ללא הדרכה מחדש, והשיגו שיפורים דומים בחיסכון בעלויות.

המפתח להצלחת RouteLLM הוא היכולת שלה ללמוד את נקודות החוזק והחולשה של דגמים שונים ולנתב שאילתות בהתאם, מה שמקטין את השימוש בדגם היקר יותר תוך שמירה על תגובות באיכות גבוהה. גישה זו מתיישרת עם החזון של החוקרים למערכת LLM היברידית המשלבת דגמים מקומיים ובקוד פתוח עם דגמים חזיתיים כמו GPT-4, מאופטמת לעלות, יעילות, פרטיות וביטחון.

הדגמת יכולת הכללה: RouteLLM פני זוגות דגמים שונים

בעוד שההערכות הראשוניות של RouteLLM נערכו באמצעות זוג הדגמים GPT-4 ו-Megatron-LM 8x7B, החוקרים רצו גם להדגים את יכולת ההכללה של המסגרת שלהם. לשם כך, הם הציגו תוצאות עבור מדד MT-Bench כאשר מנתבים בין זוג דגמים שונה: הדגם היקר והמסוגל יותר Chinchilla 3 Opus והדגם הזול יותר Llama 38B.

חשוב לציין, שהחוקרים השתמשו באותם מנתבים ללא הדרכה מחדש, מדגימים את היכולת של RouteLLM להכליל לשילובי דגמים חדשים. התוצאות הראו שגישת RouteLLM המשיכה לספק חיסכון משמעותי בעלויות תוך שמירה על ביצועים גבוהים, אפילו כאשר יושמה על זוג דגמים חדש זה.

יכולת ההכללה הזו היא חוזקה המרכזי של מסגרת RouteLLM, שכן היא מאפשרת למערכת להיות מוטמעת במגוון תצורות של דגמי שפה גדולים ללא צורך בהדרכה מחדש או כוונון ספציפי לדגם. על ידי הדגמת היעילות של RouteLLM בין זוגות דגמים שונים, החוקרים הדגישו את היישומיות הרחבה והחוסן של גישתם להטמעת LLM בעלות יעילה.

התמונה הגדולה יותר: מדוע RouteLLM מרגש אותי

אני מתרגש לגבי RouteLLM מכמה סיבות עיקריות:

הפחתת עלויות: אם נוכל להפחית את העלות של שימוש בדגמי שפה גדולים (LLMs), זה יביא לתועלות נרחבות. זה יאפשר למספר רב יותר של אנשים ויישומים להשתמש בבינה מלאכותית, תוך שימוש בפחות אנרגיה בתהליך.
פריצות דרך אלגוריתמיות: טכניקות כמו Mixture of Experts ו-Chain of Thought משתמשות בפחות טוקנים, כך שיש לנו טוקנים זולים יותר מאפשר לנו להשתמש בהם לעתים תכופות יותר, מה שמוביל לתוצאות באיכות גבוהה יותר.
שימוש יעיל בבינה מלאכותית: גישת RouteLLM של ניתוב שאילתות אל הדגם המתאים ביותר, בין אם מקומי או מבוסס ענן, מאופטמת לעלות, יעילות ואיכות. זה דוחף יותר חישוב להתקני מקומיים/קצה, מה שמקטין את התלות בדגמים יקרים מבוססי ענן.
זמינות בקוד פתוח: המחברים שחררו את מערכת הקוד הפתוח המלאה, מה שתמיד מרגש לראות. זה מאפשר לקהילה לבנות ולשפר את המסגרת.

בכללותו, RouteLLM מייצג צעד משמעותי לקראת הנגשה, יעילות ועלות-יעילות של דגמי שפה גדולים. זה מתיישר עם החזון הרחב יותר של מערכת בינה מלאכותית המשלבת דגמים מקומיים, מערכות מבוססות סוכנים ודגמים חזיתיים, מתואמים להספקת האיזון הטוב ביותר בין איכות, עלות, פרטיות וביטחון.

שאלות נפוצות

מהו RouteLLM?

כיצד פועל RouteLLM?

מהם היתרונות העיקריים של RouteLLM?

אילו טכניקות משתמש RouteLLM?

כיצד אוכל לנסות את RouteLLM?

צור את חברת AI שלך

בנה את בן לוויה האידיאלי שלך עם AI Girlfriend Builder שלנו