הערכת ביצועי Phi-3-Mini ב-RAG, ניתוב וסוכנים

הערכת ביצועי Phi-3-Mini על RAG, ניתוב וסוכנים. חקירת יכולות המודל בשימושים מעשיים, כולל שאילתות RAG פשוטות, פירוק שאילתות מורכבות וריכוז סוכנים.

19 בפברואר 2025

party-gif

מאמר הבלוג הזה בוחן את יכולותיו של דגם השפה Phi-3-Mini בשימושים מעשיים, כולל אחזור, ניתוב שאילתות, ומסגרות מבוססות סוכן. התוכן מספק ניתוח מפורט של ביצועי הדגם במגוון משימות, מציע תובנות לגבי נקודות החוזק והמגבלות שלו. הקוראים יקבלו הבנה טובה יותר של התאמת הדגם ליישומים בעולם האמיתי.

אחזור פשוט ו-RAG

המודל מבצע באופן סביר על משימות אחזור פשוטות באמצעות תהליך ה-RAG (Retrieval-Augmented Generation). כאשר נשאל שאלה פשוטה כמו "כיצד OpenAI ו-Meta שונים בכלי AI", המודל מסוגל לספק תגובה מדויקת על ידי דחיסת הקטעים הרלוונטיים של הטקסט וייצור תקציר קוהרנטי. 然, כאשר השאלות הופכות מורכבות יותר, המודל מתחיל להציג מספר מגבלות. לדוגמה, כאשר נשאל "מהם התכונות החדשות שהוספה OpenAI ל-ChatGPT", המודל מייחס בטעות מספר תכונות שהוצגו על ידי Meta ל-OpenAI, מציג נטייה להזיה או לבלבל מידע ממקורות שונים.

ביצועי המודל משתפרים בעת שימוש במצב "סיכום עץ", אשר מסכם באופן רקורסיבי כל קטע טקסט לפני יצירת התגובה הסופית. גישה זו עוזרת להפחית את בעיית המידע הסותר בין הקטעים השונים.

באופן כללי, המודל מציג יכולת סבירה לביצוע משימות אחזור פשוטות באמצעות RAG, אך ביצועיו מתחילים להידרדר כאשר מתמודדים עם שאלות מורכבות יותר הדורשות הבנה עמוקה יותר של המידע הבסיסי.

שאילתות מורכבות ומגבלות RAG

ביצועי המודל על שאלות מורכבות חושפים מספר מגבלות של גישת ה-RAG (Retrieval-Augmented Generation). בעוד שהוא מטפל בשאלות פשוטות באופן סביר, הוא מתקשה עם שאלות מורכבות יותר הכוללות מידע סותר בין קטעי המסמך השונים.

כאשר נשאל לגבי התכונות החדשות שהוצגו על ידי OpenAI, המודל ייחס בטעות מספר תכונות שבאמת הוצגו על ידי Meta. זה מרמז שלמודל יש קושי לפייס ולסנתז מידע ממספר מקורות, במיוחד כאשר יש סתירות או אי-התאמות. יכולות הפירוק של השאלה של המודל, עם זאת, נראות מבטיחות יותר. כאשר הוצגה בפניו שאלה מורכבת, המודל היה מסוגל לפרק אותה לשאלות משנה רלוונטיות ולאחזר מידע בהתאם. זה מרמז שלמודל יש הבנה מסוימת של המבנה הבסיסי של השאלה והוא יכול לנסות להתמודד איתה בדרך שיטתית יותר.

בהקשר של תיאום סוכנים, ביצועי המודל היו מעורבים. עבור שאלות פשוטות, הוא היה מסוגל לקבוע שלא נדרש כלי כלשהו וליצור תגובה בעצמו.然, עבור שאלות מורכבות יותר, המודל התקשה לנצל בצורה אפקטיבית את הכלים הזמינים כדי לספק תשובה מקיפה.

באופן כללי, התוצאות מצביעות על כך שבעוד שלמודל יש מסוימות יכולות בטיפול במשימות מבוססות RAG, הוא עדיין מוגבל כאשר מדובר בשאלות מורכבות ובתיאום סוכנים. שיפורים נוספים ביכולת של המודל לפייס מידע סותר, לסנתז ידע ולנצל בצורה אפקטיבית כלים חיצוניים יהיו הכרחיים כדי להפוך אותו לעמיד יותר עבור סוגי יישומים אלה.

ניתוב שאילתות וחלוקת שאילתות

ביצועי המודל במשימות ניתוב שאלות ופירוק שאלות היו מעורבים.

לגבי ניתוב שאלות, המודל היה מסוגל להשתמש בצורה אפקטיבית בתיאורי הכלים שסופקו כדי לקבוע איזה אחסון וקטורי להשתמש כדי לענות על שאלות ספציפיות. כאשר נשאל שאלה על מידע הקשור ל-Meta, המודל זיהה נכונה את "כלי הוקטור" כמשאב המתאים והספק תגובה רלוונטית. באופן דומה, כאשר נשאל שאלה ספציפית יותר על מספר הצ'אטבוטים המונעים על ידי אישיות שהוצגו על ידי Meta, המודל שוב השתמש באחסון הוקטורי הנכון כדי לאחזר את המידע המדויק.

然, כאשר למודל הורשה לבחור מספר כלים, ביצועיו ירדו. עבור שאלה שביקשה מידע על התכונות העיקריות שהוצגו על ידי OpenAI וחברות אחרות, המודל ייחס בטעות מידע על Tesla ו-Apple, שלא הוזכרו במסמך המקורי. זה מרמז שהמודל עדיין מתקשה בניתוב שאלות מורכבות ועלול להזות מידע בעת ניסיון לשלב מספר מקורות.

המודל ביצע טוב יותר במשימות פירוק שאלות. כאשר הוצגה בפניו שאלה מורכבת על ההבדלים בין האופן שבו Meta ו-OpenAI נדונים, המודל היה מסוגל לפרק אותה לשלוש שאלות משנה, לאחזר מידע רלוונטי עבור כל אחת מהן ולאחר מכן לסנתז תגובה סופית. שאלות המשנה שנוצרו היו הגיוניות והתשובה הכוללת סיפקה השוואה סבירה בין שתי החברות.

לסיכום, המודל מציג הבטחה ביכולות הבסיסיות של ניתוב שאלות, אך ביצועיו מידרדרים עבור שאלות מורכבות יותר הדורשות שילוב מידע ממספר מקורות. היכולות של פירוק שאלות חזקות יותר, מה שמצביע על כך שהמודל יכול לפרק ולטפל בשאלות מורכבות בצורה אפקטיבית.然, ייתכן שיידרשו שיפורים נוספים כדי לנצל באופן מלא את הפוטנציאל של המודל בשימושים מעשיים.

סוכנים ופעולות מתמטיות

הבדיקות שנערכו על מודל ה-Retrieval-Augmented Generation (RAG) חושפות תובנות מעניינות על היכולות והמגבלות שלו:

  1. שאילתות RAG פשוטות: המודל מבצע באופן סביר על שאילתות RAG פשוטות, מספק תגובות מדויקות על בסיס המידע הזמין במסמך.

  2. שאילתות RAG מורכבות: כאשר ניצב בפני שאילתות מורכבות יותר הכוללות מידע סותר בין קטעי המסמך השונים, המודל מתקשה ונוטה להזות או לסווג בטעות את המידע.

  3. ניתוב שאילתות: המודל מציג את היכולת לבצע ניתוב שאילתות, כאשר הוא יכול לבחור את אחסון הוקטורים המתאים כדי לאחזר מידע רלוונטי על בסיס השאילתה. זה מרמז שהמודל יכול לטפל במשימות הדורשות הבנה של המטא-נתונים והיכולות של מקורות מידע שונים.

  4. פירוק שאילתות: המודל מסוגל לפרק שאילתות מורכבות לשאלות משנה ולאחזר מידע כדי לענות עליהן בנפרד, ולאחר מכן לשלב את התוצאות. זה מראה הבטחה ליכולת של המודל לטפל בצרכי מידע מורכבים.

  5. תיאום סוכנים: כאשר נבדק במסגרת מבוססת סוכנים, המודל מציג יכולות מוגבלות. הוא מתקשה לנצל בצורה אפקטיבית את הכלים שסופקו, במיוחד עבור משימות מורכבות יותר הכוללות פעולות מתמטיות. המודל נראה שמעדיף לבצע חישובים בעצמו במקום להסתמך על הכלים הזמינים.

  6. פעולות מתמטיות: מעניין לציין שהמודל נראה שיש לו אחיזה טובה יותר בביצוע פעולות מתמטיות פשוטות בעצמו, מבלי להסתמך על הכלים שסופקו. זה מרמז שייתכן שלמודל יש יכולות מסוימות של סיבוב מתמטי.

באופן כללי, התוצאות מצביעות על כך שלמודל ה-RAG יש פוטנציאל עבור יישומים מסוימים, כמו אחזור מידע פשוט וניתוב שאילתות.然, ביצועיו על משימות מורכבות יותר, כולל תיאום סוכנים וטיפול במידע סותר, מוגבלים. התקדמויות נוספות ביכולת ההיסקית של המודל ובשילוב עם כלים חיצוניים עשויים להיות הכרחיים כדי לנצל באופן מלא את יכולותיו ביישומים מעשיים.

סיכום

המודל השפתי הקטן Pi 3, למרות שהוא מרשים בבנצ'מרקים, יש לו מספר מגבלות כאשר מדובר ביישומים מעשיים.

עבור משימות אחזור פשוטות, המודל מבצע באופן סביר, מסוגל לספק תגובות מדויקות על ידי דחיסת מידע רלוונטי מהמסמך.然, כאשר ניצב בפני שאילתות מורכבות יותר הכוללות מידע סותר בין קטעי המסמך השונים, המודל מתקשה ונוטה להזות, מערבב תכונות שהוצגו על ידי חברות שונות.

יכולות ניתוב השאילתות של המודל מראות הבטחה, שכן הוא מסוגל לבחור את אחסון הוקטורים המתאים על בסיס התיאורים שסופקו. זה מרמז שהמודל יכול להבין את ההקשר והמטרה של מקורות מידע שונים.然, עבור משימות פירוק שאילתות מורכבות יותר, ביצועי המודל עדיין מוגבלים.

כאשר מדובר בתיאום סוכנים, המודל מציג תוצאות מעורבות. בעוד שהוא יכול לטפל בשאילתות פשוטות ללא צורך בכלים, עבור פעולות מתמטיות מורכבות יותר, הוא נראה שאינו מעוניין לנצל את הכלים שסופקו ובמקום זאת מנסה לבצע את החישובים בעצמו, לפעמים בצורה לא מדויקת.

באופן כללי, המודל השפתי הקטן Pi 3 מציג יכולות בתחומים מסוימים, אך מגבלותיו הופכות ברורות יותר כאשר מתמודדים עם שאילתות ומשימות מורכבות ורב-היבטיות. התקדמויות נוספות בתחומים כמו הפחתת הזיות והיסקים עמידים יהיו הכרחיים כדי לשחרר את הפוטנציאל המלא

שאלות נפוצות