סוכנים מונעים על ידי Llama 3.1: בדיקת יכולות קריאת פונקציות

חקור את היכולות של Llama 3.1 בקריאת פונקציות ושימוש בכלים. למד כיצד לנצל כלי נצפות כמו LangTrace לניטור ביצועי LLM. גלה את החוזקות והמגבלות של גדלי מודלי Llama השונים בטיפול במשימות מורכבות.

22 באפריל 2025

פתח את עוצמת Llama 3.1 עם מדריך מקיף זה על יכולות קריאת הפונקציות שלו. גלה כיצד ניתן לנצל את דגם השפה החדשני הזה כסוכן חכם, המשתלב בחלקלקות עם ממשקי תכנות יישומים כדי להתמודד עם משימות מורכבות. חקור את היבטי הנצפות וקבל הבנה לגבי ביצועי הדגם, מעניק לך את הכוח לקבל החלטות מושכלות עבור הפרויקט הבא שלך.

יכולות של Llama 3.1 ומערכת האגנטית של Meta
הגדרת LangTrace לצורך נצפות
בדיקת קריאת פונקציה עם דגמי Llama 3.1 70B ו-8B
קריאות פונקציה מקבילות וקריאות פונקציה סדרתיות מקוננות
קשיים של דגם Llama 3.1 8B עם קריאת פונקציה
דגם Llama 3 המותאם אישית של Groq לקריאת פונקציה
מסקנה

יכולות של Llama 3.1 ומערכת האגנטית של Meta

אחת היכולות המפתחות של Llama 3.1 שמטה הדגישה בשחרור היא קריאת פונקציות או שימוש בכלים. המחבר רצה לבחון יכולת זו.

תחילה, המחבר הגדיר את הכלים והממשקים הדרושים, כולל ממשק Groq API, שמספק אחד מהממשקים המהירים ביותר לאינטראקציה עם Llama 3.1. הם בדקו את הדגמים של Llama 3.1 בנפח 70 מיליארד ו-8 מיליארד, וכן גרסה ממוכוונת ל-Groq של הדגם בנפח 70 מיליארד.

המחבר התחיל בדוגמה פשוטה של קריאת פונקציה בודדת, ולאחר מכן עבר למתרחשים מורכבים יותר הכוללים קריאות פונקציה מקבילות ומקוננות. הם השתמשו בפלטפורמת הניטור LangTrace כדי לעקוב אחר השימוש בטוקנים ומדדים אחרים במהלך הניסויים.

התוצאות הראו שהדגם של Llama 3.1 בנפח 70 מיליארד ביצע מאוד טוב, מטפל בקריאות פונקציה מקבילות ומקוננות בצורה יעילה. הדגם בנפח 8 מיליארד התקשה במשימות מורכבות יותר, בעוד שהדגם הממוכוון ל-Groq נתקל בקשיים הרבה יותר, לעתים דרש מידע או הבהרה נוספים מהמשתמש.

בסך הכל, המחבר הסיק שהדגם של Llama 3.1 בנפח 70 מיליארד הוא האופציה הטובה ביותר עבור שימושים רציניים של קריאת פונקציות או שימוש סוכני, מדגים יכולות מרשימות בתחום זה. המחבר גם הדגיש את השימושיות של פלטפורמת הניטור LangTrace לעקיבה והבנה של התנהגות של מודלי שפה גדולים במהלך סוגי ניסויים אלה.

הגדרת LangTrace לצורך נצפות

בחלק זה, נגדיר את LangTrace, פלטפורמת ניטור קוד פתוח ו-open-telemetry עבור יישומי LLM. LangTrace מאפשר לנו לעקוב אחר מספר הבקשות והטוקנים המתקשרים בין הסביבה המקומית שלנו לבין ממשק ה-LLM API.

ראשית, עלינו להתקין את החבילות הנדרשות, כולל ערכת הפיתוח של LangTrace Python, ערכת הפיתוח של Groq Python, וערכת הפיתוח של OpenAI Python (למרות שאנו לא משתמשים ב-LLM של OpenAI, זו תלות של ערכת הפיתוח של LangTrace).

לאחר מכן, נגדיר את מפתחות ה-API שלנו. עבור ניסוי זה, אנו לא זקוקים בהכרח ל-LangTrace, אך הוא יכול לספק תובנות חשובות לגבי השימוש בטוקנים שלנו. LangTrace דומה בפונקציונליות ל-LangSmith, פלטפורמת ניטור מ-LangChain, אך היא תומכת במגוון רחב יותר של ספקים, כולל OpenAI, Groq, Cohere ו-Perplexity.

נשתמש בגרסת הענן המארחת של LangTrace, לכן נצטרך ליצור חשבון ופרויקט חדשים. לאחר שיהיה לנו מפתח ה-API, נוכל להוסיף אותו כסוד בפנקסנו.

עם השלמת ההגדרה, נוכל להתחיל להשתמש ב-LangTrace כדי לצפות בשימוש בטוקנים ובמדדים אחרים במהלך ניסויי קריאת הפונקציות שלנו עם ממשק ה-Groq LLM API. LangTrace יספק לנו מידע מפורט על מספר הטוקנים שהוחלפו והעלויות הקשורות (אם רלוונטי, כיוון שGroq לא גובה עבור שימוש בממשק).

באמצעות LangTrace, נוכל לקבל תובנות חשובות לגבי ביצועים והיעילות של יישומי LLM שלנו, מה שיכול להיות מועיל במיוחד בעת בדיקת יכולות מתקדמות כמו קריאות פונקציה מקבילות ומקוננות.

בדיקת קריאת פונקציה עם דגמי Llama 3.1 70B ו-8B

המחבר מתחיל על ידי הדגשת שחרור מערכת סוכנית סביב קריאת פונקציות ב-Llama 3.1 על ידי מטה. מאחר שהמחבר לא הגדיר את המערכת באופן מקומי, הם מחליטים להשתמש ב-Groq API, שמספק אחד מהממשקים המהירים ביותר לאינטראקציה עם Llama 3.1.

המחבר בודק את הדגמים של Llama 3.1 בנפח 70B ו-8B, וכן גרסה ממוכוונת ל-Groq של הדגם בנפח 70B. הם משתמשים ב-LangTrace, פלטפורמת ניטור קוד פתוח עבור יישומי LLM, כדי לעקוב אחר מספר הבקשות והטוקנים המוחלפים בין הסביבה המקומית לבין ממשק ה-LLM API.

המחבר מתחיל עם דוגמה פשוטה, שבה הדגם צריך להשתמש בפונקציית "קבל ניקוד משחקים" כדי לקבוע את הזוכה במשחק NBA. הדגם בנפח 70B מבצע משימה זו בהצלחה, והמחבר בוחן את נתוני LangTrace כדי להבין את המנגנון הפנימי.

לאחר מכן, המחבר בודק את יכולת הדגמים לטפל בקריאות פונקציה מקבילות, שבהן המשתמש מבקש מידע הקשור למזג אוויר, טיסות, מלונות ואטרקציות. הדגם בנפח 70B מסוגל לפרק את הפרומפט המקורי, לבצע קריאות פונקציה מקבילות ולייצר תגובה מקיפה. הדגם בנפח 8B, עם זאת, מתקשה במשימה זו, מייצר מידע מדומיין ונכשל לספק תגובות שלמות.

לאחר מכן, המחבר מציג תרחיש מורכב יותר, שבו המשתמש רוצה לתכנן טיול מניו יורק ללונדון ולאחר מכן לטוקיו, כולל מזג אוויר, טיסות, מלונות ואטרקציות. שוב, הדגם בנפח 70B מבצע היטב, בעוד שהדגם בנפח 8B מתקשה.

לבסוף, המחבר בודק את הדגם הממוכוון ל-Groq של הדגם בנפח 70B, שלמרבה ההפתעה מתקשה אפילו במשימת "קבל ניקוד משחקים" הפשוטה, ושואל שוב ושוב לפרטים ספציפיים יותר במקום להשתמש בפונקציה שסופקה.

לסיכום, המחבר מוצא שהדגם של Llama 3.1 בנפח 70B הוא הביצוע הטוב ביותר כאשר מדובר בקריאת פונקציות ושימוש בכלים, מסוגל לטפל בקריאות פונקציה מקבילות ומקוננות. הדגם בנפח 8B, מצד שני, אינו מומלץ עבור משימות קריאת פונקציות רציניות. הדגם הממוכוון ל-Groq גם הוא מתקשה בבדיקות של המחבר.

קריאות פונקציה מקבילות וקריאות פונקציה סדרתיות מקוננות

הדגם של Llama 3.1, בעיקר הגרסה בנפח 70B, הפגין יכולות מרשימות בטיפול בקריאות פונקציה מקבילות וקריאות פונקציה מקוננות רצפתיות.

כאשר הוצג בפניו פרומפט מורכב לתכנון טיול מניו יורק לפריז, כולל בדיקת מזג אוויר, מציאת טיסות, מלונות ואטרקציות, הדגם בנפח 70B היה מסוגל לפרק את המשימה ולבצע קריאות פונקציה מקבילות כדי לאסוף את המידע הנדרש. הוא לאחר מכן שילב את התוצאות מהפונקציות השונות כדי לספק סיכום מקיף של פרטי הטיול.

הדגם הראה גם את יכולתו לטפל בקריאות פונקציה מקוננות, שבהן פלטו של פונקציה אחת שימש כקלט לפונקציה אחרת. בתרחיש המלצת סרט, הדגם היה מסוגל תחילה לבחור סרט על בסיס העדפת המשתמש, ולאחר מכן להמליץ על חטיף ופלטפורמת סטרימינג מתאימים לצפייה בסרט.

לעומת זאת, הדגם הקטן יותר של Llama 3.1 בנפח 8B התקשה במקרים השימוש המתקדמים יותר האלה. הוא לא היה מסוגל באופן עקבי לספק תגובות מדויקות ושלמות כאשר התבקש לטפל בקריאות פונקציה מקבילות או קריאות פונקציה מקוננות. הדגם לעתים קרובות יצר מידע מדומיין או נכשל בשימוש באמצעים שסופקו בצורה יעילה.

בנוסף, הדגם המיוחד לקריאת פונקציות מGroq גם הוא לא הצליח בבדיקות, נכשל לנצל כראוי את הפונקציות שסופקו ודרש קלט ספציפי יותר מהמשתמש.

בסך הכל, הדגם של Llama 3.1 בנפח 70B הפגין יכולת חזקה בטיפול במשימות מורכבות, רב-שלביות הכוללות קריאות פונקציה מקבילות ומקוננות, מדגים את הפוטנציאל שלו כמערכת סוכנית מסוגלת. הדגם הקטן יותר בנפח 8B והדגם לקריאת פונקציות מGroq, עם זאת, עדיין יש להם מקום לשיפור בתחומים אלה.

קשיים של דגם Llama 3.1 8B עם קריאת פונקציה

הדגם של Llama 3.1 בנפח 8B התקשה באופן משמעותי עם המשימות המורכבות יותר של קריאת פונקציות בהשוואה לדגם הגדול יותר בנפח 70B. כמה תצפיות עיקריות:

עבור הפונקציה הפשוטה של "קבל ניקוד משחקים", הדגם בנפח 8B היה מסוגל לטפל בה ללא בעיות, בדומה לדגם בנפח 70B.
עם זאת, כשמדובר בקריאות פונקציה מקבילות עבור משימות כמו תכנון טיול, הדגם בנפח 8B נכשל. הוא לא היה מסוגל לספק מידע מקיף על מזג אוויר, טיסות, מלונות ואטרקציות, לעתים קרובות יצר מידע מדומיין או נכשל למנות אפשרויות זמינות.
עם מערך הפונקציות המורחב, הדגם בנפח 8

שאלות נפוצות

מה היכולות של Llama 3.1 שמטה הדגישה בשחרור?

איזה API משמש בסרטון הזה כדי לבדוק את יכולות קריאת הפונקציות של Llama 3.1?

אילו דגמי Llama 3.1 נבדקים בסרטון הזה?

איזה כלי תצפיתיות משמש בסרטון הזה כדי לעקוב אחר השימוש בדגמי Llama 3.1?

מהן היכולות המפתחות של דגם Llama 3.1 של 70 מיליארד שנבדק בסרטון הזה?

כיצד מבצעים דגם Llama 3.1 של 8 מיליארד והדגם המיוחד לקריאת פונקציות של Groq בבדיקות?

צור את חברת AI שלך

בנה את בן לוויה האידיאלי שלך עם AI Girlfriend Builder שלנו