לאמה 8B נבדק - אכזבה מפתיעה: הערכת היכולות של LLM מפורסם מאוד

חקירת היכולות והמגבלות של דגם השפה הנכסף Llama 8B. הערכה מפורטת זו בוחנת את ביצועיו על פני מגוון משימות, מדגישה הן את נקודות החוזק והן את הנקודות החלשות המפתיעות. קריאה חובה לכל מי שמעוניין בהתפתחויות האחרונות בדגמי שפה גדולים.

17 בפברואר 2025

גלה את הביצועים המפתיעים של דגם Llama 3.1 8B החדש ביותר בסקירה מקיפה זו. חשוף את נקודות החוזק והחולשה של הדגם על פני מגוון רחב של בנצ'מרקים, מטלות קידוד ועד להיסקים לוגיים. קבל תובנות שיעזרו לך לקבל החלטות מושכלות לגבי צרכי הבינה הלאומית שלך.

פירוק ביצועים: Llama 3.1 8B עולה על הגרסה הקודמת

דגם Llama 3.1 8B עבר שיפור משמעותי באיכות בהשוואה לגרסה הקודמת שלו. תוצאות הבנצ'מרק מראות שהדגם החדש עולה על הגרסה הישנה בכמה מדדים:

BQ: דגם Llama 3.1 8B מקבל ציון גבוה יותר במבחן BQ, מה שמצביע על ביצועים משופרים.
GSM8K: הדגם החדש משיג ציון של 0.57, שיפור משמעותי לעומת 0.84 של הגרסה הקודמת.
Hellaswag: דגם Llama 3.1 8B מקבל ציון של 46, לעומת 76 של הגרסה הקודמת, מה שמעיד על ביצועים משופרים.
הערכת אנושית: זהו אולי המבחן החשוב ביותר, והדגם Llama 3.1 8B כמעט הכפיל את הציון שלו, מ-34 ל-68, מה שמצביע על שיפור משמעותי באיכות.

באופן כללי, תוצאות הבנצ'מרק מציעות שדגם Llama 3.1 8B הוא שדרוג משמעותי מקודמו, עם ביצועים טובים יותר בכל התחומים. זה מדגיש את ההתקדמות והשיפורים המתמשכים במודלי שפה גדולים, ומספק למשתמשים עוזר AI מסוגל ואיכותי יותר.

בדיקת Llama 3.1 8B: פלט תסריט Python ומשחק נחש

ראשית, בדקנו את יכולת המודל ליצור סקריפט פייתון פשוט להדפסת המספרים 1 עד 100. המודל היה מסוגל לספק במהירות מספר איטרציות נכונות של הסקריפט, מה שמדגים את מיומנותו בתכנות פייתון בסיסי.

לאחר מכן, בחנו את המודל במשימה מורכבת יותר - כתיבת משחק הנחש בפייתון. המודל התקשה בתחילה עם זה, וסיפק קוד שהיה בעייתי בתנועה ובמהירות של הנחש. לאחר מספר ניסיונות וחזרות, המודל הצליח לייצר קוד שהיה קרוב יותר למשחק הנחש העובד, אך עדיין היו לו בעיות קטנות. בכללות, המודל הפגין יכולות סבירות בהבנה וייצור של קוד פייתון, אך התקשה במשימות תכנות מורכבות יותר.

ביצועי דגם Llama 3.1 8B בבדיקות אלה היו מעורבים. בעוד שהוא הצטיין בייצור סקריפט פייתון פשוט, יישום משחק הנחש המורכב יותר חשף מגבלות מסוימות ביכולות התכנות של המודל. זה מרמז שבעוד שהמודל הוא שיפור משמעותי על הגרסאות הקודמות, עדיין יש מקום לפיתוח ושיפור נוספים כדי לשפר את יכולותיו בהתמודדות עם אתגרי תכנות מורכבים.

אתגרי צנזורה וטיעון מוסרי

המודל נתקל בקשיים בטיפול בנושאים רגישים הקשורים לצנזורה וטיעונים מוסריים. כאשר התבקש לספק הוראות לפריצה לרכב או ייצור מתאמפטמין, המודל סירב נכונה לספק כל הוראות, בטענה שהוא אינו יכול לסייע בפעילויות בלתי חוקיות. עם זאת, כאשר התבקש לספק מידע היסטורי על נושאים אלה, התגובה של המודל הייתה לא עקבית, ולעתים פירש את הבקשה כבקשה להוראות.

בנוגע לדילמה המוסרית האם לדחוף בעדינות אדם אקראי כדי להציל את האנושות מהכחדה, המודל סיפק ניתוח מעמיק של השיקולים המעורבים אך בסופו של דבר סירב לתת תשובה חד-משמעית של כן או לא. היסוס זה להוציא שיפוט מוסרי ברור, אפילו בתרחיש היפותטי קיצוני, מדגיש את האתגרים שמערכות AI מתמודדות עמם בניווט בשאלות אתיות מורכבות.

ביצועי המודל במשימות מסוג זה מציעים שבעוד שהוא עשוי להצטיין במשימות טכניות וניתוחיות יותר פשוטות, הוא עדיין מתקשה בקבלת החלטות מורכבות ובהספקת תגובות ברורות ובלתי מעורפלות בנושאים רגישים או מוסריים מעורפלים. מחקר ופיתוח נוספים עשויים להיות דרושים כדי לשפר את יכולות המודל בתחומים אלה.

הגיון מתמטי והערכת בעיות מילוליות

הקטע מכסה את ביצועי המודל במגוון משימות חשבוניות וחשיבה לוגית. הנקודות העיקריות הן:

המודל הצליח לפתור בצורה נכונה את הבעיה החשבונית הפשוטה של "25 - 4 * 2 + 3", מה שמדגים יכולת בסיסית בפעולות חשבוניות.
בבעיית המילולית הקשורה לתשלום חדר מלון, המודל סיפק את החישוב הנכון של העלות הכוללת, כולל מחיר החדר, המס והאגרות הנוספות.
עם זאת, המודל התקשה באומדן מספר המילים בתגובה הקודמת, ולא הצליח לספק ספירה מדויקת.
המודל גם נכשל בפתרון חידת החשיבה הצדדית הקלאסית על מספר הרוצחים הנותרים בחדר לאחר שאחד נהרג.
באופן דומה, המודל לא הצליח לקבוע את מיקום הכדור שהוצב בכוס ולאחר מכן הועבר למיקרוגל, מה שמדגים מגבלות ביכולות הסבר מרחבי.
בכללות, הקטע מדגיש ביצועים מעורבים, כאשר המודל הצטיין בחישובים חשבוניים פשוטים אך נכשל במשימות לוגיות ופתרון בעיות מורכבות יותר.

החידה של הכדור בכוס הפוכה

הכדור מוצב במקור בתוך הכוס. כאשר הכוס מוהפכת ומונחת על השולחן, הכדור נשאר בתוכה בשל כוח הכבידה. עם זאת, כאשר הכוס מוצבת במיקרוגל, מיקום הכדור הופך לבלתי ברור. למרות שהכוס והכדור מועברים פיזית למיקרוגל, מיקום הכדור בתוך הכוס אינו מוגדר בבירור. לכן, התשובה הנכונה לשאלה "היכן נמצא הכדור?" אינה יכולה להיקבע בוודאות על בסיס המידע שסופק.

מסקנה: אכזבה מביצועי Llama 3.1 8B

אני מאוכזב לחלוטין מביצועי דגם Llama 3.1 8B. למרות שהייתה לי תקווה גבוהה לגרסה קטנה יותר אך מסוגלת יותר זו, ביצועי המודל במבחנים השונים היו גרועים.

המודל התקשה במספר משימות, כולל:

יישום משחק הנחש העובד בפייתון
מתן הוראות לפעילויות לא אתיות או בלתי חוקיות
ענות נכונה על בעיות לוגיות וחשיבה
קביעת המספר הגדול יותר מבין שניים
קבלת שיפוט מוסרי ברור על בעיית הרכבת התחתית

בעוד שהמודל הצליח לטפל במספר משימות תכנות בסיסיות ובעיות חשבוניות פשוטות, הוא לא הצליח להפגין את רמת האיכות והיכולת שהובטחה. הגרסה הגדולה יותר של Llama 3.1 בעלת 405B פרמטרים עשויה להיות מרשימה, אך גרסה זו של 8B לא עמדה בציפיות.

אמשיך לחקור ולראות אם יש בעיות בהגדרה או בתצורה שעשויות להשפיע על ביצועי המודל. עם זאת, על בסיס התוצאות, אני לא יכול להמליץ על גרסה זו של Llama 3.1 8B בשלב זה. המודל פשוט לא עמד בסטנדרטים הגבוהים שהצבתי לו.

שאלות נפוצות

איך אני יכול להגדיר את הממשק להרצת דגם Llama 3.1 8B באופן מקומי?

כיצד ביצועי דגם Llama 3.1 8B משתווים לגרסה הקודמת?

כיצד מתבצע ביצוע דגם Llama 3.1 8B במשימות קידוד וחשיבה לוגית?

האם דגם Llama 3.1 8B מצונזר או מסוגל לספק הוראות לפעילויות בלתי חוקיות?

כיצד מבצע דגם Llama 3.1 8B על שאלת דילמה מוסרית על הקרבת אדם יחיד כדי להציל את האנושות?

צור את חברת AI שלך

בנה את בן לוויה האידיאלי שלך עם AI Girlfriend Builder שלנו