מהפכת סוכני בינה מלאכותית: פתיחת שליטה במחשב עם עולם מערכת הפעלה

שנה מהפכה בסוכני בינה מלאכותית עם OS World, פרויקט קוד פתוח חדש המספק סביבה חזקה לבחון ולבדוק סוכני בינה מלאכותית בסביבות מחשב אמיתיות. למד כיצד פריצת הדרך הזו מאפשרת לסוכנים לבצע משימות מורכבות על ידי הטמעת הוראות לפעולות קונקרטיות.

15 בפברואר 2025

party-gif

שחרר את העתיד של סוכני ה-AI עם OS World, פרויקט פורץ דרך המאפשר שליטה חלקה במחשבים בפני מערכות הפעלה שונות. גלה כיצד פלטפורמה זו מקור פתוח מהפכת את הדרך בה אנו מודדים ומשפרים סוכני ה-AI, מעצימה אותם להתמודד עם משימות מורכבות ובעולם האמיתי בדיוק ויעילות.

כיצד OS World מאפשר לסוכני AI לשלוט במחשבים בפני מערכות הפעלה שונות

OS World היא פרויקט חדש שמטרתו להתמודד עם האתגר של בנצ'מרקינג ובדיקת סוכני בינה מלאכותית בסביבות מחשב אמיתיות. התכונות המרכזיות של OS World כוללות:

  1. סביבה מולטימודלית מאוחדת: OS World מספקת סביבה מאוחדת עבור סוכני בינה מלאכותית לפעול על פני מערכות הפעלה, יישומים וממשקים שונים, כולל ממשקי משתמש גרפיים (GUI) וממשקי שורת פקודה (CLI).

  2. מרחבי תצפית ופעולה: OS World מגדירה את מרחב התצפית, הכולל את סביבת שולחן העבודה הנוכחית, הוראות, צילומי מסך ועצי נגישות. היא גם מגדירה את מרחב הפעולה, הכולל פעולות כמו תנועות עכבר, לחיצות, קלט מקלדת ועוד.

  3. מדדי הערכה: OS World כוללת משימות מחשב אמיתיות מסומנות בקפידה, עם תצורות מצב התחלתי והוראות הערכה מותאמות אישית כדי להעריך את ביצועי סוכני הבינה המלאכותית.

  4. נגישות והתיחסות: OS World מספקת מידע על נגישות והתיחסות כדי לאפשר לסוכני הבינה המלאכותית לפרש ולבצע הוראות, וזאת על מנת להתגבר על המגבלות של גישות כמו פרשן פתוח המסתמכים על אינטראקציות מבוססות צילומי מסך בלתי מדויקים.

  5. קוד פתוח ונתונים ניתנים לשחזור: פרויקט OS World, כולל המאמר המחקרי, הקוד והנתונים, הוא בקוד פתוח, מה שמאפשר שחזור והמשך פיתוח על ידי הקהילה המחקרית.

ההבנה המרכזית מאחורי OS World היא שכדי לאפשר לסוכני בינה מלאכותית לבצע משימות מחשב בעולם האמיתי, הם זקוקים לגישה למערכת ההפעלה והממשקים היישומיים, ולא רק לצילומי מסך ברמה גבוהה. על ידי מתן התיחסות זו, OS World שואפת לקדם את הפיתוח של סוכני בינה מלאכותית יותר מסוגלים ומגוונים שיכולים לפעול בחלקות על פני סביבות מחשוב שונות.

הגדרת סוכנים חכמים ורכיביהם העיקריים

סוכן חכם מוגדר כמערכת שמזהה את הסביבה שלה באמצעות חיישנים ופועלת בסביבה זו בצורה רציונלית כדי להשיג את מטרותיה. המרכיבים המרכזיים של סוכן חכם הם:

  1. חיישנים: אמצעי הזיהוי של הסביבה של הסוכן, כמו מצלמות, מיקרופונים או התקני קלט אחרים.

  2. מפעילים: אמצעי הפעולה של הסוכן על הסביבה, כמו מנועים, רמקולים או התקני פלט אחרים.

  3. אוטונומיה: היכולת של הסוכן לפעול ללא שליטה ישירה של בני אדם.

  4. תגובתיות: היכולת של הסוכן לזהות ולהגיב לשינויים בסביבתו בזמן אמת.

  5. יוזמה: היכולת של הסוכן להציג התנהגות מכוונת מטרה על ידי נקיטת יוזמה להשגת מטרותיו.

  6. יכולת חברתית: היכולת של הסוכן לאפשר אינטראקציה עם סוכנים אחרים או בני אדם בסביבתו.

מרכיבים אלה מאפשרים לסוכן לזהות את הסביבה שלו, לתכנן ולבצע פעולות, וללמוד מניסיונותיו כדי לשפר את ביצועיו עם הזמן. המטרה של סוכן חכם היא להגדיל את ביצועיו בהשגת מטרותיו, תוך פעולה במגבלות הסביבה שלו.

האתגרים של שליטה במחשבים עבור סוכני AI

שליטה במחשבים וביצוע משימות בסביבות דיגיטליות היוו אתגר משמעותי עבור סוכני בינה מלאכותית. ההצגה מדגישה את הבעיות המרכזיות:

  1. התיחסות הוראות לפעולות: מתן הוראות שלב אחר שלב אינו מספיק עבור סוכן בינה מלאכותית כדי לבצע משימה בהצלחה. הסוכן צריך להיות מסוגל להתיחס להוראות אלה לפעולות ממשיות שיכולות לשלוט בממשק המחשב, בין אם זה עכבר, מקלדת או שיטות קלט אחרות.

  2. מערכות סגורות ובעלות: מערכות הפעלה כמו macOS ו-Windows הן סגורות ובעלות, מה שמקשה על סוכני בינה מלאכותית לשלוט בדיוק על סביבת המחשב. הגישות הקיימות, כמו שימוש בתכונות נגישות וסריגי צילומי מסך, אינן מדויקות ויעילות.

  3. חוסר משוב וחזרה: ללא היכולת לזהות את הסביבה ולקבל משוב, סוכני בינה מלאכותית מתקשים ליצור תכניות מדויקות, רב-שלביות לביצוע משימות. חוסר האינטראקציה עם הסביבה האמיתית מגביל את יכולתם ללמוד ולהשתפר.

  4. מורכבות של משימות במחשב בעולם האמיתי: רבות מהמשימות במחשב בעולם האמיתי כוללות יישומים, ממשקים וזרימות עבודה מרובים. תרגום הוראות ברמה גבוהה לפעולות הנדרשות להשלמת משימות מורכבות אלה מהווה אתגר משמעותי עבור סוכני בינה מלאכותית נוכחיים.

כדי להתמודד עם אתגרים אלה, פרויקט OS World שואף לספק סביבת מחשב אמיתית, מקיפה ומוסדרת שיכולה לשמש כסביבה מאוחדת ומולטימודלית לסוכני בינה מלאכותית להערכת משימות מחשב פתוחות. על ידי הצעת גישה למערכות הפעלה שונות, יישומים וממשקים, יחד עם תצפיות ומשוב מפורטים, OS World מאפשרת לסוכני בינה מלאכותית להתיחס להוראות לפעולות מדויקות ולשפר את ביצועיהם.

OS World: סביבת מחשב בעולם האמיתי בקנה מידה ניתן לשינוי עבור הערכת סוכני AI

OS World הוא פרויקט חדש שמטרתו להתמודד עם האתגר של בדיקה עקבית ומקיפה של סוכני בינה מלאכותית. הוא מספק סביבה מוצקה, מערכות הפעלה מרובות, ודרך עבור סוכנים להתפעל את הסביבה ולמדוד את ביצועיהם.

התכונות המרכזיות של OS World כוללות:

  1. סביבת סוכן מולטימודלית: OS World משמש כסביבה מאוחדת להערכת משימות מחשב פתוחות הכוללות יישומים ממשקים שרירותיים על פני מערכות הפעלה.

  2. מצבי תצפית: סוכנים יכולים לקבל תצפיות דרך מגוון מצבים, כולל עץ הנגישות, צילום מסך, ומערך סימנים (ייצוג מבוסס סריג של המסך).

  3. מרחב פעולה: סוכנים יכולים לבצע מגוון פעולות, כמו תנועות עכבר, לחיצות, קלט מקלדת, ושימוש במקשי קיצור, כדי להתפעל את הסביבה.

  4. הערכת משימות: OS World כולל משימות מחשב אמיתיות מסומנות בקפידה, עם הגדרות מצב התחלתי והוראות הערכה מותאמות אישית לבדיקת ביצועי הסוכן.

  5. בנצ'מרקינג: הפרויקט שימש לבנצ'מרקינג של סוכנים שונים, כולל Cog Agent, GPT-4 ו-Gemini Pro Cloud 3, המדגים את היעילות של מצבי תצפית מבוססי עץ נגישות וצילום מסך.

  6. קוד פתוח: פרויקט OS World, כולל הקוד והנתונים, הוא בקוד פתוח, מה שמאפשר לחוקרים ומפתחים לגשת ולבנות על גבי הפלטפורמה.

על ידי מתן סביבה מוסדרת ומקיפה לבדיקת סוכני בינה מלאכותית, OS World שואף להתקדם בתחום הבינה המלאכותית המבוססת על סוכנים ולאפשר הערכת ביצועים יותר מוצקה ואמינה.

הערכת ביצועי הסוכן ב-OS World

פרויקט OS World שואף לספק סביבה מוצקה ומקיפה להערכת ביצועי סוכני בינה מלאכותית בביצוע משימות מחשב בעולם האמיתי. ההיבטים המרכזיים של תהליך ההערכה הזה הם:

  1. פורמליזציה של משימות: משימת סוכן מפורמלת כתהליך קבלת החלטות מרקוב חלקית נצפה (POMDP), עם מרחב מצב מוגדר, מרחב תצפית, מרחב פעולה, פונקציית מעבר ופונקציית תגמול.

  2. מודליות תצפית: סוכנים יכולים לקבל תצפיות דרך מגוון מודליות, כולל עץ הנגישות, צילום מסך, ומערך של תיבות הגבלה (סימנים). אלה מספקים רמות שונות של מידע על המצב הנוכחי של הסביבה.

  3. מרחב פעולה: סוכנים יכולים לבצע מגוון פעולות כדי להתפעל את סביבת המחשב, כמו תנועות עכבר, לחיצות, קלט מקלדת, גלילה, ושימוש במקשי קיצור.

  4. הערכת ביצוע משימות: כל משימה מסומנת בקפידה עם הוראות בעולם האמיתי, הגדרת מצב התחלתי, והוראת הערכה מותאמת אישית שבודקת אם המשימה הושלמה בהצלחה.

  5. משימות בנצ'מרק: פרויקט OS World כולל 369 משימות מחשב בעולם האמיתי הכוללות יישומי אינטרנט ושולחן עבודה, פעולות קבצים, וזרימות עבודה רב-יישומיות, מספקות מערכת בנצ'מרק מקיפה להערכת ביצועי סוכנים.

התוצאות המוצגות במאמר מראות שמודלים שפה גדולים כמו GPT-4 מבצעים בצורה הטובה ביותר כאשר מסופק להם עץ הנגישות או שילוב של צילום מסך ועץ נגישות, עולים על מודליות קלט אחרות כמו צילום מסך בלבד או מער

שאלות נפוצות