דגם ה-VOICE AI המהפכני של Kyutai מגדיר מחדש את ה-Conversational AI

דגם ה-VOICE AI המהפכני של Kyutai, Moshi, מגדיר מחדש את ה-AI השיחתי עם יכולתו להביע למעלה מ-70 רגשות, סגנונות דיבור וכישורים רב-לשוניים. מסגרת ה-AI הרב-מודלית והרב-זרימתית הזו מרחיבה את גבולות האינטראקציות בזמן אמת, מציעה חוויית שיחה חלקה ודומה לאנושית.

15 בפברואר 2025

גלה את העתיד של שיחות בהנעה על ידי AI עם הטכנולוגיה הפורצת דרך של Kyutai "VOICE AI". דגם זה בחזית הטכנולוגיה מספק אינטראקציות מציאותיות, יכולות רב-מודליות חלקות, וביטוי רגשי חסר תקדים, מגדיר מחדש את הדרך בה אנו מתקשרים עם עוזרי AI.

יכולות מרשימות של מושי: מרגשות לניגוני דיבור

מושי הוא דגם AI מרשים שיכול להביע מגוון רחב של רגשות וסגנונות דיבור. יכולותיו מרשימות באמת:

מושי יכול לדבר עם יותר מ-70 רגשות שונים, מלחישה ועד להישמע מפוחד, ואפילו להתחזות לפיראט או לדבר עם מבטא צרפתי.
הדגם מסוגל להגיב בזמן אמת, להשתתף בשיחות טבעיות ולהתאים את הטון והשפה למצב.
מנוע ההמרה טקסט-לדיבור של מושי מתקדם מאוד, ויוצר שמע מציאותי המשלב רגש ואישיות בצורה חלקה.
הדגם הוכשר על מערך נתונים מגוון, מה שמאפשר לו להתמודד עם מגוון נושאים ומשימות, מהקריאה של שירה ועד לדיון באירועים אקטואליים.
האופי הרב-מודלי של מושי, המשלב פלטות אודיו וטקסט, משפר את יכולתו להתקשר בצורה יעילה ולספק תגובות מקיפות.
הביצועים המרשימים של הדגם הושגו באמצעות טכניקות הכשרה חדשניות, כולל שימוש בשיחות סינתטיות לכוונון מדויק של יכולות השיח של מושי.

בכללותו, מושי מייצג פריצת דרך משמעותית בתחום ה-AI שיחתי, מציב סטנדרט חדש לאינטראקציות טבעיות, מעורבות ומביעות רגש.

התגברות על מגבלות של גישות קיימות של קול AI

הגישות הנוכחיות לקול AI מתמודדות עם שתי מגבלות עיקריות שה-CAAI היה צריך להתמודד איתן בפיתוח מושי:

עיכוב: הצינור המורכב של דגמים נפרדים יוצר עיכוב של 3-5 שניות בין קלט המשתמש לתגובת המערכת. זה יכול להיות מאוד מעצבן עבור חוויית שיח חיה.
אובדן מידע שאינו טקסטואלי: על ידי עבור דרך צוואר בקבוק מבוסס טקסט, המערכת מאבדת את כל המידע שאינו טקסטואלי כמו רגש, טון ורמזי תקשורת הנוכחים בנאום המקורי.

כדי להתמודד עם מגבלות אלה, ה-CAAI נקט בגישה שונה. במקום להשתמש בצינור מורכב של דגמים נפרדים, הם עיצבו רשת עצבים עמוקה יחידה המכונה "מודל שפת אודיו". דגם זה מוכשר ישירות על נתוני דיבור מסומנים, ללא ייצוג ביניים של טקסט.

על ידי דחיסת קלט הדיבור לייצוג "פסאודו-מילה" קומפקטי, מודל שפת האודיו יכול ללמוד את הדפוסים והמבנה של הדיבור, בדומה לאופן שבו מודלי שפת טקסט לומדים מטקסט. זה מאפשר למודל לייצר תגובות המשמרות את העושר של הדיבור המקורי, ללא העיכוב שנוצר על ידי הגישה המבוססת טקסט.

פריצות דרך בפיתוח של מושי: רב-מודליות, רב-זרימה והתאמה

הפריצות המפתח בפיתוח מושי, דגם ה-AI השיחתי המתקדם, הן:

רב-מודליות: מושי יכול לא רק להאזין ולייצר אודיו, אלא יש לו גם מחשבות טקסטואליות המוצגות על המסך במהלך השיחה. זה מאפשר לו לנצל את היעילות והקומפקטיות של הטקסט הכתוב יחד עם העושר של האודיו כדי לספק תגובות טובות יותר ומהירות יותר.
רב-זרמי: מושי פועל עם שני זרמי אודיו מקבילים, מה שמאפשר לו לדבר ולהאזין בו-זמנית. זה מאפשר שיחות טבעיות יותר עם דיבור חופף, הפרעות וחילופים חלקים, מה שהופך את האינטראקציה למוכרת יותר לבני אדם.
הסתגלות: מושי אינו רק דגם שיח אודיו, אלא מסגרת גמישה שניתן להתאים אותה למשימות ושימושים שונים. הצוות הדגים את יכולת מושי להשתתף בדיון מהשנים 1990/2000, מדגים את גמישותו ואת הפוטנציאל להתקשר עם נתונים מתקופות שונות.

מנוע ה-TTS של מושי וסינתזת קול

אחת הדברים המדהימים ביותר לגבי מושי היא שזה לא סתם דגם AI כלשהו, אלא מנוע המרה טקסט-לדיבור שיש לו יותר מ-70 רגשות שונים שניתן לגשת אליהם. באמצעות הנתונים המוקלטים, הצוות הצליח להכשיר מנוע המרה טקסט-לדיבור שיכול לתמוך ביותר מ-70 רגשות או סגנונות דיבור שונים.

כדי להדגים את יכולות מנוע ההמרה טקסט-לדיבור הזה, הצוות השמיע כמה דוגמאות אודיו מוגנרות. הדוגמאות הדגימו את יכולת מושי להביע מגוון רחב של רגשות, מלחישה ועד שירה, ואפילו להתחזות לפיראט או לדבר עם מבטא צרפתי. זה מדגים את הגמישות המרשימה ואיכות החיים של יכולות סינתזת הקול של מושי.

הצוות הסביר שמנוע ההמרה טקסט-לדיבור הזה פותח באופן פנימי, מה שאפשר להם לכוונן אותו בצורה ספציפית לצרכי מושי. על ידי העבודה עם אמנית קול בשם אליס, הם הצליחו להקליט מונולוגים וחליפות דיאלוג שונים, אשר שימשו להכשרת מודל ההמרה טקסט-לדיבור. גישה זו מבטיחה שלמושי יש קול עקבי ומציאותי בכל האינטראקציות.

אימון מושי: מטקסט בלבד לבינה מלאכותית שיחתית

בכללותו, מנוע ההמרה טקסט-לדיבור של מושי הוא הישג מרשים, המדגים את יכולת הצוות להרחיב את גבולות האפשרי בסינתזת קול וביטוי רגשי. יכולת זו, בשילוב עם הפריצות האחרות של מושי, היא מה שהופך את הדגם הזה למהפכני באמת ומבטיח לשנות את תחום ה-AI השיחתי.

הרצת מושי מקומית על התקן

הפריצות המפתח בהכשרת מושי, דגם ה-AI השיחתי המתקדם, ניתן לסכם כדלקמן:

רב-מודליות: מושי יכול לא רק לייצר אודיו, אלא גם להפיק מחשבות טקסטואליות מלוות. גישה היברידית זו של שילוב אודיו וטקסט מאפשרת הכשרה יעילה ויעילה יותר, מה שמוביל לתגובות טובות יותר.
אינטראקציה רב-זרמית: מושי מסוגל להאזין ולדבר בו-זמנית, מאפשר זרימת שיח טבעית עם דיבור חופף, הפרעות וחילופים חלקים, כמו בשיחות בין בני אדם.
יצירת נתונים סינתטיים: כדי להתגבר על האתגר של נתוני שיח בעולם האמיתי מוגבלים, הצוות פיתח טכניקות ליצירת דיאלוגים סינתטיים. זה אפשר להם לכוונן את יכולות השיח של מושי מעבר למודל השפה הראשוני המבוסס טקסט בלבד.
התאמת קול: על ידי העבודה עם אמנית קול מקצועית, אליס, הצוות הצליח להשריש במושי קול עקבי ומציאותי לאורך כל האינטראקציות, משפר עוד יותר את חוויית המשתמש.
פריסה במכשיר: דגם מושי מתוכנן להיות יחסית קטן בגודל, מה שמאפשר להפעיל אותו ישירות על מכשירים, מבטיח פרטיות ותגובות בעלות עיכוב נמוך ללא צורך בקישוריות לענן.
שיקולי בטיחות: מתוך הכרה בפוטנציאל לשימוש לרעה, הצוות יישם אמצעי בטיחות, כמו סימון מים אודיו וניטור חתימה, כדי לזהות ולהפחית את יצירת תוכן דומה למושי למטרות זדוניות.

הבטחת בטיחות AI עם מושי

אחד הפריצות המפתח עם מושי היא היכולת להריץ אותו באופן מקומי על מכשיר, ללא צורך בחיבור לאינטרנט. זוהי התקדמות משמעותית, שכן היא מתמודדת עם דאגות בנוגע לפרטיות ועיכוב שהטרידו מערכות קול AI קודמות.

הצוות ב-CAAI הדגים את היכולת הזו על ידי הרצת מושי על מחשב נייד MacBook Pro רגיל, כשהחיבור לאינטרנט מנותק. הם השיקו את יישום מושי, והצליחו להשתתף בשיחה בזמן אמת עם עוזר ה-AI, ללא עיכוב או עיכוב ניכר.

ביצוע מקומי זה מתאפשר בזכות גודלו היחסית הקטן של דגם מושי, שהצוות הדגיש שניתן להדק אותו עוד יותר לצורך פריסה על מכשירים ניידים. על ידי הרצת המודל באופן מקומי, מושי יכול לספק חוויית שיח חלקה ופרטית יותר, ללא הצורך לשלוח נתוני אודיו לשרת מרוחק.

הצוות דן גם בחשיבות הבטיחות והפיתוח האחראי של מערכות AI מתקדמות כאלה. הם תיארו שתי אסטרטגיות עיקריות להבטחת שלמות התוכן המופק על ידי מושי: מעקב אחר חתימה מקוונת וסימון מים. טכניקות אלה מאפשרות לזהות אודיו שנוצר על ידי AI, מסייעות להפחית את הפוטנציאל לשימוש לרעה בטכנולוגיה.

בכללותו, היכולת להריץ את מושי באופן מקומי על מכשיר היא אבן דרך משמעותית, המדגימה את המחויבות של הצוות לספק עוזר שיחתי AI בעל ביצועים גבוהים ושומר על הפרטיות. התקדמות זו סוללת את הדרך לאימוץ נרחב יותר ולשילוב של מושי במגוון יישומים ושימושים.

סיכום

אחד הדברים האחרונים שרוב האנשים לא יחשבו עליו הוא כמובן היבט בטיחות ה-AI. אם יש לך דגם שהוא מהיר כל כך ויכול להגיב ברמת דיוק מרשימה, אנו יודעים שאנשים יכולים להשתמש בו לצ

שאלות נפוצות

אילו סוגי רגשות וסגנונות דיבור יכול מושי להביע?

מהם המגבלות הנוכחיות של AI קול שמושי שואף להתגבר עליהן?

כיצד אימנו מפתחי מושי את המודל להיות יותר שיחתי?

האם מושי יכול לרוץ במכשיר?

כיצד מושי מתמודד עם בטיחות ומניעת שימוש לרעה?

צור את חברת AI שלך

בנה את בן לוויה האידיאלי שלך עם AI Girlfriend Builder שלנו