שחרר את מנהל השיחה בזמן אמת של AI לטלפון שלך
שחרר את שיתוף הפעולה בזמן אמת של AI לטלפון שלך. בנה כלי עוצמתי שמעתיק ומנתח שיחות בזמן אמת, ומספק הצעות והערות מיידיות לשיפור התקשורת. שפר את הראיונות, הפגישות והאינטראקציות החברתיות שלך עם עוזר זה המופעל על ידי AI.
14 בפברואר 2025

מאמר הבלוג הזה בוחן את הפוטנציאל של שותף לשיחה AI בזמן אמת שיכול לסייע במשימות כמו ראיונות עבודה ומחקר משתמשים. המחבר מציג את הפיתוח של יישום אינטרנטי ומובייל המנצל מודלי דיבור לטקסט ושפה מתקדמים כדי לספק יכולות תמלול ותרגום מיידיות, תוך הדגשת היתרונות של כלי כזה בשיפור התקשורת והפרודוקטיביות.
מבוא לשיחה בזמן אמת עם עוזר AI
אתגרים בבניית תמלול בזמן אמת והסקה מהירה
בניית הדגמה של עוזר שיחה מבוסס אינטרנט
ניצול ערכת Whisper לעוזר שיחה ניידת
סיכום
מבוא לשיחה בזמן אמת עם עוזר AI
מבוא לשיחה בזמן אמת עם עוזר AI
לפני כמעט שנה, בסביבות מרץ 2023, כאשר ChatGPT יצא לאור והפך לנושא הלוהט ביותר בעולם, אני זוכר בבירור שראיתי הדגמה של Arony שבנה "Interview Breaker" - כלי ChatGPT שעוזר לך לפרוץ ראיונות עבודה. השבוע, בניתי משהו שנקרא "Interview Breaker" - הוכחת מושג שנעשתה עם ChatGPT לפריצת ראיונות עבודה. זה לוקח את הניסיון הקודם שלך, מאזין לשיחה שלך עם המראיין שלך, ואומר לך מה לומר, ממלא אותך בדברים שאולי לא ידעת.
כאדריכל בכיר, בעת קביעת סדר העדיפויות למה להתמקד בשירות גב, אני מעדיף את היכולת להתרחב. כלי כזה יגרום לבלגן בתהליך ראיון העבודה. בדרך כלל, כאשר עולות טכנולוגיות גדולות כמו מחשבים או האינטרנט, הן משנות את כל התהליכים שהתפתחו לפניהן. זה אומר שחלק מהשאלות האלה עשויות לא להיות רלוונטיות יותר אם נסתכל הרבה קדימה לעתיד.
חשבתי שזו הייתה רעיון מצוין כי אז, אני עברתי תהליכי ראיון עבודה, אז הייתי אוהב להיות עם כלי בזמן אמת שיכול לעזור לי לפרוץ אותם. אני אפילו ניסיתי לבנות את הדגם הזה שבו הוא השתמש בדגם של המרת דיבור לטקסט כדי ליצור את הפרוטוקול ושימש גם במודל שפה גדול כדי ליצור תשובות, אבל הדגם הזה מעולם לא עבד טוב במציאות. אחד הדרישות הקשות עבור מלווי ראיון או שיחה בזמן אמת האלה הוא שהם חייבים להיות בעלי עיכוב נמוך ובזמן אמת. אם זה יקח 30-40 שניות כדי לייצר תוצאות, זה לא באמת יעבוד. לצערי, זה היה המקרה במרץ אשתקד, כיוון שהן המודל של המרת דיבור לטקסט והן המודל השפה הגדול לקחו זמן ארוך למדי להסקה. זה היה פרויקט פשוט בתיאוריה, אבל מאוד קשה לבנות מוצר שימושי במציאות.
עם זאת, כמה חודשים מאוחר יותר, ראיתי מוצר אחר שהציג תרחיש דומה אך עם ביצועים כמעט בזמן אמת. בהנדסת אווירונאוטיקה, כמו במנועי סילון או בכניסה מחדש של חלליות, איך אתה מתמודד עם אתגרים אלה?
אתגרים בבניית תמלול בזמן אמת והסקה מהירה
אתגרים בבניית תמלול בזמן אמת והסקה מהירה
יש שני רכיבים עיקריים לבניית מלווה שיחה בזמן אמת: תמלול בזמן אמת והסקה מהירה.
תמלול בזמן אמת
השגת תמלול בזמן אמת היא אחד האתגרים הגדולים ביותר. מודלי המרת דיבור לטקסט טיפוסיים כמו Whisper אינם מיועדים לתרחישי זרימה, שבהם האודיו מעובד בקטעים קטנים במקום בהקלטה השלמה.
כדי להתגבר על כך, פתרון נפוץ הוא ליצור לולאה חוזרת שלוכדת באופן רציף קטעי אודיו קטנים (למשל, כל 2-5 שניות), שולחת אותם למודל המרת דיבור לטקסט, ותופרת את התמלולים הקטנים יחד. גישה זו דורשת אופטימיזציות להבטחת דיוק, כמו השוואת חותמות זמן של מילים מחברות כדי לשפר את התמלול הסופי.
למזלנו, טכנולוגיית המרת דיבור לטקסט התפתחה במהירות, וכיום קיימים פתרונות המאפשרים תמלול בזמן אמת, כמו שימוש במודלים מהירים מאוד המאוחסנים על פלטפורמות כמו Replicate או פריסה של מודלים קלים כמו Whisper Kit ישירות על התקני נייד.
הסקה מהירה
האתגר השני הוא להשיג הסקה מהירה מאוד עם המודל השפה הגדול כדי לייצר הצעות בזמן אמת. כדי להתמודד עם זה:
-
בחר במודל שפה מהיר וקטן: מודלים כמו Meteo 7B קטנים ומהירים הרבה יותר מ-GPT-4, מאפשרים תגובה מהירה יותר בעלות משאבי מחשוב נמוכים יותר.
-
הקטן את גודל הקלט: ככל שהשיחה מתארכת, הקלט למודל השפה יכול להפוך גדול מדי. טכניקות כמו סיכום מודל השפה יכולות לשמש כדי להפיק רק את המידע הרלוונטי ולהקטין את גודל הקלט.
-
אופטימיזציה של יצירת פלט: ניתן לבצע אופטימיזציות נוספות כדי להקטין את מספר הטוקנים בפלט, כמו שימוש בשיטות של הנדסת פרומפט.
בשילוב של טכניקות אלה עבור תמלול בזמן אמת והסקה מהירה, ניתן לבנות מלווה שיחה בזמן אמת מאוד רגישה שיכולה לספק הצעות ותמיכה חשובות במהלך שיחות.
בניית הדגמה של עוזר שיחה מבוסס אינטרנט
בניית הדגמה של עוזר שיחה מבוסס אינטרנט
כדי לבנות הדגמה של מלווה שיחה מבוססת אינטרנט, נשתמש בשילוב של Flask (מסגרת אינטרנט פייתון) ו-Replicate (פלטפורמה להרצת מודלי AI מקוד פתוח).
הרכיבים העיקריים הם:
-
תמלול בזמן אמת: נשתמש במודל המרת דיבור לטקסט מהיר מ-Replicate כדי ליצור תמלול בזמן אמת של השיחה. זה כולל לכידה רציפה של קטעי אודיו קטנים, שליחתם למודל המרת דיבור לטקסט, וחיבור התוצאות יחד.
-
הסקה מהירה: נשתמש במודל שפה קטן ומהיר מ-Replicate (כמו Minitram) כדי ליצור הצעות ותשובות בהתבסס על התמלול בזמן אמת. נחקור גם טכניקות כמו הקטנת גודל הקלט וסיכום השיחה כדי לשפר את המהירות.
אפליקציית האינטרנט תכלול את התכונות הבאות:
- שדה טקסט עבור המשתמש לספק הקשר על השיחה.
- לחצן "הקלט" להתחלה והפסקה של הקלטת האודיו.
- לחצן "קבל הצעה" להפעלת מודל השפה וקבלת הצעות.
- תצוגה בזמן אמת של התמלול.
- תצוגה של ההצעות שנוצרו.
הנה התהליך שלב אחר שלב:
-
הגדרת אפליקציית Flask:
- צור את הקובץ
app.py
וייבא את הספריות הנדרשות, כולל ערכת הפיתוח של Replicate Python. - הגדר את נתיבי Flask עבור דף הבית ונקודת הקצה לעיבוד האודיו.
- הגדר את ספל S3 של AWS והאישורים לאחסון זמני של הקלטות האודיו.
- צור את הקובץ
-
יישום תפקוד התמלול בזמן אמת:
- השתמש במודל Replicate Whisper כדי לכלוא ולתמלל רצופות קטעי אודיו.
- אופטם את התמלול על ידי טיפול בגבולות המילים ושמירה על ההקשר בין הקטעים.
-
יישום תפקוד ההסקה המהירה:
- השתמש במודל Replicate Minitram (או מודל שפה קטן ומהיר דומה) כדי ליצור הצעות בהתבסס על התמלול המלא.
- חקור טכניקות כמו הקטנת גודל הקלט וסיכום השיחה כדי לשפר את מהירות ההסקה.
-
בנה את הממשק המשתמש עם HTML ו-JavaScript:
- צור את הקובץ
index.html
בתיקייהtemplates
. - הגדר את המבנה HTML עם שדה הקלט, לחצן ההקלטה, ותצוגת ההצעה.
- יישם את הלוגיקה של JavaScript לטיפול בהקלטה, העלאת האודיו, וקריאות ה-API לגב Flask.
- צור את הקובץ
-
בדוק והפץ את אפליקציית האינטרנט:
- הרץ את אפליקציית Flask באופן מקומי ובדוק את הפונקציונליות.
- פרוס את האפליקציה לפלטפורמת אירוח (למשל, Heroku, AWS, או השרת שלך).
בעקבות שלבים אלה, תוכל לבנות הדגמה של מלווה שיחה מבוססת אינטרנט שיכולה להאזין לשיחות, ליצור תמלולים בזמן אמת, ולספק הצעות בהתבסס על ההקשר.
ניצול ערכת Whisper לעוזר שיחה ניידת
ניצול ערכת Whisper לעוזר שיחה ניידת
לאחר שראיתי את ההדגמה המרשימה של מלווה השיחה המבוסס אינטרנט, החלטתי לחקור את הפוטנציאל של בניית גרסה ניידת באמצעות מסגרת הקוד הפתוח Whisper Kit. Whisper Kit מספק חבילת Swift המאפשרת פריסה של מודל הדיבור לטקסט Whisper ישירות על התקני iOS, מאפשרת תמלול בזמן אמת עם עיכוב מינימלי.
כדי להתחיל, שכפלתי את מאגר הקוד הפתוח של Whisper Kit ופתחתי את הפרויקט הדוגמה ב-Xcode. הפרויקט כולל תיקייה whisper-ax
, המכילה את קוד המקור עבור אפליקציית iOS דוגמה המדגימה את השימוש ב-Whisper Kit.
בקובץ ContentView.swift
, תחילה הגדרתי כמה משתנים נוספים של מצב כדי לטפל בקלט הפרומפט ובתקציר תגובת ה-API מהמודל השפה הגדול. לאחר מכן הוספתי שדה קלט עבור המשתמש להתאמת הפרומפט, שישמש כדי לספק הקשר למודל השפה הגדול.
לאחר מכן, יישמתי את הפונקציה getSuggestion()
, האחראית על שליחת התמלול והפרומפט לממשק ה-API של Replicate כדי ליצור תגובה מהמודל Mistral. פונקציה זו מטפלת בטבע הזרימה של ממשק ה-API של Replicate, בודקת באופן רציף את המצב עד שהתגובה מושלמת ואז מעדכנת את משתנה המצב API_response_summary
עם ההצעה שנוצרה.
לבסוף, הוספת
שאלות נפוצות
שאלות נפוצות