שחזר את הדמו של Gemini עם GPT-4V, Whisper ו-TTS

שחזר את הדמו של Gemini עם GPT-4V, Whisper ו-TTS. למד כיצד לשחזר את הדמו של Gemini באמצעות GPT-4V, Whisper לטקסט-לדיבור ודגמי טקסט-לדיבור. כולל פרטי יישום שלב אחר שלב ודמו של יישום רב-מודלי בזמן אמת.

22 באפריל 2025

שחרר את כוחו של בינה מולטימודלית עם מדריך זה צעד-אחר-צעד לבניית מחדש של הדגמת Gemini באמצעות GPT-4V, Whisper ו-Text-to-Speech. גלה כיצד לשלב בצורה חלקה את הטכנולוגיות החדשניות האלה כדי ליצור חוויית בינה מלאכותית מרתקת ללא ידיים המבינה הן קלט חזותי והן קלט אודיו. בין אם אתה חובב בינה מלאכותית או מפתח המחפש להרחיב את גבולות האפשרי, מבוא זה יעורר אותך לחקור את העתיד של בינה מולטימודלית.

נתיב בטוח עבור הציפור הקטנה

הנתיב הראשון בטוח יותר עבור הציפור הקטנה ללכת מכיוון שהוא מונע מהחתול. הנתיב השני מוביל ישירות אל החתול, שעלול להיות מסוכן עבור הציפור. לכן, הציפור צריכה לקחת את הנתיב הראשון כדי להימנע מהאיום הפוטנציאלי של החתול.

הצורה הבאה בסדרה

הצורה הבאה בסדרה צריכה להיות הקסגון.

הספר הטוב ביותר ללמוד בינה מלאכותית

אם ברצונך ללמוד על בינה מלאכותית, הספר "The Coming Wave" מאת Mustafa Suleyman יהיה הבחירה המתאימה יותר. נראה שהוא מתמקד בעתיד של הבינה המלאכותית והשלכותיה, שיהיו רלוונטיים לעניין שלך בבינה מלאכותית.

בנייה מחדש של הדגמת ג'מיני

כדי לבנות מחדש את ההדגמה של Gemini באמצעות GPT-4V, Whisper ודגמי המרת טקסט לדיבור, נפעל לפי השלבים הבאים:

הקמת פרויקט Next.js: נצור פרויקט חדש של Next.js עם TypeScript והתלויות הנדרשות, כולל ערכת הפיתוח של Vercel AI, ערכת הפיתוח של OpenAI ומספר ספריות עזר.
יישום הקלטת וידאו וקול: נקים את פונקציונליות הקלטת הוידאו והקול באמצעות ממשק ה-MediaRecorder והספרייה CUSilenceAwareRecorder כדי לזהות מתי המשתמש מפסיק לדבר.
יצירת רשת התמונות: נצלם תמונות מזרם הווידאו בהפרשי זמן קבועים ונרכיב אותן לרשת תמונות באמצעות הספרייה merge-images. נעלה גם את רשת התמונות לשירות אירוח תמונות חינמי כמו Temp.files.
תמלול הקול באמצעות Whisper: כאשר המשתמש מפסיק לדבר, נשלח את הקלטת הקול לממשק Whisper API כדי לקבל תמלול טקסט.
שילוב עם GPT-4V: נצור מטפל נתיב בתיקייה API של Next.js לטיפול בבקשות מהלקוח. מטפל נתיב זה ישלח את רשת התמונות והתמלול הטקסט למודל GPT-4V ויזרים את התגובה חזרה ללקוח.
יישום המרת טקסט לדיבור: נצור מטפל נתיב נוסף לשליחת התגובה המופקת מ-GPT-4V למודל המרת טקסט לדיבור של OpenAI ולהשמעת השמע למשתמש.
שיפור חווית המשתמש: נוסיף אלמנטים ממשק משתמש לאפשר למשתמש להזין את מפתח ה-API של OpenAI ולבחור את השפה, וכן להציג את התגובה המופקת ולהשמיע את השמע.

בעקבות שלבים אלה, תוכל לשחזר הדגמה דומה ל-Gemini באמצעות הדגמי שפה גדולים והטכנולוגיות הבינה המלאכותית האחרונות. היישום התוצאתי יאפשר למשתמשים להתקשר עם עוזר בינה מלאכותית באמצעות קלט חזותי וקולי, ולקבל תגובות בפורמטים של טקסט ושמע.

שאלות נפוצות

איזו דרך בטוחה יותר עבור הציפור הקטנה ללכת, עבור אחת או עבור שתיים?

מה צריך להיות הצורה הבאה בסדרה הזו?

איזו ספר היא סטנדרטית עבורי לקרוא אם אני רוצה ללמוד בינה מלאכותית?

צור את חברת AI שלך

בנה את בן לוויה האידיאלי שלך עם AI Girlfriend Builder שלנו