Mô hình AI VOICE đột phá của Kyutai định nghĩa lại trí tuệ nhân tạo giao tiếp

Mô hình AI VOICE đột phá của Kyutai, Moshi, đã định nghĩa lại AI giao tiếp với khả năng thể hiện hơn 70 cảm xúc, phong cách nói và khả năng đa ngôn ngữ. Khung công việc AI đa phương thức và đa luồng này mở rộng ranh giới của các tương tác theo thời gian thực, cung cấp một trải nghiệm giao tiếp liền mạch và giống con người.

14 tháng 2, 2025

party-gif

Khám phá tương lai của các cuộc trò chuyện được cung cấp bởi công nghệ "VOICE AI" đột phá của Kyutai. Mô hình tiên tiến này mang lại các tương tác sống động, khả năng đa phương tiện liền mạch và biểu cảm cảm xúc vô song, định nghĩa lại cách chúng ta tương tác với các trợ lý AI.

Khả năng ấn tượng của Moshi: Từ cảm xúc đến giọng điệu

Moshi là một mô hình AI đáng chú ý có thể thể hiện một loạt cảm xúc và phong cách nói rộng. Các khả năng của nó thực sự ấn tượng:

  • Moshi có thể nói với hơn 70 cảm xúc khác nhau, từ thì thầm đến nghe như kinh hoàng, và thậm chí có thể giả giọng một tên cướp biển hoặc nói với giọng Pháp.
  • Mô hình này có thể phản hồi theo thời gian thực, tham gia vào các cuộc trò chuyện tự nhiên và điều chỉnh giọng điệu và ngôn ngữ của nó phù hợp với tình huống.
  • Công nghệ chuyển văn bản sang giọng nói của Moshi rất tiên tiến, tạo ra âm thanh sống động kết hợp cảm xúc và cá tính một cách mượt mà.
  • Mô hình này được đào tạo trên một tập dữ liệu đa dạng, cho phép nó xử lý nhiều chủ đề và nhiệm vụ khác nhau, từ đọc thơ đến thảo luận về các sự kiện hiện tại.
  • Tính đa phương thức của Moshi, kết hợp đầu ra âm thanh và văn bản, tăng cường khả năng giao tiếp hiệu quả và cung cấp phản hồi toàn diện.
  • Hiệu suất ấn tượng của mô hình này đạt được thông qua các kỹ thuật đào tạo sáng tạo, bao gồm việc sử dụng các cuộc đối thoại tổng hợp để tinh chỉnh khả năng giao tiếp của Moshi.

Vượt qua những hạn chế của các phương pháp AI giọng nói hiện tại

Các phương pháp hiện tại đối với trí tuệ nhân tạo giọng nói có hai hạn chế chính mà CAAI phải giải quyết trong quá trình phát triển Moshi:

  1. Độ trễ: Đường ống phức tạp của các mô hình riêng biệt gây ra độ trễ từ 3 đến 5 giây giữa đầu vào của người dùng và phản hồi của hệ thống. Điều này có thể rất khó chịu cho một trải nghiệm giao tiếp trực tiếp.

  2. Mất thông tin ngoài văn bản: Bằng cách đi qua một nút cổ chai dựa trên văn bản, hệ thống mất tất cả thông tin ngoài văn bản như cảm xúc, giọng điệu và các dấu hiệu giao tiếp có trong bài nói gốc.

Những bước đột phá trong sự phát triển của Moshi: Đa phương thức, đa luồng và khả năng thích ứng

Các bước đột phá chính trong việc phát triển Moshi, mô hình trí tuệ nhân tạo giao tiếp nâng cao, là:

  1. Đa phương thức: Moshi không chỉ có thể nghe và tạo ra âm thanh, mà còn có những suy nghĩ dạng văn bản được hiển thị trên màn hình trong quá trình trò chuyện. Điều này cho phép nó tận dụng hiệu quả và tính gọn nhẹ của văn bản cùng với sự phong phú của âm thanh để cung cấp phản hồi tốt hơn và nhanh hơn.

  2. Đa luồng: Moshi hoạt động với hai luồng âm thanh song song, cho phép nó nói và nghe đồng thời. Điều này cho phép các cuộc trò chuyện tự nhiên hơn với lời nói chồng chéo, sự gián đoạn và chuyển tiếp mượt mà, khiến tương tác cảm thấy giống con người hơn.

  3. Khả năng thích ứng: Moshi không chỉ là một mô hình trí tuệ nhân tạo giao tiếp dựa trên giọng nói, mà còn là một khung linh hoạt có thể được điều chỉnh cho các nhiệm vụ và trường hợp sử dụng khác nhau. Nhóm đã chứng minh khả năng của Moshi trong việc tham gia vào một cuộc thảo luận từ những năm 1990/2000, thể hiện tính linh hoạt của nó và tiềm năng tương tác với dữ liệu từ các giai đoạn khác nhau.

Động cơ TTS và tổng hợp giọng nói của Moshi

Một trong những điều đáng kinh ngạc nhất về Moshi là nó không chỉ là một loại mô hình trí tuệ nhân tạo, mà còn là một động cơ chuyển văn bản sang giọng nói có hơn 70 cảm xúc khác nhau có thể truy cập được. Bằng cách sử dụng dữ liệu ghi âm, nhóm đã có thể đào tạo một động cơ chuyển văn bản sang giọng nói có thể hỗ trợ hơn 70 cảm xúc hoặc phong cách nói khác nhau.

Để trình diễn khả năng của động cơ chuyển văn bản sang giọng nói này, nhóm đã phát một số mẫu âm thanh được tạo ra. Các mẫu này đã chứng minh khả năng của Moshi trong việc thể hiện một loạt cảm xúc, từ thì thầm đến hát, và thậm chí giả giọng một tên cướp biển hoặc nói với giọng Pháp. Điều này thể hiện sự linh hoạt ấn tượng và chất lượng sống động của khả năng hợp âm của Moshi.

Huấn luyện Moshi: Từ chỉ có văn bản đến trí tuệ nhân tạo hội thoại

Các bước đột phá chính trong việc đào tạo Moshi, mô hình trí tuệ nhân tạo giao tiếp nâng cao, có thể được tóm tắt như sau:

  1. Đa phương thức: Moshi không chỉ có thể tạo ra âm thanh, mà còn có thể tạo ra những suy nghĩ dạng văn bản kèm theo. Cách tiếp cận lai này kết hợp âm thanh và văn bản cho phép đào tạo hiệu quả và hiệu suất hơn, dẫn đến phản hồi tốt hơn.

  2. Tương tác đa luồng: Moshi có khả năng nghe và nói đồng thời, cho phép dòng chảy tự nhiên của cuộc trò chuyện với lời nói chồng chép, sự gián đoạn và chuyển tiếp mượt mà, giống như các cuộc trò chuyện của con người.

  3. Tạo dữ liệu tổng hợp: Để vượt qua thách thức của dữ liệu cuộc trò chuyện thực tế hạn chế, nhóm đã phát triển các kỹ thuật để tạo ra các cuộc đối thoại tổng hợp. Điều này cho phép họ tinh chỉnh khả năng giao tiếp của Moshi vượt ra ngoài mô hình ngôn ngữ chỉ dựa trên văn bản ban đầu.

Chạy Moshi cục bộ trên thiết bị

Một trong những bước đột phá chính với Moshi là khả năng chạy cục bộ trên một thiết bị, mà không cần kết nối internet. Đây là một bước tiến đáng kể, vì nó giải quyết các mối quan ngại về quyền riêng tư và độ trễ đã ám ảnh các hệ thống trí tuệ nhân tạo giọng nói trước đây.

Nhóm tại CAAI đã chứng minh khả năng này bằng cách chạy Moshi trên một chiếc MacBook Pro tiêu chuẩn, với kết nối internet bị vô hiệu hóa. Họ đã khởi chạy ứng dụng Moshi và có thể tham gia vào một cuộc trò chuyện theo thời gian thực với trợ lý trí tuệ nhân tạo, mà không có bất kỳ độ trễ đáng kể nào.

Đảm bảo an toàn AI với Moshi

Một trong những điều cuối cùng mà hầu hết mọi người sẽ không nghĩ đến là khía cạnh an toàn của trí tuệ nhân tạo. Nếu bạn có một mô hình nhanh như vậy và có thể phản hồi với độ chính xác đáng kể, chúng ta biết rằng mọi người có thể sử dụng nó cho các chiến dịch lừa đảo hoặc các hoạt động độc hại khác. Đây là nơi họ mô tả cách họ sẽ an toàn xác định nội dung Moshi và đảm bảo rằng đây không phải là một vấn đề phổ biến.

Chào, tôi là từ qAI. Chúng tôi rất nghiêm túc về vấn đề an toàn. Một câu hỏi cụ thể mà chúng tôi muốn giải quyết là làm thế nào để xác định xem một âm thanh có được tạo ra bởi Moshi hay không. Đối với điều này, chúng tôi đã xem xét hai chiến lược:

  1. Phương pháp trực tuyến: Chúng tôi theo dõi âm thanh mà Moshi tạo ra bằng cách trích xuất một số chữ ký và đưa chúng vào cơ sở dữ liệu của nội dung được tạo ra. Khi được trình bày với một âm thanh mới, chúng tôi có thể trích xuất một chữ ký và kiểm tra xem nó có khớp với cơ sở dữ liệu hay không. Nếu có, chúng tôi biết rằng âm thanh đó được tạo ra bởi Moshi.

  2. Đánh dấu nước: Chúng tôi thêm một số dấu hiệu không thể nghe được vào âm thanh mà chúng tôi tạo ra, để chúng tôi có thể phát hiện chúng bằng một bộ phát hiện cụ thể. Điều này cho phép chúng tôi xác định nội dung được tạo ra bởi Moshi.

Kết luận

Mô hình này, được gọi là Moshi, đại diện cho một bước đột phá đáng kể trong lĩnh vực trí tuệ nhân tạo giao tiếp. Một số điểm nổi bật chính:

  • Moshi có thể thể hiện hơn 70 cảm xúc và phong cách nói khác nhau, từ thì thầm đến hát, cho phép các tương tác tự nhiên và biểu cảm hơn.

  • Mô hình này đa phương thức, tạo ra cả âm thanh và văn bản đồng thời, điều này tăng cường sự phong phú và tính liên kết của các phản hồi.

  • Moshi sử dụng một phương pháp "đa luồng" mới, cho phép nó nghe và nói đồng thời, cho phép các cuộc trò chuyện tự nhiên hơn với lời nói chồng chéo, sự gián đoạn và chuyển tiếp mượt mà.

  • Mô hình này được đào tạo một cách hiệu quả bằng cách sử dụng các cuộc đối thoại tổng hợp, vượt qua thách thức của việc thu thập lượng lớn dữ liệu cuộc trò chuyện thực tế.

  • Quan trọng hơn, nhóm cũng đã giải quyết các mối quan ngại về an toàn và bảo mật, phát triển các kỹ thuật để phát hiện xem âm thanh có được tạo ra bởi Moshi hay không.

Câu hỏi thường gặp