큐타이의 혁신적인 VOICE AI 모델, 대화형 AI를 재정의하다

Kyutai의 혁신적인 VOICE AI 모델인 Moshi는 70가지 이상의 감정, 말투, 다국어 기능을 표현할 수 있는 능력으로 대화형 AI를 재정의합니다. 이 다중 모드 및 다중 스트림 AI 프레임워크는 실시간 상호 작용의 경계를 확장하여 원활하고 인간적인 대화 경험을 제공합니다.

2025년 4월 4일

Kyutai의 혁신적인 "VOICE AI" 기술로 AI 기반 대화의 미래를 발견하세요. 이 최첨단 모델은 생동감 있는 상호 작용, 원활한 멀티모달 기능 및 전례 없는 감정 표현을 제공하여 AI 어시스턴트와의 상호 작용 방식을 재정의합니다.

모시의 인상적인 기능: 감정에서 억양까지

모시는 다양한 감정과 말투를 표현할 수 있는 놀라운 AI 모델입니다. 그 기능은 정말 인상적입니다:

모시는 속삭이는 것부터 공포에 질린 것처럼 들리는 등 70가지 이상의 다양한 감정으로 말할 수 있으며, 해적이나 프랑스 억양으로도 말할 수 있습니다.
이 모델은 실시간으로 반응하며, 자연스러운 대화를 하고 상황에 맞게 어조와 언어를 조절할 수 있습니다.
모시의 텍스트 음성 변환 엔진은 매우 발전되어 있어, 감정과 개성이 자연스럽게 어우러진 생동감 있는 오디오를 생성합니다.
이 모델은 다양한 데이터셋으로 학습되어 시, 시사 등 다양한 주제와 과제를 다룰 수 있습니다.
모시의 멀티모달 특성, 즉 오디오와 텍스트 출력을 결합하여 효과적이고 종합적인 대응이 가능합니다.
이 모델의 놀라운 성능은 합성 대화를 활용한 혁신적인 학습 기술을 통해 달성되었습니다.

현재 음성 AI 접근법의 한계 극복

음성 AI의 현재 접근 방식에는 CAAI가 모시 개발 과정에서 해결해야 했던 두 가지 주요 한계가 있습니다:

지연: 별도의 모델들이 복잡한 파이프라인을 거치면서 사용자 입력과 시스템 응답 사이에 3-5초의 지연이 발생하여 실시간 대화 경험에 매우 불편합니다.
비텍스트 정보 손실: 텍스트 기반 병목 현상을 거치면서 원래 음성에 포함된 감정, 어조, 의사소통 단서 등의 비텍스트 정보가 모두 손실됩니다.

CAI는 이러한 한계를 해결하기 위해 다른 접근 방식을 취했습니다. 별도의 모델들로 구성된 복잡한 파이프라인 대신 단일 심층 신경망 기반의 "오디오 언어 모델"을 설계했습니다. 이 모델은 중간 텍스트 표현 없이 주석이 달린 음성 데이터로 직접 학습됩니다.

음성 입력을 compact한 "의사 단어" 표현으로 압축함으로써, 오디오 언어 모델은 텍스트 언어 모델이 텍스트에서 학습하는 것과 유사한 방식으로 음성의 패턴과 구조를 학습할 수 있습니다. 이를 통해 텍스트 기반 접근 방식의 지연 없이 원래 음성의 풍부함을 보존할 수 있습니다.

모시 개발의 돌파구: 다중 양식, 다중 스트림, 적응성

고급 대화형 AI 모델 모시 개발의 핵심 돌파구는 다음과 같습니다:

멀티모달리티: 모시는 청취와 오디오 생성뿐만 아니라 대화 중 화면에 텍스트 사고를 표시할 수 있습니다. 이를 통해 텍스트의 효율성과 간결성, 그리고 오디오의 풍부함을 함께 활용하여 더 나은 응답을 제공할 수 있습니다.
멀티스트림: 모시는 두 개의 병렬 오디오 스트림으로 작동하여 동시에 말하고 듣는 것이 가능합니다. 이를 통해 겹치는 발화, 중단, 부드러운 주고받기 등 더 자연스러운 대화가 가능합니다.
적응성: 모시는 단순한 대화형 음성 AI 모델이 아니라 다양한 과제와 사용 사례에 적용할 수 있는 유연한 프레임워크입니다. 팀은 모시가 1990년대/2000년대 토론에 참여할 수 있음을 시연하여 그 다양성과 다른 시기 데이터와의 상호작용 가능성을 보여주었습니다.

모시의 TTS 엔진 및 음성 합성

모시에 대해 가장 놀라운 점 중 하나는 단순한 AI 모델이 아니라 70가지 이상의 감정을 표현할 수 있는 텍스트 음성 변환 엔진이라는 것입니다. 팀은 녹음된 데이터를 활용하여 70가지 이상의 감정이나 말투를 지원하는 텍스트 음성 변환 엔진을 학습했습니다.

이 TTS 엔진의 기능을 보여주기 위해 팀은 생성된 오디오 샘플을 재생했습니다. 이 샘플은 모시가 속삭이기부터 노래하기, 해적 흉내 내기, 프랑스 억양으로 말하기 등 다양한 감정을 표현할 수 있음을 보여주었습니다. 이는 모시의 음성 합성 기능의 인상적인 다재다능성과 생동감 있는 품질을 보여줍니다.

팀은 이 TTS 엔진을 자체 개발했으며, 성우 Alice와 협력하여 다양한 독백과 대화를 녹음하고 이를 활용해 텍스트 음성 변환 모델을 학습했다고 설명했습니다. 이러한 접근 방식을 통해 모시는 모든 상호작용에서 일관되고 자연스러운 음성을 가질 수 있게 되었습니다.

모시 훈련: 텍스트 전용에서 대화형 AI로

모시, 고급 대화형 AI 모델 학습의 핵심 돌파구는 다음과 같이 요약할 수 있습니다:

멀티모달리티: 모시는 오디오 생성뿐만 아니라 텍스트 사고도 생성할 수 있습니다. 이 오디오와 텍스트의 하이브리드 접근 방식은 더 효율적이고 효과적인 학습을 가능하게 하여 더 나은 응답을 이끌어냅니다.
멀티스트림 상호작용: 모시는 동시에 듣고 말할 수 있어, 겹치는 발화, 중단, 부드러운 주고받기 등 자연스러운 대화 흐름을 구현할 수 있습니다.
합성 데이터 생성: 실제 대화 데이터가 부족한 문제를 해결하기 위해 팀은 합성 대화를 생성하는 기술을 개발했습니다. 이를 통해 초기 텍스트 기반 언어 모델을 넘어 모시의 대화 능력을 향상시킬 수 있었습니다.
음성 커스터마이징: 전문 성우 Alice와 협력하여 모시에게 일관되고 자연스러운 음성을 부여할 수 있었습니다.
온디바이스 배포: 모시 모델은 크기가 작게 설계되어 디바이스에 직접 배포하고 실행할 수 있어, 클라우드 연결 없이 프라이버시와 저지연 응답을 보장합니다.
안전성 고려: 잠재적 오용 가능성을 인식하고, 오디오 워터마킹과 서명 추적 등의 안전장치를 구현하여 모시와 유사한 콘텐츠의 악용을 탐지하고 완화할 수 있습니다.

디바이스에서 로컬로 모시 실행

모시의 핵심 돌파구 중 하나는 인터넷 연결 없이 디바이스에서 로컬로 실행할 수 있다는 점입니다. 이는 이전 음성 AI 시스템의 문제점이었던 프라이버시와 지연 문제를 해결한 중요한 진전입니다.

CAI 팀은 인터넷 연결을 차단한 표준 MacBook Pro에서 모시를 실행하여 이 기능을 시연했습니다. 모시 애플리케이션을 실행하고 AI 어시스턴트와 실시간으로 대화할 수 있었는데, 지연이나 지연이 전혀 없었습니다.

이러한 온디바이스 실행은 모시 모델의 상대적으로 작은 크기 덕분에 가능합니다. 팀은 모바일 기기에 배포하기 위해 모델을 더 압축할 수 있다고 강조했습니다. 로컬에서 실행함으로써 모시는 오디오 데이터를 원격 서버로 보내지 않고도 더 원활하고 프라이버시를 보장하는 대화 경험을 제공할 수 있습니다.

팀은 또한 이러한 고급 AI 시스템의 안전하고 책임감 있는 개발의 중요성을 강조했습니다. 모시 생성 콘텐츠의 무결성을 보장하기 위해 온라인 서명 추적과 워터마킹이라는 두 가지 핵심 전략을 설명했습니다. 이러한 기술을 통해 AI 생성 오디오를 탐지하여 기술의 잠재적 오용을 완화할 수 있습니다.

모시를 통한 AI 안전성 보장

가장 중요하지만 대부분의 사람들이 생각하지 않는 것 중 하나는 AI 안전성 문제입니다. 이렇게 빠르고 정확하게 응답할 수 있는 모델이 있다면 피싱 캠페인이나 다른 악의적인 활동에 사용될 수 있습니다. 이에 대해 모시 콘텐츠를 안전하게 식별하고 이러한 문제가 확산되지 않도록 하는 방법을 설명했습니다.

안녕하세요, 저는 qAI에서 왔습니다. 우리는 안전성에 매우 신중합니다. 특히 오디오가 모시에 의해 생성되었는지 여부를 판단하는 방법에 대해 다루고자 합니다.

온라인 접근법: 모시가 생성한 오디오의 서명을 추출하여 생성 콘텐츠 데이터베이스에 저장합니다. 새로운 오디오가 제시되면 서명을 추출하여 데이터베이스와 비교할 수 있습니다. 일치하면 해당 오디오가 모시에 의해 생성된 것입니다.
워터마킹: 우리는 감지할 수 있는 비가청 마크를 생성된 오디오에 추가합니다. 이를 통해 모시 생성 콘텐츠를 식별할 수 있습니다.

이는 중요하고 도전적이며 흥미로운 연구 분야입니다. 우리는 모시의 오용이나 악용을 방지하기 위해 안전하고 책임감 있는 개발에 전념하고 있습니다.

자주하는 질문

Moshi가 표현할 수 있는 감정과 말투는 어떤 것들인가요?

Moshi가 극복하고자 하는 음성 AI의 현재 한계는 무엇인가요?

Moshi의 개발자들은 모델을 더 대화형으로 만들기 위해 어떻게 했나요?

Moshi는 온디바이스에서 실행될 수 있나요?

Moshi는 안전성과 오용 방지를 어떻게 다루나요?

당신의 AI 여자친구를 만들어보세요

AI Girlfriend Builder로 이상적인 동반자를 만드세요