moshi, kyutai, opanai
DR

Moshi, le nouveau modèle d'IA vocal présenté par le laboratoire de recherche en IA Kyutai, est en concurrence directe avec les assistants vocaux des géants de la tech tels qu'Apple et Amazon.

Avec 70 styles et tonalités de voix différents, Moshi est capable de dialoguer presque comme un humain, bien qu'il ait encore quelques défauts à corriger.

Moshi est le premier projet de recherche visible et grand public de Kyutai, un laboratoire soutenu par Xavier Niel, Rodolphe Saadé et Eric Schmidt, qui a été créé il y a huit mois à Paris.

Les trois investisseurs ont placé 300 millions d'euros dans ce laboratoire pour faire de la recherche pure sur les modèles d'IA. Moshi aurait nécessité environ 10 millions d'euros à lui tout seul.

Pour construire Moshi, les équipes de Kyutai ont dû procéder par étapes. Le robot vocal repose sur un grand modèle de langage textuel, baptisé Hélium, qui a été pré-entraîné avec des données écrites et audio.

Pour donner de la personnalité à Moshi, une artiste réelle a accepté d'enregistrer sa voix, qui a ensuite été compressée et réinjectée dans le modèle. Enfin, une technologie "text-to-speech" a été utilisée pour lui donner ces 70 tonalités différentes.

Moshi se démarque des autres assistants vocaux grâce à sa capacité à transmettre des informations clés non seulement par le message lui-même, mais aussi par la façon dont il est dit. La latence de Moshi est également un atout majeur, avec un temps de réponse de seulement 3 à 5 millisecondes, contre environ 160 millisecondes en moyenne sur le reste du marché.

Cependant, Moshi est encore un prototype et nécessite encore beaucoup de travail pour être perfectionné et réduit afin de pouvoir fonctionner sur un smartphone ou une enceinte connectée. Kyutai prévoit de publier un article de recherche dédié à Moshi et de mettre à disposition un lien Internet pour le tester. Le modèle sera également distribué aux États-Unis et dans le reste du monde via la plateforme Hugging Face.

Pour ce projet, Kyutai a pu utiliser des données synthétiques pour contourner la difficulté d'accéder à des données de qualité que les ayants droit entendent monnayer. Pour les prochains projets du laboratoire, des discussions sont en cours avec des organismes publics et des éditeurs de littérature scientifique pour obtenir gratuitement le droit d'utiliser des données dès lors que ses modèles n'ont pas de vocation commerciale.

(Source : Présentation de Moshi par Kyutai, 4 juillet 2024)