Meta révolutionne l’IA avec son nouveau système d’IA vocale générative de Meta Voicebox

Meta s’est un peu égaré, mais il y a quelques semaines, ils ont commencé à donner une impulsion majeure à leurs efforts dans le domaine de l’intelligence artificielle. Le lancement de leur modèle LLaMA a été largement célébré par la communauté Open Source, qui l’a utilisé comme base pour de nombreux projets indépendants, et il y a quelques jours, ils ont lancé MusicGen, leur IA générative pour créer de la musique. Il y a quelques jours, ils ont lancé MusicGen, leur IA générative pour créer de la musique. Aujourd’hui, un autre projet attire particulièrement l’attention. Son nom :Voicebox.

Les chercheurs de Meta ont annoncé Voicebox vendredi dernier, affirmant qu’il s’agit du premier modèle capable de généraliser des tâches de génération de parole sans avoir été spécifiquement entraîné à le faire, et de fournir des résultats exceptionnels. Et il va plus loin que les autres modèles.

Pas de la synthèse vocale. Du texte à (plusieurs) voix. Pour commencer, la Voicebox n’a pas besoin d’être entraînée au préalable : on peut écrire une phrase que l’on veut convertir en voix et, à partir de là, ce système créera ces voix synthétisées – pas parfaites, mais très convaincantes – dans différents styles que l’on peut choisir pour lire ce texte.
LlaMa, l’intelligence artificielle de Meta destinée à concurrencer GPT-3, a fait l’objet d’une fuite dans des torrents. La concurrence pourra en profiter

Du texte à la voix. La fonctionnalité la plus “traditionnelle” est de pouvoir dupliquer la voix de n’importe quelle personne pour prononcer n’importe quelle phrase, et c’est précisément ce que Voicebox peut faire dans le cadre de ses capacités. Il suffit d’ajouter un petit clip audio (le nôtre, par exemple, qui ne dure que deux secondes) à côté de la phrase écrite que l’on veut faire prononcer, et le modèle parviendra à générer cette phrase lue avec la voix du clip audio.

Vous pouvez désormais parler dans de nombreuses langues. Il est également possible d’utiliser un texte écrit dans n’importe quelle langue et un clip audio dans votre langue maternelle. La Voicebox vous fera “dire” cette phrase dans cette langue comme s’il s’agissait de votre langue maternelle, ce qui est particulièrement intéressant pour surmonter la barrière de la langue dans de multiples scénarios.

VoiceBox: Meta's NEW AI Clones Voices with only 2 Seconds of Audio!

Lire cette vidéo sur YouTube

Éliminer le bruit.
La Voicebox peut également détecter et supprimer les bruits de fond, par exemple les aboiements d’un chien pendant que vous enregistrez une vidéo et que vous ne voulez pas entendre pendant que vous parlez.

Là où j’ai dit Aura.
Enfin, le développement de Meta est également capable de modifier le clip audio original de votre discours pour changer n’importe quel mot et insérer un nouveau mot indiqué à l’invite du texte. Si vous aviez dit “Bonjour les gars, aujourd’hui nous allons parler d’intelligence artificielle”, vous pourriez facilement le changer en “Mesdames et Messieurs, aujourd’hui nous allons parler d’intelligence artificielle”, par exemple.

Entraînement dans le domaine public.
Pour créer la Voicebox, les ingénieurs de Meta l’ont entraînée avec 50 000 heures de voix provenant de livres audio en anglais et 60 000 heures de livres audio dans d’autres langues. C’est pourquoi, dans les démonstrations, les voix donnent l’impression de lire un livre, au lieu d’adopter une intonation plus informelle, proche de la conversation. L’idée est précisément que le modèle évolue vers cette capacité. Là encore, le débat fait rage : Meta ne précise pas quels livres audio ont été utilisés, mais un porte-parole de la société a déclaré à Gizmodo qu’il s’agissait de livres audio “du domaine public”.

Deepfakes en vue.
Ce type de système présente des avantages notables et des cas d’utilisation très bénéfiques, mais il peut également être utilisé à mauvais escient pour créer des “deepfakes”. Toutes sortes d’escroqueries à l’identité peuvent être exécutées avec eux, et cela a conduit Meta à prendre une décision importante avec la Voicebox cette fois-ci.

Elle ne sera pas Open Source. Contrairement à LLaMA, qui est Open Source et a été partagé avec la communauté académique, Meta a décidé de ne pas publier le code de la Voicebox. L’entreprise explique qu’en raison des risques d’utilisation abusive, elle préfère ne pas le mettre à la disposition du public, car elle souhaite poursuivre ses recherches sur l’IA de manière responsable. Elle partage toutefois l’étude afin de maintenir la transparence sur les progrès réalisés dans ce domaine.

Meta révolutionne l’IA avec son nouveau système d’IA vocale générative de Meta Voicebox

Voicebox est le nouveau système d'IA génératrice de voix de Meta. Et il est tellement bon que vous ne pourriez plus vous en passer.

Mars May Have Had a Northern Ocean—and a Weird Mineral “Ring” Just Gave It a Timeline

Mars: un anneau de minéraux au nord raconte le passé d’un ancien océan à Utopia Planitia

Trump’s “AI compromise” has Washington buzzing — but the details are basically vapor

2 camps satisfaits, régulation allégée, Trump trouve un compromis pour l’IA, ce qui surprend les experts tech

China Just Logged a 7‑Month Spaceflight—and the Hard Part Wasn’t the Launch

3 astronautes chinois, 7 mois dans l’espace, un record national, ce retour sur Terre impressionnant surprend les experts

Sur le même sujet

Mars: un anneau de minéraux au nord raconte le passé d’un ancien océan à Utopia Planitia

Trump’s “AI compromise” has Washington buzzing — but the details are basically vapor

2 camps satisfaits, régulation allégée, Trump trouve un compromis pour l’IA, ce qui surprend les experts tech

China Just Logged a 7‑Month Spaceflight—and the Hard Part Wasn’t the Launch