Prouesse informatique

18 avril 2018 13:23; Act: 18.04.2018 16:45 Print

Un algorithme isole des paroles en plein brouhaha

Des ingénieurs de Google ont mis au point une technique capable de séparer les paroles de divers interlocuteurs, même dans les pires conditions.

Sur ce sujet
Une faute?

Une équipe de Google s'est servie des techniques d'apprentissage profond pour aider les ordinateurs à séparer les voix de personnes prenant part à une conversation. La technologie se base sur un modèle audiovisuel et fonctionne sur des vidéos avec une seule piste audio. Elle peut isoler les voix selon qui parle ou en demandant à l'utilisateur de sélectionner manuellement le visage de la personne dont il veut obtenir la bande sonore individuelle.

La composante visuelle est la clé du processus, relève la firme américaine sur son blog. La technologie surveille le moment où la bouche d'une personne bouge afin d'identifier la voix sur laquelle se concentrer et la suivre pour le reste de la vidéo.

«Cocktail party»

Le système est ainsi capable d'attribuer à un visage une source audio et de créer une piste vocale séparée pour chaque locuteur apparaissant à l'écran. Les chercheurs ont développé leur algorithme en s'appuyant sur 100 000 vidéos YouTube relatives à des «conférences et causeries». Ils en ont ressorti près de 2 000 heures de discussions, qu'ils ont mixées avec d'autres éléments audio pour créer un «cocktail synthétique» avec un bruit de fond artificiel.

Initialement, les ingénieurs se sont inspirés d'un effet appelé «cocktail party», relève le site arstechnica. Il s'agit de la capacité d'une personne à diriger son attention de manière à suivre une conversation dans une ambiance bruyante, par exemple lors d'une fête, tout en restant réceptive à d'autres signaux sonores.

(L'essentiel/laf)