Des objets usuels servant de microphones ou comment extraire du son d’une vidéo
Les sons que nous percevons sont dus à des fluctuations de pression qui se propagent à travers divers milieux. Ces ondes sonores mettent en mouvement la surface des objets qu’elles rencontrent. Celle-ci se déplace ou se déforme selon le cas. L’enregistrement de ce mouvement contient une information qui peut permettre de reconstituer le son. L’objet utilisé constitue donc un microphone visuel à distance. C’est ce qu’ont réalisé des chercheurs du MIT Computer Science and Artificial Intelligence Laboratory, Cambridge, USA.
La reconstitution du son à partir des vibrations qu’il excite dans des objets
On a déjà utilisé ces dernières années les vibrations d’objets dues au son pour enregistrer celui-ci à distance. Mais ces méthodes, dites actives, nécessitent la projection sur l’objet d’un faisceau ou d’une image laser. La technique décrite ici est passive. Elle est basée sur le fait que les vibrations causées par le son sur un objet usuel créent assez de signal visuel pour qu’on puisse reconstituer partiellement le son. Pour cela, on filme l’objet en utilisant une caméra ultra rapide (capable d’enregistrer un mouvement vibratoire de 20 kHz). On extrait alors de l’enregistrement vidéo les signaux locaux de mouvement d’un petit volume de l’objet excité par le son. Ces signaux sont moyennés en un seul signal à une dimension qui représente le mouvement global de l’objet au cours du temps. Ce signal est ensuite filtré et une grande part du bruit en est supprimé pour produire le son reconstitué.
Cette technique ne reconstitue pas le son aussi bien que les méthodes actives ; mais elle présente bien des avantages : elle n’exige ni faisceau laser, ni texture particulière de l’objet, ni de lumière de forte intensité. Le seul senseur nécessaire est une caméra vidéo rapide . La Figure 2 illustre bien ces caractéristiques. Une conversation y est reconstituée à partir d’un enregistrement vidéo effectué à travers un double vitrage isolant acoustique. On y a représenté le spectrogramme, c’est-à-dire la distribution des fréquences au cours du temps, des sons émis et reconstitués. L’échelle de fausses couleurs, à droite, permet d’indiquer en même temps sur la figure l’amplitude des fréquences présentes.
La visualisation de modes de vibration
Cette technique reconstitue le son à partir d’une vidéo et passe donc par une mesure du signal audio en de nombreux points de l’objet filmé à la différence d’un microphone à faisceau laser réfléchi. On peut donc utiliser cette mesure spatiale pour retrouver les modes propres de vibration d’un objet.
Pour illustrer cela, la figure 3 ci-dessous montre une membrane circulaire excitée dans deux de ses modes propres par un haut-parleur. La figure des modes reconstitués à partir de la vidéo est comparée à celle obtenue par un calcul théorique.
La reconstitution du son à l’aide d’un reflex numérique standard
L’utilisation d’une caméra ultra-rapide peut être considérée comme une limitation de la méthode. Les chercheurs du MIT ont donc essayé de reconstruire du son à partir d’une vidéo obtenue par un appareil reflex numérique standard. Pour cela, ils ont pris avantage de l’ « obturateur glissant » utilisé dans la plupart de ces appareils et les caméras des téléphones portables. L’obturateur glissant consiste à lire les pixels exposés par lignes successives au cours du temps de haut en bas de l’image. La figure suivante schématise ce mécanisme sur le traitement d’un signal sonore triangulaire. On y reconnaît le temps de pose E de l’appareil, l’intervalle entre lignes d, l’intervalle entre images T (égal à l’inverse du nombre d’images par seconde) et le délai d’image D, temps entre la dernière ligne d’une image et la première ligne de l’image suivante. Ce délai D entraine une perte d’une petite partie d’image que l’ont peut remplacer par interpolation.
(a)
L’obturateur glissant permet d’échantillonner le signal à la fréquence d’enregistrement des lignes (1/d) bien supérieure à celle de prise des images (1/T).
Le temps d’échantillonnage est de l’ordre de l’intervalle entre lignes. Il est typiquement de l’ordre d’une dizaine de microsecondes, ce qui est bien adapté à des fréquences sonores (<20 kHz).
Les vibrations de nombreux objets usuels excitées par le son peuvent être enregistrées en vidéo à l’aide d’une caméra rapide ou même avec un appareil numérique standard en exploitant le mode d’obturateur glissant. A partir de tels enregistrements, on peut reconstituer par traitement numérique les sons qui sont à leur origine. On peut aussi utiliser ces enregistrements vidéo pour analyser les vibrations propres de divers objets, ce qui ouvre un grand domaine de recherche et d’applications.
Pour en savoir plus :
The Visual Microphone: Passive Recovery of Sound from Video
Abe Davis, Michael Rubinstein, Neal Wadhwa, Gautham J. Mysore,
Frédo Durand, William T. Freeman
ACM Trans. Graph. 33, 4, Article 79 (July 2014
Vous pouvez écouter sons émis et sons reconstitués à partir de vidéos de divers objets dans la deuxième page : du site suivant (en anglais) :
http://people.csail.mit.edu/mrub/VisualMic/