Des objets usuels servant de microphones ou comment extraire du son d’une vidéo

Les sons que nous percevons sont dus à des fluctuations de pression qui se propagent à travers divers milieux. Ces ondes sonores mettent en mouvement la surface des objets qu’elles rencontrent. Celle-ci se déplace ou se déforme selon le cas. L’enregistrement de ce mouvement contient une information qui peut permettre de reconstituer le son. L’objet utilisé constitue donc un microphone visuel à distance. C’est ce qu’ont réalisé des chercheurs du MIT Computer Science and Artificial Intelligence Laboratory, Cambridge, USA.

Fig.1. Son reconstitué à partir d’une vidéo. A gauche : quand le son heurte le sachet de chips, il entraîne de très faibles vibrations de sa surface. Celles-ci sont enregistrées par la caméra rapide et on reconstitue le son à partir de cet enregistrement. L’objet est ainsi utilisé comme un microphone visuel. A droite : On a représenté ici le spectrogramme, c'est-à-dire les fréquences présentes au cours du temps dans le son d’une comptine anglaise, d’abord émise par un haut-parleur (en haut), puis reconstituée à partir de vidéos de : 1- un sachet de chips (au milieu), 2- les feuilles d’une plante d’intérieur (en bas). Crédit Fredo Durand. ACM Trans. Graph.

Fig.1. Son reconstitué à partir d’une vidéo.
A gauche : quand le son heurte le sachet de chips, il entraîne de très faibles vibrations de sa surface. Celles-ci sont enregistrées par la caméra rapide et on reconstitue le son à partir de cet enregistrement. L’objet est ainsi utilisé comme un microphone visuel.
A droite : On a représenté ici le spectrogramme, c’est-à-dire les fréquences présentes au cours du temps dans le son d’une comptine anglaise, d’abord émise par un haut-parleur (en haut), puis reconstituée à partir de vidéos de : 1- un sachet de chips (au milieu), 2- les feuilles d’une plante d’intérieur (en bas). Crédit Fredo Durand. ACM Trans. Graph.

 

La reconstitution du son à partir des vibrations qu’il excite dans des objets

On a déjà utilisé ces dernières années les vibrations d’objets dues au son pour enregistrer celui-ci à distance. Mais ces méthodes, dites actives, nécessitent la projection sur l’objet d’un faisceau ou d’une image laser. La technique décrite ici est passive. Elle est basée sur le fait que les vibrations causées par le son sur un objet usuel créent assez de signal visuel pour qu’on puisse reconstituer partiellement le son. Pour cela, on filme l’objet en utilisant une caméra ultra rapide (capable d’enregistrer un mouvement vibratoire de 20 kHz). On extrait alors de l’enregistrement vidéo les signaux locaux de mouvement d’un petit volume de l’objet excité par le son. Ces signaux sont moyennés en un seul signal à une dimension qui représente le mouvement global de l’objet au cours du temps. Ce signal est ensuite filtré et une grande part du bruit en est supprimé pour produire le son reconstitué.
Cette technique ne reconstitue pas le son aussi bien que les méthodes actives ; mais elle présente bien des avantages : elle n’exige ni faisceau laser, ni texture particulière de l’objet, ni de lumière de forte intensité. Le seul senseur nécessaire est une caméra vidéo rapide . La Figure 2 illustre bien ces caractéristiques. Une conversation y est reconstituée à partir d’un enregistrement vidéo effectué à travers un double vitrage isolant acoustique. On y a représenté le spectrogramme, c’est-à-dire la distribution des fréquences au cours du temps, des sons émis et reconstitués. L’échelle de fausses couleurs, à droite, permet d’indiquer en même temps sur la figure l’amplitude des fréquences présentes.

Fig. 2. Une conversation reconstituée à partir d’une vidéo d’un sachet de chips filmé à travers une double vitre en verre. a)Le sachet (par terre à droite) est éclairé en lumière naturelle. La caméra est placée à l’extérieur de la pièce derrière un vitrage isolant acoustique. L’insert en haut à droite présente une image de l’enregistrement vidéo. b) Spectrogramme d’une phrase prononcée dans la pièce. c)Spectrogramme de la reconstitution de la même phrase. Le son reconstitué est bruité mais compréhensible. La couleur de la courbe des spectres de fréquence indique l’intensité ( en décibels, dB) de chaque fréquence selon l’échelle de droite. Crédit Fredo Durand. ACM Trans.Graph.

Fig. 2. Une conversation reconstituée à partir d’une vidéo d’un sachet de chips filmé à travers une double vitre en verre.
a) Le sachet (par terre à droite) est éclairé en lumière naturelle. La caméra est placée à l’extérieur de la pièce derrière un vitrage isolant acoustique. L’insert en haut à droite présente une image de l’enregistrement vidéo.
b) Spectrogramme d’une phrase prononcée dans la pièce.
c) Spectrogramme de la reconstitution de la même phrase. Le son reconstitué est bruité mais compréhensible.
La couleur de la courbe des spectres de fréquence indique l’intensité ( en décibels, dB) de chaque fréquence selon l’échelle de droite. Crédit Fredo Durand. ACM Trans.Graph.

La visualisation de modes de vibration

Cette technique reconstitue le son à partir d’une vidéo et passe donc par une mesure du signal audio en de nombreux points de l’objet filmé à la différence d’un microphone à faisceau laser réfléchi. On peut donc utiliser cette mesure spatiale pour retrouver les modes propres de vibration d’un objet.

Tout corps possède des modes propres (ou normaux) d’oscillation dans lesquelles tous les points de l’objet vibrent avec les mêmes fréquences, dites propres (ou fréquences naturelles de vibration). Tout objet physique, comme un pont, un bâtiment ou encore une molécule possède un certain nombre de modes normaux de vibrations. Toute vibration de l’objet peut s’exprimer comme une combinaison de ses modes propres. L’excitation de l’objet à une de ses fréquences propres entraîne le phénomène bien connu de résonance.

Pour illustrer cela, la figure 3 ci-dessous montre une membrane circulaire excitée dans deux de ses modes propres par un haut-parleur. La figure des modes reconstitués à partir de la vidéo est comparée à celle obtenue par un calcul théorique.

Fig.3. a)Membrane en latex. Ses fréquences propres sont excitées par un haut parleur extérieur. Des repères sont placés à sa surface. b) Deux modes propres reconstitués à partir de la vidéo. c)Les deux modes calculés théoriquement leur sont semblables/ Crédit Fredo Durand. ACM Trans.Graph.

Fig.3.
a) Membrane en latex. Ses fréquences propres sont excitées par un haut parleur extérieur. Des repères sont placés à sa surface.
b) Deux modes propres reconstitués à partir de la vidéo.
c) Les deux modes calculés théoriquement leur sont semblables/
Crédit Fredo Durand. ACM Trans.Graph.

La reconstitution du son à l’aide d’un reflex numérique standard

L’utilisation d’une caméra ultra-rapide peut être considérée comme une limitation de la méthode. Les chercheurs du MIT ont donc essayé de reconstruire du son à partir d’une vidéo obtenue par un appareil reflex numérique standard. Pour cela, ils ont pris avantage de l’ « obturateur glissant » utilisé dans la plupart de ces appareils et les caméras des téléphones portables. L’obturateur glissant consiste à lire les pixels exposés par lignes successives au cours du temps de haut en bas de l’image. La figure suivante schématise ce mécanisme sur le traitement d’un signal sonore triangulaire. On y reconnaît le temps de pose E de l’appareil, l’intervalle entre lignes d, l’intervalle entre images T (égal à l’inverse du nombre d’images par seconde) et le délai d’image D, temps entre la dernière ligne d’une image et la première ligne de l’image suivante. Ce délai D entraine une perte d’une petite partie d’image que l’ont peut remplacer par interpolation.

Fig.4. Les vibrations sonores capturées en mode vidéo par un appareil à obturateur glissant sont converties en signal audio. Chaque ligne de la vidéo est capturée à un temps différent. L’intervalle entre lignes est le temps séparant la capture de deux lignes consécutives. Le temps de pose E est celui de capture sur chaque ligne. Le signal sur chaque ligne correspond à un échantillon du signal sonore reconstitué (b). Les échantillons correspondant à la durée du délai d’image D sont perdus et représentés en gris clair.

Fig.4. Les vibrations sonores capturées en mode vidéo par un appareil à obturateur glissant sont converties en signal audio. Chaque ligne de la vidéo est capturée à un temps différent (a). L’intervalle entre lignes est le temps séparant la capture de deux lignes consécutives. Le temps de pose E est celui de capture sur chaque ligne. Le signal sur chaque ligne correspond à un échantillon du signal sonore reconstitué (b). Les échantillons correspondant à la durée du délai d’image D sont perdus et représentés en gris clair.

(a)
L’obturateur glissant permet d’échantillonner le signal à la fréquence d’enregistrement des lignes (1/d) bien supérieure à celle de prise des images (1/T).

L’échantillonnage consiste à capturer des valeurs à intervalles réguliers.

Le temps d’échantillonnage est de l’ordre de l’intervalle entre lignes. Il est typiquement de l’ordre d’une dizaine de microsecondes, ce qui est bien adapté à des fréquences sonores (<20 kHz).
Les vibrations de nombreux objets usuels excitées par le son peuvent être enregistrées en vidéo à l’aide d’une caméra rapide ou même avec un appareil numérique standard en exploitant le mode d’obturateur glissant. A partir de tels enregistrements, on peut reconstituer par traitement numérique les sons qui sont à leur origine. On peut aussi utiliser ces enregistrements vidéo pour analyser les vibrations propres de divers objets, ce qui ouvre un grand domaine de recherche et d’applications.

Pour en savoir plus :
The Visual Microphone: Passive Recovery of Sound from Video
Abe Davis, Michael Rubinstein, Neal Wadhwa, Gautham J. Mysore,
Frédo Durand, William T. Freeman
ACM Trans. Graph. 33, 4, Article 79 (July 2014
Vous pouvez écouter sons émis et sons reconstitués à partir de vidéos de divers objets dans la deuxième page :sons émis et reconstitués_250 du  site suivant (en anglais) :
http://people.csail.mit.edu/mrub/VisualMic/