L’évolution des technologies audio immersives offre tous les outils nécessaires pour une intégration dans le métavers. L’adoption massive dans le jeu vidéo en est une preuve, il est rare de trouver un monde virtuel en trois dimensions, particulièrement un MMORPG, sans audio spatialisé. Le format ambisonique a été très largement adopté, notamment dans les moteurs de création les plus populaires (Unity et Unreal Engine), jusqu’à être proposé nativement dans les applications. Le décodage est presque systématiquement réalisé en Binaural, sauf pour les quelques utilisateurs équipés d’un système multicanal, et on présuppose généralement que je joueur est effectivement équipé d’un casque essentiellement. Ces outils doivent être présentés pour comprendre leur intérêt et leur accessibilité, mais aussi les limites d’une telle configuration.
Ce procédé est présenté par Michael Gerzon en 1973, principalement à partir de considérations psychoacoustiques, et plus tard étendu par Jérôme Daniel à High Order Ambisonics, en faisant la distinction entre différents ordres de précision de l’ambisonie. Le premier avait élaboré ce format, appelé Soundfield, pour une prise de son sur trois dimensions avec quatre capsules de microphone coïncidentes, pour restituer un champ sonore sphérique en format B.
Ce format décompose l’espace en harmoniques sphériques plus ou moins précises en fonction de l’ordre, et à la différence du mixage classique CBA, les signaux ne sont pas assignés à un canal, et donc à un haut-parleur compte tenu de la configuration. En effet, le champ sonore est associé à ces informations spatiales tridimensionnelles en format B, indépendantes de la configuration de diffusion, ce qui permet d’obtenir un mixage qui n’est plus associé à une configuration spécifique (par exemple, 5.1, 7.1). En effet, on calcule les signaux d’ordre ambisonique à partir de la localisation spatiale des sons et de leur signal. Pendant la diffusion, la combinaison des signaux échantillonnés aide à reproduire, grâce au dispositif de diffusion, un champ acoustique identique à l’original.
On parle ainsi de *Scene Based Audio (SBA) *****pour le concept de High Order Ambisonics (HOA), c’est-à-dire les systèmes ambisoniques d’ordre élevé (à partir de l’ordre deux-trois). Plus précisément, le champ acoustique est reproduit par un ensemble réduit de vecteurs de pression, qui projettent les champs sonores spatialisés dans des harmoniques sphériques. Ainsi, plus l’ordre est élevé, plus la représentation de la sphère est précise, de même que la localisation des sons, et que la taille du sweet spot (ou plutôt sweet area).
Cette technique est intimement liée à l’évolution du jeu vidéo et de l’image 3D, et c’est en partie à cause de cette évolution que l’intérêt s’est porté sur le format ambisonique, puisqu’il était indispensable de placer les sources de manière cohérente aux images et aux éléments physiques du jeu. Cette évolution tardive, avec un format monophonique dans la plupart des jeux vidéos jusqu’aux années 1990, puis stéréophonique, et très rapidement multicanal, est devenue exponentielle dans la deuxième décennie de notre siècle, jusqu’à proposer des expériences profondément immersives, ne serait-ce qu’à l’aide de la réalité virtuelle ou la réalité augmentée.
Les objets sonores dans le moteur de jeu vidéo Unity
Cela permet aussi d’ouvrir l’interactivité à l’utilisateur ****: dans le mixage CBA, les flux audio sont mélangés pour être fixés à un canal, et donc à un haut-parleur, selon le dispositif utilisé. Cela conditionne de ce fait l’utilisateur à respecter cette configuration dans sa pièce, en fonction du format, ce qui n’est pas forcément possible au regard de son aménagement. En outre, en broadcast, cela nécessite de fournir plusieurs mix distincts pour que l’utilisateur puisse sélectionner celui qui correspond à son dispositif, par exemple, celui qui correspond à sa langue.
Le mixage OBA permet d’outrepasser ces limitations, puisque les objets sonores ne sont pas mélangés à des données fixes de localisation. C’est-à-dire que pendant une diffusion, l’utilisateur peut personnaliser son expérience sonore, par exemple, si la disposition de ses enceintes n’est pas optimale, en modifiant la position d’un objet sonore particulier. De la même manière, si les différents langages sont cette fois-ci transmis en tant qu’objets, il peut passer de l’un à l’autre, et peut même modifier leur volume relatif par rapport aux musiques et aux effets sonores, voire complètement couper le commentaire vocal. Cela n’empêche pas de transmettre certains éléments, comme la musique, en CBA, pour limiter la bande passante nécessaire à cette diffusion, puisqu’un nombre important d’objets sonores deviendrait trop lourd à supporter.
Le mixage SBA permet de la même façon à l’utilisateur de personnaliser son écoute et reste transposable à n’importe quel dispositif. Seulement, l’encodage des signaux est indépendant du nombre d’éléments et les objets sonores ne sont plus forcément distincts. Cela assure donc de réduire très largement la bande passante nécessaire et le poids de chaque canal final, tout en limitant l’interaction possible. Par exemple, lors du choix de différents langages, puisqu’ils ne seraient plus tous présents en tant qu’objets sonores différents. Ces systèmes orientés objet sont indispensables dans la création sonore associée aux mondes virtuels, ainsi que de plus en plus adoptés en broadcast, par exemple, avec le format MPEG-H mentionné précédemment.
En 1931, Alan Blumlein qualifie déjà le son stéréophonique de son binaural, prévu pour une écoute au casque, et la compagnie AT&T développe des têtes mécaniques équipées de microphones au niveau des oreilles dès 1933. Mais, jusque dans les années 1970, cette technique reste relativement invisible. Elle est couverte par les autres innovations dans le domaine, jusqu’à ce que des constructeurs s’y intéressent enfin de nouveau, notamment pour évaluer les caractéristiques acoustiques d’une salle selon la perception humaine. Certains groupes et programmes radiophoniques commencent à être enregistrés avec des têtes binaurales, et cela évolue jusqu’à ce que le processus soit très largement utilisé de nos jours, particulièrement dans la composition d’espaces sonores en réalité virtuelle ou augmentée. Cela peut correspondre à une tête mécanique, fixe ou associée à un robot, ou à des microphones placés au niveau des oreilles d’une personne physique. On peut donc estimer que l’objectif fondamental du son binaural est de reproduire fidèlement un espace sonore, au casque, identique à la manière dont il serait perçu naturellement par l’oreille humaine.
À partir de la fin des années 2000, le son binaural atteint le grand public de conduite beaucoup plus généralisée, alors que les expérimentations continuent, sur internet et sur les smartphones. En effet, il est alors très facile à diffuser dans un casque ou des écouteurs. Un exemple caractéristique qui contribue à propulser ce procédé est celui de la vidéo du “Virtual Barber Shop”, en 2007, qui impressionne largement et trouve de nouveaux adeptes qui n’avaient jamais entendu parler de ce procédé. En 2013, il devient possible d’écouter des programmes en 5.1 ou en binaural sur le site de Radio France, NouvOson, et deux ans plus tard Orange Labs publie la version compatible binaural de son application, qui diffuse sous ce format des flux issus de webradios en 5.1.
*L’ASMR *****accapare une part conséquente du public attaché à ce procédé, en contribuant très largement à sa popularisation à partir des années 2010, alors qu’il existait déjà auparavant, et en particulier à partir de 2017-2018 grâce à l’influence exponentielle des réseaux sociaux. Si l’on peut tirer deux raisons à ce succès, la première serait probablement la curiosité soulevée par les sensations liées à ce nouveau phénomène ; la seconde, assurément, serait son accessibilité. Considérons le prix ridicule d’un casque ou d’une paire d’écouteurs en comparaison à plusieurs enceintes... En 2008, naît un blog nommé “The Unnamed Feeling”, qui cherche à découvrir d’où provient cette sensation agréable et indescriptible, plus tard liée à l’ASMR, et connaît un certain succès. On trouve cette technique particulièrement étendue sur Youtube, où de nombreuses vidéos cumulent plusieurs dizaines de millions de vues. Les créateurs utilisent généralement une tête binaurale dont la plus répandue provient de la marque 3DIO, mais certains se contentent d’un couple de microphones. D’autres phénomènes méritent certainement de l’attention, par exemple, le battement binaural, plus mystérieux, découvert en 1839 par Heinrich Dove. Il correspond à une fréquence virtuelle émise lorsque deux signaux de fréquence différente sont reçus indépendamment par les deux oreilles ; cette fréquence correspondant à la différence entre les deux. Ce procédé présente un intérêt psychoacoustique, et même en neurophysiologie dans la stimulation et l’évaluation des sens auditifs. Surtout, il est utilisé dans la médecine non conventionnelle pour accéder à des états de relaxation, de méditation, et même de transe, sans que ces conséquences aient réellement été éprouvées de manière plus globale. On peut trouver un grand nombre de vidéos qui prétendent permettre d’accéder à différents états de conscience, ou de provoquer des rêves lucides, grâce à des battements binauraux très faibles (inférieurs à 10 Hz). Un bon nombre de ces expériences et les dérives évidentes qui en résultent, tirent leur savoir des recherches de l’Institut Monroe, dont le fondateur a contribué à populariser le concept de sortie de corps, de différents états de conscience, de voyages astraux et de traitement des traumatismes grâce au battement binaural. Ce genre de contenu, qui exploite la popularité de l’écoute en Binaural, témoigne bien du succès de cette pratique, et de sa grande accessibilité. Cependant, il rend aussi certainement compte de la grande part d’incompréhension et de confusion autour de son fonctionnement.
De manière classique, le mixage en son binaural suppose un champ sonore mobile, mais une position d’écoute fixe pour l’auditeur, ce qui est fondamental, et cela pose justement la question du mouvement pour ce récepteur, qui n’est pas forcément prévu lorsqu’on diffuse le média. Dans un monde virtuel, cet aspect est essentiel, puisque l’auditeur incarne un personnage, lui-même capable de se déplacer dans cet espace sonore ; il est donc évident que la personne qui l’incarne perçoit ce même champ sonore. Il en est de même pour la réalité virtuelle, qui suppose une rotation de l’espace sonore, dans une direction inverse, proportionnelle aux mouvements de l’utilisateur. Ce procédé est prévu dans les moteurs de jeu et certains plugins proposent même de reproduire ce degré d’immersion pendant un mix.
Il est possible de proposer, en réalité virtuelle (VR) ou augmentée (AR), une expérience profondément immersive, en faisant presque systématiquement appel au son binaural, en ce qu’il permet d’isoler l’auditeur de son environnement réel, tout en le plongeant dans ce nouvel espace virtuel. Ce procédé est fréquemment développé pour le jeu vidéo. En revanche, on trouve aussi beaucoup d’expériences immersives qui s’en écartent pour proposer plutôt un voyage, un parcours virtuel, une performance auditive et visuelle, autant dans des aspects divertissants que politiques et expérimentaux.
Du côté de l’utilisateur, un casque stéréo peut tout à fait procurer une expérience satisfaisante en 3D avec de l’audio encodé en Binaural. Cependant, cela dépend essentiellement de sa sensibilité, et de la structure de son circuit auditif. En l’espèce, pour obtenir un produit audio compatible, il existe deux solutions : une prise de son binaurale, en utilisant une tête artificielle ou un mannequin (ou même la tête du preneur de son) ; ou alors, une synthèse binaurale qui repose sur des fonctions de transfert HRTF.
“La fonction de transfert HRTF représente la morphologie de la tête, elle est représentée par une courbe de réponse en fréquence (HRTF) ou par une réponse impulsionnelle (HRIR, Head Related Impulse Response), son équivalent en temps. C’est une fonction à trois variables, la fréquence ou le temps, la localisation de la source sonore en coordonnées sphériques, par exemple (azimut, angle de radiation et d’élévation) et la morphologie de l’individu.”
Plus grossièrement, la localisation des sons se fait sur plusieurs paramètres :