L’audio immersif est généralement exclusivement associé au son 3D ou 360°. Alors qu’il est effectivement intimement lié au son multicanal, une distinction doit être faite entre les propriétés immersives qu’apporte ce type de système (comparable à la distinction avec l’enveloppement), et la capacité immersive qui ne dépend pas directement de ce caractère ; par exemple, l’aspect narratif d’une musique, sa capacité à transporter dans un autre lieu ou une autre ambiance.
Des expérimentations en audio multicanal 3D / 360° ont lieu depuis des décennies, mais ne sont portées vers le public que depuis quelques années. Certaines plateformes de streaming proposent désormais une écoute “immersive” : le format Sony 360 Reality Audio pour Deezer et Tidal depuis 2019, le Dolby Atmos pour Tidal en 2020, puis pour les plateformes musicales d’Amazon et d’Apple en 2021. La dernière propose même un dispositif de suivi dynamique des mouvements de la tête (head tracking) avec leurs systèmes d’écoute. Chez Spotify cependant, ce n’est toujours pas disponible ; il est seulement possible d’écouter en son Binaural, puisque ce format est produit sur deux canaux stéréo. Les plateformes ont actualisé leur catalogue avec un grand nombre de morceaux, remixés en multicanal ; il s’agit de “l’Audio Spatial” chez Apple. La qualité de cette expérience n’est pas réellement le sujet ici, ce qui est important, c’est que ces techniques récemment adoptées sont qualifiées de manière très populaire d’audio immersif. Pourtant, l’essence même de cette nouveauté est d’envelopper l’auditeur. On peut généraliser le fait que la répartition des sources sur 360°, encore plus sur trois dimensions, répond au concept d’enveloppement et améliore l’immersion pendant l’écoute de la musique. Mais, si l’adaptation consiste essentiellement à doubler les sources sonores à l’arrière, en ajoutant de la réverbération, pour simuler une pièce particulière, par exemple, le morceau n’en devient pas nécessairement immersif.
En réalité, l’immersion dépend étroitement du potentiel et de la tendance immersifs de la musique écoutée ; le système (la spatialisation et le dispositif d’écoute) sont en grande partie responsables, mais également le contenu narratif de cette musique, l’environnement de l’auditeur et les conditions psychologiques dans lesquelles il l’écoute. En fait, elle dépend d’une quantité incalculable de facteurs très variés… Il faut toutefois garder en considération que, même si parfois l’enveloppement ne suffit pas, il facilite énormément l’immersion. Il peut aussi s’agir d’un des seuls facteurs manipulable, lorsque le contenu narratif ne peut pas être modifié (par exemple, une musique qui doit être “rendue” immersive). Ces observations forcent à établir un constat crucial dans le développement de l’espace virtuel associé à cette recherche : la production d’un système de spatialisation des sources en trois dimensions n’implique pas obligatoirement que cet espace en devienne immersif. Il est important d’exploiter le mieux possible les caractéristiques à la portée du créateur, et de chercher à améliorer l’expérience de l’utilisateur, de manière que les caractéristiques subjectives de l’immersion en résultent. On peut dresser une liste qui synthétise les divers paramètres évoqués précédemment, en ajoutant quelques exemples d’intégration qui pourraient améliorer l’immersion.
L’absorption dans la narration ou transportation : il semble que cet élément est primordial dans la création d’un monde virtuel. Il peut s’agir d’une expérience scénarisée, ou d’apporter des éléments cohérents, par exemple, énigmatiques, qui sollicitent l’intérêt et la curiosité de l’utilisateur. Cela permet de provoquer différents caractères immersifs :
Le détournement de l’attention : l’espace doit absorber la concentration, les pensées et les objectifs de l’utilisateur en son sein. Cela peut passer par des quêtes, missions, défis. Par exemple, des éléments de découverte énigmatique, une certaine interaction avec l’environnement qui lui permet d’agir sur ce dernier, et de voir son expérience influencée par ces actions. On peut penser à une évolution de l’environnement visuel et sonore en fonction de ses déplacements, le temps passé dans un espace, son intérêt pour certains objets disposés dans l’espace, plutôt que d’autres.
L’incorporation : de manière assez proche avec l’immersion systémique, l’espace doit lui proposer une expérience complète en ce sens. C’est-à-dire qu’il est conduit à ignorer les lois de la physique du monde réel, absorbé par un environnement cohérent. Par exemple, les déplacements de son avatar et de sa vision, la gravité, les proportions de l’espace, le volume sonore des objets en fonction de la proximité, la réverbération en fonction des propriétés de la pièce... Ces éléments doivent former une certaine logique, pour que l’ensemble de l’expérience soit assez crédible et consistante.
La stimulation (multi)sensorielle : il est important de solliciter les sens de l’utilisateur. Par exemple, grâce à un environnement sonore complexe, en exploitant l’espace qui ne lui est pas visible et qui ne correspond pas à son champ d’attention. Cela peut permettre de provoquer diverses émotions : surprise, peur, affection, angoisse, frénésie... Il faut toutefois prendre garde à ne pas trop saturer le champ sonore (ou visuel) en cherchant à le complexifier ; il est bon que ces éléments servent un certain objectif, pour ne pas fatiguer inutilement le spectateur.
Le système : bien évidemment, la production doit être assez qualitative et adaptée. L’aspect visuel doit être cohérent avec l’objectif de l’expérience et la trame narrative, l’audio en trois dimensions (ou 360°) peut permettre une meilleure sensibilité à l’environnement et un bon enveloppement dans l’espace. Si celui-ci est assez crédible, l’utilisateur pourra ressentir le concept de présence. Il est important que l’expérience ne soit pas détériorée par des problèmes du système, et l’on entend ici l’application. Elle doit être testée, corrigée, lui permettre une navigation et une écoute sans interférences.
L’interface : elle contribue énormément à l’expérience de l’utilisateur, par conséquent à sa prédisposition et sa sensibilité à l’immersion. Il faut lui offrir une interface (accueil, menu, paramètres) agréable, compréhensible et intuitive. Il peut être intéressant de présenter des astuces dans certains cas (ou des questions, par exemple, pour alimenter l’intrigue), un guide visuel et/ou sonore grâce à une voix off, des bruitages sonores lors des interactions, des couleurs et animations cohérentes. Il faut aussi penser à l’aspect “extérieur” de cet espace : il est bon d’offrir des ressources à l’utilisateur, qui lui permettent de mieux appréhender son expérience, et de lui donner une portée plus globale et significative. Par exemple, une documentation technique, un guide d’utilisation, un forum de discussion, un journal de développement... Une erreur serait de penser que l’immersion se produit exclusivement au sein du monde virtuel. En réalité, elle se situe principalement dans cet espace ; les instants pendant lesquels l’utilisateur utilise ces ressources ou laisse libre cours à son imagination contribuent, eux aussi, à l’immersion.
La question de l’audio immersif est présente dans l’industrie audio depuis des décennies, sans qu’une réponse décisive n’ait vraiment été donnée, ce qui aurait permis d’éprouver les technologies qui y sont liées. Pourtant, les expérimentations ne manquent pas. Depuis le début du multicanal, les différentes expériences en Binaural et en Transaural, les régulières innovations de Dolby et DTS ; le milieu évolue constamment, et frénétiquement, mais subsiste un doute concernant le lien entre le producteur et l’utilisateur. Comment produire en 3D ou en 360° pour un utilisateur, en considérant que dans la majorité des cas cet utilisateur écoute au casque ou aux écouteurs ? Est-ce réellement utile d’investir des dizaines de milliers dans un dispositif multi-enceintes ? Qu’en est-il de la certification Dolby, et de son intérêt pour la production audio ? Alors qu’il s’agit d’un acteur prépondérant, les théâtres et les salles de spectacles ne s’en embarrassent plus, lorsqu’ils peuvent installer un système personnalisé à la structure et à l’acoustique de la salle. De nouvelles technologies apparaissent constamment, des barres de son 3D aux enceintes stéréo “multicanal”, largement plus accessibles que le format classique, par exemple, 2500 euros environ pour la barre de son AMBEO.
Pour l’utilisateur régulier, il peut s’agir d’un investissement qui trouve de l’intérêt dans les appareils qu’il utilise quotidiennement. La PlayStation, depuis la 3e génération, est prévue pour intégrer des formats comme le Dolby TrueHD ou le DTS HD, sans pertes et jusqu’à 8 canaux, de même que les Blu-ray et Blu-Ray HD, en concordance avec l’image de très haute qualité (4K). Le débit reste pour l’instant trop important pour le streaming ou la télévision. Le procédé Dolby Digital Plus (Dolby EAC3) propose depuis 2010 un format qui évolue jusqu’au 13.1. Il est utilisable sur un smartphone, par exemple, en diffusant via une connectique HDMI et est utilisé par Netflix, tout en embarquant les données de Dolby Atmos. Le successeur du Dolby Digital, le format Dolby AC4, est standardisé en 2014, mais les premiers téléviseurs qui peuvent le supporter débarquent en 2017. Il intègre jusqu’à 12 canaux, contient les métadonnées Dolby Atmos, et permet à l’utilisateur de personnaliser son écoute. D’une part, il peut choisir un profil dynamique en fonction du dispositif d’écoute (home cinema, smartphone), et l’écart dynamique en est adapté pour un meilleur confort. D’autre part, il est possible d’ajuster le volume des différents objets sonores. L’objectif étant de produire sur la TNT des images en Ultra HD (4K), couplées à ce format interactif et immersif, d'ici à 2024, des programmes sont diffusés depuis 2021 sur certaines chaînes de la TNT pour expérimenter ces nouveaux procédés. Ce format est déjà disponible sur beaucoup de téléviseurs, et transposable sur internet, et alors que certains constructeurs y voient une opportunité marketing, cette nouvelle technologie reste pour le moment peu exploitée et mise en avant. Parmi les épisodes compétitifs successifs entre Dolby et DTS, on compte l’apparition du Dolby ProLogic 2 et du DTS Neo : 6 (puis Neo : X), qui permettent de fabriquer artificiellement, à partir d’une source stéréo ou 5.1, un rendu multicanal plus immersif (jusqu’à 9.1, et 11.1 pour le format de DTS).
Par la suite, apparaissent les formats Dolby Surround (qui a été complètement modifié, puisque l’ancien a évolué depuis longtemps vers d’autres formats) et DTS Neural : X, encore plus performants, en proposant à partir de n’importe quelle configuration de sources un mix sur trois dimensions, au maximum en 7.1.4. Les signaux sont redistribués sur toutes les enceintes, y compris au plafond, depuis une source au minimum stéréo pour Dolby, mono pour DTS, et chacune des deux techniques prend difficilement en charge un signal encodé par le compétiteur. Ensuite, un nouveau Dolby Atmos, en même temps que le DTS Virtual : X, permettent de diffuser sur trois dimensions, alors que la configuration d’écoute ne l'autorise pas. C’est-à-dire que ce DSP tente de simuler des enceintes qui n’existent pas (surround, plafond, côtés), à partir d’un signal au minimum stéréo, jusqu’à 5.1, en fabriquant une bulle autour de l’auditeur. Ce procédé est assez critiqué, puisqu’on perd beaucoup en fidélité et en cohérence du spectre fréquentiel pendant cette “virtualisation”, mais il peut élargir l’espace sonore, notamment avec une barre d’écoute stéréo. Il rappelle le format Dolby Virtual Speaker, qui proposait, pour un dispositif stéréo, de simuler un espace circulaire en 5.1, ou d’élargir la scène sonore en stéréo.
Ces technologies sont désormais aussi associées à des procédés d’intelligence artificielle, ou de machine learning. Par exemple, Ben Shirley et Rob Oldfield ont développé des outils de mix automatique appliqués à un match de football, pour lequel l’ambiance sonore est diffusée en Chain Based Audio, et un ensemble de microphones situés autour du stade permet de diffuser le son du ballon de manière infiniment plus précise et plus immersive. En effet, l’algorithme qu’ils ont mis au point repère la position de la balle sur le terrain, ainsi le gain des microphones est automatiquement ajusté en fonction de leur proximité, pour ensuite transmettre ce son en tant qu’objet sonore spatialisé dans l’espace personnalisé du spectateur.
Ainsi, les procédés de son multicanal ont évolué de façon spectaculaire, jusqu’à proposer simultanément plusieurs formats largement exploitables en de nombreux aspects. Certains continuent de trouver de nouvelles applications, tandis que d’autres évoluent en étant plus ancrés à certains systèmes, tant les avantages sont multiples, ce qui est le cas de l’écoute au casque en traitement ambisonique et au format Binaural, notamment dans les mondes virtuels.