Le terme immersion est souvent utilisé de manière assez vague, parfois erronée, si bien qu’il possède désormais une multitude de sens. L’objectif de cette partie serait de tenter de percer dans cette confusion, pour en offrir une définition plus précise, et ainsi un cadre à cette étude, et à la conception de l’espace virtuel. On a pour habitude d’associer l’immersion au réalisme, au naturel, à la présence ou à la sensation d’être entouré (surrounded), par conséquent ce terme est devenu très inclusif. Avec le développement du jeu vidéo et de la réalité virtuelle, se développent simultanément des termes que l’on peut confondre : présence, implication, interactivité, engagement. Une définition de l’immersion, qui semble correspondre à ce que l’on recherche lorsqu’on la mentionne, serait la suivante :

“[L’immersion est] un état d’engagement mental intense dans lequel le sujet peut ressentir une déconnexion de sa conscience du monde physique en raison d’une transformation dans son état d’attention.”

On peut tout à fait associer l’immersion à la sensation d’être submergé dans de l’eau ; c’est d’ailleurs le terme métaphorique qui provient de cette expérience, ainsi un autre élément de définition en est proposé :

“On recherche la même sensation dans une expérience psychologiquement immersive que lors d’un plongeon dans l’océan ou dans une piscine.” ; “la sensation d’être entouré d’une réalité complètement différente [...] qui accapare toute notre attention, tout notre appareil perceptif.”

Ou encore, une définition plus adaptée aux Arts :

“Un état de fascination pour une œuvre tel que l’utilisateur se sent transporté, capturé par celle-ci.”

Une recherche sur les formes de l’immersion et les caractéristiques qui lui sont associées peut être conduite, particulièrement à travers l’étude de deux articles publiés dans les journaux de l’Audio Engineering Society, dédiés à l’analyse de ce concept dans les expériences audiovisuelles. Le premier article présente une synthèse détaillée des différentes caractéristiques de l’immersion, tandis que le second concentre l’analyse sur un de ses caractères principaux, la présence.

Le phénomène de l’immersion prend plusieurs formes, et l'on peut en distinguer deux dimensions, qui ne doivent pas faire l’objet d’une séparation formelle, étant donné leur interactivité, mais qui peuvent être étudiées distinctement. Il s’agit de l’immersion psychologique du sujet, et l’immersion qui résulte des caractéristiques objectives de la technologie ou du système employés.

L’immersion psychologique

Cette dimension de l’immersion est souvent confondue avec les termes d’implication et d’engagement. Il s’agit là de “l’absorption mentale de l’utilisateur dans le monde [de l’histoire du jeu]”. Il faut comprendre ici le monde virtuel et sa trame narrative. Un métavers, sur le modèle du jeu vidéo, présente généralement des règles spécifiques et une trame, une histoire, et c’est ce qui lui offre un caractère particulier et sa spécificité. Ainsi, une première couche de l’immersion est produite par la concentration de l’attention du joueur, de ses pensées et de ses objectifs au sein du monde virtuel ; c’est la notion de détournement de l’attention qui associé à la construction d’une représentation mentale conduit à une expérience immersive.

En particulier, l’une des sous-couches de cette immersion est la sensation subjective d’être entouré ou stimulation multisensorielle. Il s’agit là d’un des arguments les plus favorables à l’intégration de l’audio immersif dans les mondes virtuels. En effet, cette immersion perceptive peut être mesurée “en comptant le nombre de sens de l’utilisateur qui sont sollicités et le degré auquel ces sens sont coupés de leur environnement physique”. Il est donc très juste qu’un environnement sonore 3D immersif pousse l’immersion plus profondément, en sollicitant en plus de la vue les sens auditifs de manière complexe. En effet, une piste audio classique (mono, stéréo) peut contribuer dans ce sens, mais une piste 3D ou 360° encore davantage : la localisation des sons sur une, ou deux dimensions supplémentaires, implique beaucoup plus d’informations auditives. En particulier, la notion d’attention auditive prend un sens important. Naturellement, les sources qui ne sont pas situées dans un angle de 30 à 100° face au spectateur n’étant pas visibles, elles peuvent correspondre à un danger et nécessitent une plus forte capacité de concentration, de réflexion et d’analyse, et ainsi détournent mieux l’attention de l’utilisateur.

L’absorption dans la narration représente une autre sous-couche de l’immersion. On peut la concevoir comme “la sensation d’être entièrement impliqué dans une histoire, et accepter le monde et les événements de cette histoire comme s’ils étaient réels”. D’autres termes définissent ce phénomène, ainsi on parle aussi d’immersion imaginative, ou d’immersion fictionnelle si l’on considère qu’il n’est pas obligatoire d’exercer cette imagination pour être plongé dans l’histoire. C’est particulièrement le cas dans un jeu de rôle ou un monde virtuel qui propose une trame narrative. Par “comme s’ils étaient réels”, on n’entend pas que ces éléments doivent obligatoirement être réalistes ; plutôt, l’utilisateur détermine qu’ils sont assez crédibles pour représenter un ensemble cohérent, dans lequel il souhaite s’impliquer et évoluer durablement. Cette immersion peut même être catégorisée en trois aspects : l’immersion spatiale, lorsqu’on ressent fortement l’espace et que l'on apprécie son exploration, l’immersion temporelle, lorsque l’attention est concentrée sur le déroulement de l’histoire et la curiosité d’en découvrir la suite, et l’immersion émotionnelle, qui résulte de l’attachement à des personnages de l’histoire, encore plus forte si l’on peut s’identifier à certains. De nouveau, ces catégories sont aisément applicables à un jeu vidéo et prennent sens lorsqu’un métavers est construit sur le modèle d’un MMORPG. Particulièrement, lorsque des éléments, soit fictionnels, soit historiques, sont intégrés pour former une trame narrative, des quêtes, des lieux empreints d’une histoire et d’événements singuliers... On pourrait ajouter une immersion sociale, ou interactive, spécialement adaptée à un métavers, qui transforme la temporalité, et concentre l’attention exclusive de l’utilisateur pendant un moment particulier, lorsqu’il interagit avec d’autres utilisateurs dans le monde virtuel. Par exemple, une vive discussion vocale ou textuelle, un événement en communauté, un festival, un concert, un échange ou une transaction importants, une implication active dans la personnalité de son avatar...

Enfin, on peut évoquer l’absorption pendant un défi stratégique ou tactique. L’immersion stratégique survient lorsque l’utilisateur est absorbé à calculer, planifier et faire des choix, et l’immersion tactique correspond à une situation qui requiert une pleine attention pour résoudre des tâches rapidement. Au premier abord, cette définition semble presque exclusivement applicable à un jeu vidéo, ou à un jeu de société, mais il faut absolument l’élargir puisqu’elle n’est pas aussi exclusive. Elle peut plutôt être définie comme immersion systémique, “qui survient lorsque le joueur se conforme au système du jeu (règles, lois), en ignorant totalement les lois de la physique du mon réel”. Cette définition est ainsi tout à fait applicable à un métavers, qui détermine généralement, implicitement ou explicitement, un tel système applicable à l’ensemble du monde virtuel. On peut aussi bien entendu expliquer ce phénomène de l’immersion dans une activité non interactive, comme un film, un jeu, un livre de fiction ou un ensemble plus vaste de médias. D’ailleurs, cette caractéristique rapproche l’étude de l’immersion vers un autre champ d’application : comme caractéristique d’un système ou d’une technologie, au lieu de correspondre exclusivement à un système ou une technologie.

Les paramètres favorisant l’immersion

La mesure de l’immersion peut être conduite en joignant l’immersion psychologique à l’analyse des caractéristiques du système, mais certains proposent qu’elle soit exclusive à ce dernier paramètre. Par exemple, M. Slater explique que “plus le système délivre de représentations (sensorielles) fidèles à leur équivalent dans le monde réel, plus c’est ‘immersif’”. Cela rejette complètement l’idée que l’immersion correspond à une expérience personnelle et émotionnelle. Évidemment, ces paramètres systémiques influencent l’immersion, mais il semble erroné d’associer l’immersion à une représentation fidèle du monde réel. Qu’en est-il du livre de science-fiction, ou du jeu vidéo qui représente des images de l’espace et des bruitages surréalistes ou surnaturels pour plonger le joueur sur une autre planète ? Une expérience immersive peut proposer une représentation perceptive et sensorielle très largement éloignée de celle du monde réel. D’ailleurs, si certains sens de l’utilisateur ne sont pas sollicités par les paramètres du système, il peut tout à fait compenser leur absence de stimulation par l’imagination. Ainsi, même si cette définition peut être appliquée à une expérience réaliste en réalité virtuelle, elle est trop restrictive par rapport à l’évolution des mondes virtuels, et à l’expérience de l’immersion que l’on cherche à étudier ici. Cependant, l’influence des caractéristiques du système sur l’immersion ne doit pas être négligée, au contraire il faut l’analyser comme un paramètre supplémentaire à ceux qui ont été évoqués jusqu’alors. C’est précisément une analyse qui sera discutée, plus tard, spécifiquement pour l’audio immersif, qui ne doit pas être perçu exclusivement comme dépendant de sa spatialisation (en trois dimensions ou sur 360°). Il dépend aussi très largement de paramètres comparables à l’immersion psychologique, indépendante des caractéristiques du système, par exemple, du nombre de canaux de diffusion.

On peut tirer de cette analyse deux caractères de l’immersion. D’une part, le potentiel immersif, c’est-à-dire le potentiel du système ou du contenu proposé de favoriser l’immersion, qui n’augmente pas forcément avec les spécifications techniques, mais doit plutôt être correctement adapté à l’expérience. D’autre part, la tendance immersive, autrement dit la sensibilité d’une personne à ressentir l’immersion, qui dépend directement de l'état du sujet à un moment précis, et de son état de manière générale. En sont extraits quatre facteurs qui influencent l’immersion : le système, le contenu narratif, l’environnement (physique, et les conditions de l’expérience) et les facteurs individuels (toute la sensibilité subjective du sujet : état affectif, humeur, préférences, aptitudes...). Ces facteurs influencent à la fois l'immersion et la qualité de l’expérience pour l’utilisateur.

Il semble important de prendre ces éléments en considération pour proposer une expérience sonore immersive dans un environnement virtuel : un système adapté est essentiel. Pour le rendre le plus accessible possible, l’écoute au casque doit principalement être évaluée, comme il s’agit du dispositif d’écoute majoritaire chez les utilisateurs. Cette considération motive aussi le choix de produire un espace virtuel actif via le navigateur internet ; la facilité d’accès et la rapidité de chargement contribuent, à mon sens, en grande partie à l’immersion, en ce qu’elles améliorent l’expérience de l’utilisateur et sa réceptivité à l’expérience à venir. D’autre part, le contenu narratif sonore (et visuel) doit être pensé comme... contenu narratif. C’est-à-dire qu’il doit explicitement servir cet objectif : guider l’utilisateur, éveiller son intérêt, sa curiosité, et ainsi déclencher rapidement, et conserver, l’immersion. Par exemple, des ambiances caractéristiques d’un lieu, ou pensées pour animer des émotions, une voix off et des indications visuelles pour présenter l’histoire du lieu, les interactions possibles avec les objets ou les autres utilisateurs... Il faut penser chaque élément qui contribue à valoriser l’expérience de l’utilisateur comme un moyen d’augmenter son immersion dans le monde virtuel. Mais, alors, on peut se demander si une interface énigmatique ou complexe, par exemple, n’augmenterait pas l’immersion de l’utilisateur, contrairement à ce qui est pointé ici. En effet, une telle pratique peut potentiellement servir cet objectif, si toutefois elle sert le contenu narratif, ce qui ne va pas à l’encontre de ce qui est expliqué ; il faut bien comprendre qu’améliorer l’expérience de l’utilisateur n’implique pas systématiquement de la simplifier. Plutôt, il faut considérer que tous les éléments auxquels il accède pendant l’expérience doivent en être partie intégrante et conserver une certaine cohérence. Lorsque son attention est détournée, elle ne doit pas être capturée simultanément par divers éléments (interface, sons, objets visuels, fenêtres...) qui ne servent pas le même objectif, ou qui n’appartiennent pas au même monde, et c’est ce que l'on entend par améliorer l’expérience de l’utilisateur. Il s’agit en fait, de conserver le mieux possible son attention, en le laissant croire que ce défi est tout à fait naturel. Ce point est d’autant plus important qu’il est impossible de déterminer les conditions subjectives de l’expérience chez lui, c’est pourquoi il faut espérer qu’elle soit réalisée de bonne foi. Pour s’en assurer, il est donc nécessaire de soigner la présentation, le développement des événements, pour éviter d’ôter sa crédibilité à l’expérience, et ainsi de briser l’attention, la concentration, l’intérêt, la confiance et la curiosité de l’utilisateur.

On peut utiliser le terme d’incorporation pour définir l’immersion dans un monde virtuel, lequel synthétise certains phénomènes ici étudiés. La définition est proposée selon l’angle du jeu vidéo, mais elle peut être appliquée à tout monde virtuel dans lequel l’utilisateur est capable de projeter son avatar et d’interagir avec l’environnement. L’incorporation s’opère sur deux axes : le joueur intègre et assimile l’environnement du jeu dans sa propre conscience, et simultanément il s’incorpore lui-même dans l’environnement du jeu par le biais de son avatar. Ainsi, il réfléchit et agit selon les règles du jeu, et interagit avec le monde de manière à ce que sa propre conscience et son mode de pensée influencent le monde dans lequel il joue. Il s’agit d’un élément essentiel du jeu vidéo, particulièrement du RPG, et par conséquent il faut absolument le considérer dans un métavers. L’aspect social de ce dernier, associé à la persistance du monde et à la potentielle très grande influence des utilisateurs sur tous les aspects d’un métavers, font que cette notion peut uniquement mieux servir l’immersion dans ce cadre. En outre, il faut noter que ce phénomène dépend intimement de l’implication de l’utilisateur dans le monde virtuel, de la proportion de l’assimilation de cet environnement dans sa conscience, et donc de la confiance et la crédibilité qu’il accorde à celui-ci. Ainsi, cette incorporation peut se révéler infiniment plus profonde dans un métavers, par rapport à un jeu vidéo, étant donné son lien plus étroit avec la réalité et l’implication de l’utilisateur qui en résulte. Par exemple, les interactions avec les NFTs, et les dépenses exorbitantes que cela provoque potentiellement, ou la substitution à des environnements traditionnellement réels (bureau de travail, open space, salle de concert, rendez-vous professionnel...). De tels caractéristiques introduisent une nouvelle intimité entre l’utilisateur et son avatar par cette intense connexion émotionnelle quotidienne. Ce qui peut éventuellement effacer progressivement la distinction entre les deux, et causer ainsi une forme d’immersion avancée inédite.

Les termes associés à l’immersion

Divers termes sont souvent associés à l’immersion, et il est important de les évoquer pour comprendre comment ils peuvent servir de caractéristiques d’analyse de ce phénomène.