Dans les coulisses de la réalité augmentée
Article Attractions du Vendredi 04 Juillet 2008

Entretien avec Valentin Lefèvre Co-fondateur et directeur technique de Total Immersion

Propos recueillis par Pierre Eric Salard & Pascal Pinteau

Technique récente, la réalité augmentée permet de superposer en temps réel un modèle virtuel 3D à une image vidéo d’un véritablement environnement. Ce système peut aussi s'appliquer à d’autres modes de perception que la vue, par exemple lorsque des équipements modifient le sens du toucher ou de l’ouïe. La réalité augmentée permet de compléter notre perception du monde réel, en y ajoutant des éléments fictifs, que l’on ne pourrait pas percevoir autrement. C’est elle qui constitue la base technique de l’attraction Les Animaux du futur, une première mondiale dans le domaine du divertissement, présentée au Futuroscope à partir d’avril 2008. La technologie qui anime l’attraction a été mise au point par la société française Total Immersion fondée début 2000 par Valentin Lefevre, un spécialiste de la réalité virtuelle appliquée aux simulateurs d’avion et de chars et par Bruno Uzzan, qui s’est consacré à la commercialisation du procédé.

Quel a été votre parcours professionnel et votre formation technique ?

Valentin Lefevre : Avant de créer la société Total Immersion, j'ai travaillé six ans chez le groupe Thales, dans le département Training & Simulation. J'ai oeuvré dans tout ce qui concerne la simulation, dans la partie logiciel temps réel. J'étais alors en charge de créer des images de synthèse en temps réel pour des simulateurs d'avions et de chars de combat qui permettaient d'entraîner les pilotes au combat tactique. Une sorte de Flight Simulator (simulation aérienne de Microsoft) haut de gamme. Ces simulateurs sont composés de cabines sur vérins hydrauliques et d'un écran géant placé devant le pilote, où l'on peut voir la piste, le paysage, les ennemis...

Comment avez-vous eu l'idée de vous lancer dans la réalité augmentée ?

J'ai commencé à travailler chez Thales sur des machines du genre Silicon Graphics dont le prix à l’unité avoisinait le million d'euros. En l'espace de six ans, ma mission a consisté à remplacer ces machines hors de prix par des PCs. En voyant que l'on pouvait finalement faire un simulateur avec, mettons, cinq PC grand public à la place d'une seule station Silicon Graphics, j'ai entrevu la possibilité de créer une société consacrée à la réalité augmentée. Ce fut l'idée de départ. Parallèlement, il y eut une explosion de la puissance des cartes graphiques. Habituellement utilisées dans les jeux vidéo « classiques », elles permettent aussi de faire des choses très différentes. Pour en revenir à la réalité augmentée, beaucoup de gens trouvaient que les images 3D des simulateurs n’étaient pas assez réalistes. Les pilotes avaient du mal à se sentir vraiment en situation face à des images de jeu vidéo. C’est de là qu’est venue l'idée de se lancer dans la réalité augmentée, qui permet d'insérer des images de synthèse à l'intérieur d'images réelles. Je me suis alors orienté vers le rendu en temps réel. Le secteur des sociétés spécialisées dans la post-production est déjà très encombré, et de nombreux logiciels permettant de réaliser des effets 3D calés sur des prises de vues réelles. Or en une nuit de calcul, ces logiciels ne peuvent créer que quelques images 3D. L'intérêt du temps réel, c'est que c'est interactif - on peut jouer avec instantanément, sans attendre. Les images de synthèse sont produites en temps réel, tout comme les images prises par les caméras vidéo que nous branchons à notre système. Avec la réalité augmentée, on n’a plus besoin d'attendre une nuit pour voir le résultat d’une intégration 3D dans une vraie image !



A quel moment les premières applications de technique que vous utilisez ont-elles été fonctionnelles ?

J'ai travaillé pendant six mois à mi-temps, pour mettre au point la première version du logiciel. Après voir rencontré nos premiers clients, Bruno Uzzan et moi avons enfin pu travailler à plein temps sur notre technologie. Total Immersion a débuté son activité fin 1999/début 2000. Notre première commande a été la réalisation d’images interactives pour des salles de sport. Le système aidait les clients qui utilisaient un vélo d’intérieur, un tapis roulant ou un rameur. Les vidéos interactives s'adaptaient à ce que faisait la personne sur son appareil. Cette activité a permis de faire notre première levée de fond en 2001. D'un point de vue technologique, c'était une bonne manière de démarrer notre activité. C'était une expérience très formatrice. Nous n’étions alors que 5/6 personnes dans la société. Sur le plan financier, trois fonds d'investissement aident Total Immersion: Partech International, ISource Gestion et Elaia Partner.

Quels étaient les premiers objectifs de ces techniques ? Leur utilisation dans l'industrie ? Les loisirs ?

A partir de 2002, parallèlement à la commercialisation de notre système de fitness interactif, nous avons développé un logiciel nommé D'Fusion. Il mèle de manière très fluide des images de synthèses et des images vidéos. Nous maîtrisons bien la synchronisation d'une caméra avec l'affichage en temps réel des images de synthèse, correspondant à son point de vue. Grâce à des algorithmes de calibration, les objets de synthèse sont parfaitement positionnées par rapport au monde réel. Il n'y a plus de décalage géométrique visible, car l’observateur voit le monde réel au travers des images qui ont été déjà modifiées. Le principe de base de ce système consiste à projeter sur un écran les images d'un présentateur filmé par une caméra numérique, en incrustant en temps réel des objets virtuels qui correspondent à ses mouvements. Ce système est utilisé par Renault dans le cadre de la modélisation 3D de ses prototypes de voitures. Par exemple, une voiture virtuelle est visible sur une table, et vous pouvez tourner autour avec la caméra. Quel que soit l'angle de prise de vue, la voiture synthétique reste parfaitement intégrée dans le monde réel.

Pouvez-vous nous expliquer comment fonctionne votre technique ?

Le système D'Fusion s'appuie sur deux composantes principales. La première se nomme le rendering, c'est-à-dire le tracé de l'image finale. Elle utilise au maximum l'électronique du PC. Dans un ordinateur, on trouve, entr’autre, une carte d'acquisition vidéo, une carte graphique et un processeur. A l'origine, les cartes d'acquisitions ont été créées pour faire du montage vidéo, c'est à dire pour récupérer dans votre disque dur le fichier vidéo qui provient de la cassette de la caméra, puis réexporter le résultat du montage. D'un autre côté, les cartes graphiques sont principalement faites pour la 3D temps réel des jeux vidéo. Ces deux cartes n’avaient pas été conçues pour dialoguer ensemble, mais notre logiciel les fait fonctionner simultanément ! C'est de cette manière que nous réussissons à mélanger l'image vidéo et la 3D en temps réel.

Qu’est-ce qui se passe en temps réel dans l’ordinateur ?

A chaque seconde, la carte d'acquisition récupère 25 images de la caméra. Notre logiciel recopie le contenu de la carte d'acquisition vidéo (appelé buffer) vers un endroit bien particulier de la mémoire texture de la carte graphique (une texture est un ensemble de pixels 2D que l'on va appliquer sur une surface ou un volume 3D). Au lieu de conserver des textures chargées une fois pour toutes, notre logiciel remet constamment à jour une texture bien particulière de la carte graphique avec le contenu de la carte d'acquisition vidéo. En quelque sorte, on trompe la carte graphique. Quand celle-ci trace l'image de synthèse, une de ses textures contient au final l'image de la caméra vidéo ! Ce système permet d'obtenir des performances de pointe, comme si l’on créait une image de synthèse normale, car la carte graphique n'est pas détournée de son contexte. Par contre, elle intègre notre source vidéo dans l'image qu'elle est en train de tracer ! Après, on en fait ce que l'on veut !

Comment gérez-vous les changements de perspectives, pour caler les images 3D sur les mouvements d’une caméra vidéo ?

Il s’agit de la deuxième composante du système D'Fusion. Si on reprend l'exemple de la voiture virtuelle sur la table réelle, on a une problématique technique : lorsque je porte la caméra à l'épaule et que je me déplace, le voiture sera toujours en incrustation mais ne pourra pas correspondre au mouvement que fait la caméra. Si je tourne autour, la perspective devrait normalement changer. Lorsque nous nous sommes penchés sur ce problème en 2002, nous nous sommes des capteurs de mouvements très onéreux que nous avons placés sur la caméra. Le logiciel recevait alors l'information du mouvement de la caméra en temps réel et l'utilisait pour pouvoir afficher la voiture virtuelle correctement en fonction du mouvement. L'un des problèmes de ce procédé était le prix des capteurs. Nos premiers clients, comme Renault, Citroen, EADS ou Airbus avaient les moyens financiers de se procurer des systèmes de capture de mouvement. Mais nous cherchions à nous tourner également vers le grand public. Le second problème était la surface d'utilisation relativement restreinte, souvent de l'ordre d'un mètre carré, ce qui n'est pas très pratique pour faire le tour de la table ! (rires) Nous avons alors pensé à une alternative. Elle consiste à identifier le mouvement de la caméra simplement à partir de l'image filmée par celle-ci, ce qui était une véritable prouesse technologique !



Vous y parvenez grâce à un logiciel ?

Effectivement. C'est un procédé qui tourne en parallèle à D'Fusion, que l'on appelle le Markerless Tracking (capture de déplacement sans marques de repère). A l'origine, le tracking par analyse d'image a été inventé par des chercheurs : en filmant une mire (par exemple une croix noire sur un fond blanc) sur une feuille et en connaissant les paramètres de cette croix et de cette feuille, on arrive à déterminer la position de la caméra. Cela permet de poser la voiture virtuelle par-dessus la feuille que l'on est en train de filmer. Or nos premiers essais ont montré que la plupart de nos clients ne peuvent pas se permettre de peindre des signes cabalistiques dans leurs environnements ou sur leurs objets. Par exemple, on ne pourrait pas se permettre de peindre des croix noires dans les décors de l’attraction des Animaux du Futur, ce serait trop laid ! Depuis 2003/2004, nous travaillons donc sur une technologie de tracking qui n'utilise plus de marqueur. D'où le nom de Markerless Tracking. L'idée, c'est qu'on peut filmer un objet réel sans le modifier, sans aucune mire. Par exemple, on peut filmer une boite de Lego, avec qui nous travaillons, et mettre dessus ce qu'on veut en terme de 3D, comme le château Lego qu'on peut construire avec ce qu'il y a dans la boite.

Comment cela fonctionne-t-il ?

Il nous faut à l'avance une photo - un fichier de type jpeg - de l'objet que l'on va filmer. Puis nous concevons un modèle 3D grossier de l'objet. Quand nous préparons le tracking, nous associons des points qui se trouvent dans le flux vidéo aux points du modèle 3D. Il nous faut donc de l'information 3D à l'avance. Comme nos clients possèdent souvent les modèles 3D de ce qu'ils fabriquent, cette étape est facilitée. Ce système permet également de faire des occultations : la donnée 3D n'est pas utilisée pour l'affichage, mais pour le masquage. Nous pouvons donc faire passer un modèle virtuel derrière un objet réel, si nous le souhaitons.

Expliquez-nous l'utilisation de votre technique par Renault et Peugeot...

Chez Renault, les ingénieurs ont besoin de voir leurs travaux en direct pour intervenir sur les modèles virtuels de leurs voitures. Ils réalisent le film final en post-production. Quand nous intervenons, nous nous insérons dans toute la chaîne numérique, dès le départ, dès que l’on veut modifier les modèles numériques des voitures, par exemple. Nous filmons une maquette réelle et lui ajoutons des modifications virtuelles. Ce qui est amusant, c’est que nous contribuons a récréer un dialogue entre des gens qui ne se parlaient même plus : les maquettistes « à l'ancienne » et ceux qui travaillent exclusivement en CAO (Conception Assistée par Ordinateur). C’est encore pour Renault que Total Immersion a mis au point une autre application de réalité augmentée. L'observateur s'assoit et conduit un véhicule spécial, équipé d'une bulle de verre. Grâce à un visiocasque sur lequel est fixé deux caméras, le conducteur voit en relief l'intérieur virtuel de la voiture et la scène routière réelle. Chez PSA Peugeot-Citroën, un nouveau véhicule virtuel peut être présenté à coté de véhicules réels d'autres marques grâce à nos techniques de réalité augmentée, tandis que les observateurs découvrent la scène sur un grand écran.

Quelles innovations avez-vous imaginées pour Les animaux du Futur, l'attraction du Futuroscope ? Quelles en sont les interactivités les plus spectaculaires ?

Vous êtes assis dans un train qui défile devant quatre décors différents, et vous avez une paire de jumelles avec vous. Elle vous permettent de regarder le décor réel et de voir des animaux virtuels évoluer dedans. Quand vous tendez votre main droite, que vous voyez au travers des jumelles, vous allez pouvoir tenir différentes choses virtuelles. Je ne veux pas tout dévoiler, mais l'un des principes les plus évidents est d'envoyer de la nourriture aux animaux.

Un fruit virtuel apparaît dans votre main...et hop ! Si vous l'envoyez, les animaux réagissent...

Exactement ! Ils vont aller le chercher, ils vont se battre pour le manger, etc...L'idée, c'est un peu Jurassic Park : se retrouver en face d'animaux et interagir avec eux. Ce qui avait été fait en post-production sur le film de Steven Spielberg, nous le faisons quinze après en direct dans un train qui défile à travers différents décors ! On a donc développé techniquement cette paire de jumelles, qui contient en réalité deux écrans OLED (800 par 60 pixels) et une caméra. Celle-ci est branchée sur un PC. La grande innovation, c'est qu'il y a un ordinateur par personne : chaque visiteur vit sa propre expérience. Comme dans un jeu vidéo, vous regardez où vous voulez. Évidemment, le PC truque l'image : il insère les images virtuelles dans l'image de la caméra grâce à notre logiciel. Au final, il envoie le résultat à l'afficheur...en relief. Vous avez un afficheur OLED (la technologie remplaçant du LCD) par oeil. Nous faisons donc de la réalité augmentée en relief !

Comment cela fonctionne-t’il ?

Dans la jumelle il y a une caméra ainsi qu'un afficheur en relief. Le décor n'a pas besoin d'être vu en relief du fait de sa distance supérieure à un mètre, par contre les animaux sont vus en trois dimensions, comme les objets virtuels qui apparaissent dans votre main. Cela fonctionne particulièrement bien quand un animal tentaculaire fonce vers vous, et s'approche à moins d'un mètre. Vous percevez nettement ce déplacement, à cause du relief. Il apporte une dimension supplémentaire : celle de l'émotion. On a forcément peur quand on voit un animal étrange avancer doucement vers nous... sans savoir s’il est amical…ou mortel ! (rires) C'est un effet classique du cinéma en relief, mais la grosse innovation est de pouvoir choisir vous-même votre point de vue, et d'interagir librement avec les animaux. C'est véritablement une expérience inédite que nous proposons avec les Animaux du Futur.

Combien de visiteurs sont envisagés par heure ?

Il y a sept trains de douze places, soit 84 places – chacune équipée d’un PC – au total. Le débit horaire des Animaux du Futur devrait avoisiner les 700 à 800 visiteurs par heure. Ce qui devrait permettre à chaque visiteur du Parc d’expérimenter cette l'attraction, même pendant les périodes de vacances.

Quels ont été les plus grands défis techniques de la mise au point de cette attraction ?

Pour des raisons dues à des problèmes de câblage, les ordinateurs sont installés dans les trains, et non dans une salle extérieure. Les paires de jumelles étant branchées aux PC, il était impossible d'avoir un fil suffisamment long pour suivre les déplacements des trains. Nous avons donc collaboré avec le fabricant des trains et spécifié ensemble certains détails. Un espace ventilé a été prévu sous les sièges pour qu'on puisse insérer un PC cubique de type barebone, contenant une carte graphique haut-de-gamme. Nous ne pouvions pas installer une machine à 1 million d'euros sous chacun des 84 sièges répartis dans les trains, mais notre système D'Fusion a permis de répondre à ce challenge économique très important. Pour réussir l’intégration des animaux dans les environnements, nous avons numérisé les décors avec un théodolite laser. Une société spécialisée dans ce type de prestation a placé un laser sur un trépied afin d’effectuer un balayage laser. Le laser est réfléchi par le décor et cela permet de calculer la distance entre le point visé et le théodolite, ce qui permet de réaliser ainsi une télémétrie, une mesure à distance. Cela nous a permis de recréer des modèles 3D très précis des décors.

Comptez-vous proposer aussi des applications de votre procédé aux professionnels du cinéma, en France, comme ailleurs ?

Oui, on a d'ailleurs déjà utilisé notre système afin de prévisualiser des effets spéciaux pour le cinéma. Nous sommes intervenus notamment sur le tournage d'Astérix aux Jeux Olympiques à Barcelone. Nous avons pu montrer au co-réalisateur des images de synthèse parfaitement calées sur ce qu'il était en train de tourner. Ces images n'étaient pas de qualité optimale. C'était surtout pour qu'il puisse régler son cadre et pour qu'il ait un avant-goût de ce qui allait être fait en post-production. On a notamment travaillé sur un plan où il fallait ajouter une sorte de coliseum dans des décors réels. On a donc intégré ce bâtiment virtuel en temps réel dans les prises de vues pour que le réalisateur puisse juger de ses proportions et choisir le meilleur cadre possible. La post-production n'est pas notre cible principale, mais nous avons déjà des clients dans ce métier.

Pourriez-vous évoquer les utilisations futures de votre technique dans la vie quotidienne, et ce dans tous les domaines ?

A mon sens, il existe deux ou trois utilisations intéressantes. L'essor de la webcam est une perspective stimulante. Nous concentrons nos efforts sur la création de logiciels pour Internet. En téléchargeant un simple plug-in qui fonctionne dans le navigateur internet, il devient possible de filmer des objets réels et de leur ajouter un aspect multimédia. Une de nos idées les plus prometteuses est la possibilité de filmer des livres pour enfants, dont les tirages sont énormes, et d’en faire surgir des personnages en 3D ! En tournant le livre, on peut alors interagir avec eux, et les voir sous tous les angles ! On a même développé une technologie par analyse d'image pour que le logiciel puisse prendre en compte vos mouvements. Par exemple, si vous mettez votre doigt sur la maison de Petit Ours Brun, la porte peut s'ouvrir. Cette technologie est pour moi une des étapes clés dans l'utilisation de la réalité augmentée chez soi. Avec internet, nous avons la capacité de fournir des bases de données en streaming.



Cela ouvre aussi des perspectives dans le domaine de la publicité…

Oui. Nous pourrions contribuer au lancement de campagnes de publicité inventives. Si vous découvrez une voiture qui vous plaît dans un magazine, filmez-la avec votre webcam : vous verrez alors la voiture sortir en 3D du papier sur votre écran d'ordinateur ou de téléphone portable, et vous pourrez l'observer sous tous les angles. Il suffirait de préparer à l'avance les informations de tracking - le modèle 3D cité plus haut - qui seraient téléchargeables sur internet. Si la réalité augmentée se répand à travers l'utilisation des webcams et téléphones portables, il va y avoir de plus en plus de scénarios disponibles. Ça permettrait de sortir du « tout virtuel », où on reste assis pendant des heures sur sa chaise. Un de nos autres concepts concerne la presse. Vous pourrez prolonger l'utilisation d'un magazine en le filmant avec son téléphone ou sa webcam : vous ferez alors sortir du papier des informations 3D complémentaires. Cela me plaît car on crée ainsi un nouveau lien entre le support papier, délaissé par les joueurs, et les nouvelles technologies du jeu vidéo.



Avez-vous déjà un partenaire dans le domaine de la téléphonie ?

Oui, Alcatel. Dans le cadre de notre partenariat, nous avons déjà réalisé des démonstrations de réalité augmentée interactive sur leurs téléphones 3G, aboutissant à l'émergence d'une nouvelle forme de publicité interactive ainsi qu'à une toute nouvelle génération de jeux vidéos. Ce segment de marché nous a poussés à mettre au point un logiciel multiplateforme qui s'adapte à toutes les marques de téléphone, en passant directement par l'opérateur. Notre logiciel fonctionne sur des ordinateurs qui se trouvent dans les serveurs d'Alcatel. Dès le printemps prochain, vous pourrez appeler un numéro spécial, du type visioconférence. Mais au lieu de vous retrouver face à un correspondant, vous appelez en fait un serveur qui va recevoir l'image de votre caméra. Ensuite, notre logiciel va renvoyer l'image truquée à votre téléphone. Cela permet de faire de la réalité augmentée en dialoguant avec le logiciel qui se trouve à des kilomètres de votre téléphone. A court terme, il semblait difficile de réussir à faire de réalité augmentée sur un téléphone portable. Désormais, grâce à notre système, c’est possible.??

[En discuter sur le forum !]
Bookmark and Share

Rendez-vous sur le site Arthur Futuroscope pour découvrir la nouvelle attraction du parc du Futuroscope : Arthur, l'aventure 4D. Retrouvez également des informations sur l'univers d'Arthur et les Minimoys.




.