Quelles tendances pour l’expérience image et son ?

Quelles tendances pour l’expérience image et son ?

11 Oct 2016

Sur l’écran géant du salon, une image hallucinante de netteté par sa définition, l’étendue des couleurs, la fréquence des images et la profondeur des contrastes… Sur le petit écran du téléphone mobile, les vidéos « à l’arrache » des réseaux sociaux… Et entre ces extrêmes, une multiplicité d’usages. La Technoférence du 6 octobre faisait un tour d’horizon des nouvelles expériences image et son.

Inventer des expériences utilisateur toujours plus riches et observer les usages pour en déduire des tendances : le monde de l’audiovisuel est tout entier engagé dans une course permanente à la recherche de son futur immédiat. Il s’était donné rendez-vous le 6 octobre à L’inria Rennes lors de la technoférence #18 organisée par Images & Réseaux pour donner un coup de projecteur sur « Les nouvelles expériences son et vidéo ». L’événement, qui rassemblait des professionnels et chercheurs de l’ensemble de la chaîne audiovisuelle, était retransmis en visioconférence à Angers, Brest, Lannion, Nantes et Vannes.

TF1 veut des infrastructures « agiles »

La première intervention donnait la parole à un opérateur de contenu : TF1. Yves Davot, responsable du pôle Expertise et Intégration de la chaîne, situait « L’impact des nouveaux services et technologies sur l’infrastructure TV ». Il débutait par une série d’observations sur l’évolution du marché : la généralisation de l’accès haut débit (76% des foyers), la progression des écrans autres que le téléviseur avec en moyenne 5,9 écrans par foyer, la forte croissance de la consommation de contenus TV délinéarisés (rattrapage, replay). Et ce chiffre « impressionnant » : le streaming vidéo mobilise deux-tiers de la bande passante aux États-Unis. Les autres chiffres qui préfigurent le futur sont ceux relatifs aux « millénials », les jeunes ayant grandi avec le numérique : ceux-ci ne consacrent plus que « 1h30 à la télévision linéaire » alors qu’ils passent « plus de 2h par jour sur mobile ». Les contenus audiovisuels qu’ils consomment sont souvent plus courts, à lecture verticale, sans son et sous-titrés en gros caractères.

D’où des conséquences sur les infrastructures, qui devront permettre de « produire plus, plus vite, pour plus de réseaux et plus de services ». En termes de besoins, ça se traduit par davantage d’intégration dans les outils de production pour prendre en compte les différents formats de service, plus d’automatisation par exemple pour indexer des contenus, plus d’agilité par l’utilisation du cloud et de techniques de virtualisation. Enfin, « il faut simplifier » par des technologies ouvertes et interopérables : « Nous ne pouvons pas nous permettre de faire grossir les infrastructures à chaque fois qu’une innovation arrive sur le marché. »

ATSC 3.0, on aime

À suivre, Gérard Faria de TeamCast Technology, démontrait tout le bien qu’il pense de ATSC3.0, le nouveau standard de télévision numérique destiné au marché Nord-américain et au-delà. En fait, il faut plutôt considérer ATSC 3.0 comme étant « un ensemble de standards qui couvre toute la chaîne audiovisuelle » depuis la couche physique jusqu’au service en passant par la protection des contenus comme le watermarking. Principal avantage de la nouvelle norme, ATSC 3.0 est basé sur IP. C’est « le broadcast à l’heure d’internet » qui permet, selon les circonstances, de distribuer un contenu « en broadcast ou en broadband ». Il est notamment conçu pour la publicité ciblée qui fera que « deux utilisateurs regardant le même programme au même moment ne verront pas la même pub ».

Le ressenti utilisateur mesuré par une machine ?

Gérard Rubino, directeur de recherche à l’Inria, présentait ensuite un outil très ambitieux. Le constat : la seule qualité qui vaille est celle perçue par l’utilisateur, mais les tests subjectifs basés sur un panel d’utilisateurs et des protocoles de test normalisés sont très lourds à mettre en œuvre. D’où l’idée de développer une solution automatique baptisée PSQA (Pseudo Subjective Quality Assessment). Cette solution repose sur une « hypothèse forte » : Il est possible de déduire la qualité perçue « en observant uniquement le réseau et la connexion ». En réalité, PSQA s’appuie sur une première phase d’apprentissage statistique à partir de quelques tests subjectifs. Ensuite, la mesure de la qualité perçue est entièrement automatique et temps réel. Et, selon le chercheur, « elle est aussi fiable que des tests subjectifs », si bien que l’Inria envisage un transfert de technologie vers l’industrie.

Dans un tout autre registre, Nicolas Le Gall présentait le concept développé par la startup brestoise My Movie Up de montage vidéo en ligne. C’est une sorte de système de gestion de contenus basé sur des modèles qui permet à tout à chacun de créer une vidéo « de qualité professionnelle ». L’idée étant de « simplifier au maximum le processus de création vidéo en informatisant les métiers de l’audiovisuel », tels que le montage. La startup développe également une application mobile pour faciliter la prise de vue et accompagner ses clients « du tournage jusqu’au partage ».

Vers une cohérence image et son

Le son 3D était ensuite au centre de l’attention. D’abord avec Mathieu Paquier, de l’UBO, qui se présente comme étant psycho-acousticien. Avec son équipe il mène une série de recherches sur la perception sonore. Parmi lesquelles cette interrogation : « Quelles sont les attentes du spectateur en cinéma 3D en termes de son ? » Où il sera question d’effet ventriloque qui crée l’illusion que le son sort de l’endroit où est focalisée notre attention et non de la source sonore. Et finalement une influence très relative de la spatialisation du son sur le confort du spectateur.

Une conclusion que ne partage pas Xavier Bonjour de 3D Sound Labs, entreprise dont le crédo est justement la spatialisation du son. Surtout pour la réalité virtuelle où l’on est « libre de ses mouvements » et où le son est « un élément essentiel du réalisme ». La startup rennaise se focalise sur le son 3D au casque, convaincue que « dès qu’il y a son 3D, c’est nécessairement au casque ». Parmi les technologies de son 3D, elle défend l’ambisonie « parce que c’est une technologie scalable et qu’on peut la compresser ». Par ailleurs, elle travaille actuellement sur la personnalisation du rendu sonore (mesure des HRTF) grâce à un ensemble de photos de l’oreille prises avec un simple smartphone (voir l’article).

demo-4ever

Le HDR mieux que la 4K

La technoférence se penchait ensuite sur la vidéo du futur. À commencer le format UHD-TV phase 2 exploré au sein du projet 4EVER-2 et commenté par Maryline Clare (Orange) et Mickaël Raulet (Ateme). Quatre paramètres ont été étudiés sous l’angle de la qualité d’expérience : la définition spatiale (4K), la fréquence des images (High Frame Rate, HFR), l’étendue des couleurs (Wide Color Gamut, WCG), et la définition du contraste (High Dynamic Range, HDR). D’où il ressort que la 4K, pourtant poussée par l’industrie, n’apporte rien de significatif « dans les conditions habituelles du salon ». Par contre le HDR est perçu comme un vrai plus. Également l’augmentation de la fréquence des images pour certains contenus comme le sport. L’autre versant du problème est la quantité d’informations additionnelles par image et la « nécessité de compresser ». Le standard HEVC résout une partie du problème avec « 30% de gain en live » et 50% espérés à terme.

Plus avant-gardiste, la dernière conférence s’intéressait à la technologie Light Field expliquée par Didier Doyen de Technicolor. Le principe : les caméras light field capturent une même scène de différents points de vue simultanément, ce qui permet recueillir plus de données dont des informations de profondeur. Avantage : des possibilités de post-production quasi infinies. On peut par exemple modifier le focus a posteriori, modifier l’éclairage de la scène, ou encore extraire un contenu pour l’inclure dans des images de synthèse comme on le fait avec le fameux « fond vert ». Autre application possible, le Light Field améliore la cinématique de la réalité virtuelle en apportant des informations de parallaxe beaucoup plus réalistes : voir ce qui se cache derrière un objet.

Prochain rendez-vous à Brest

Un espace de démonstration permettait de retrouver Light Field, UHD-TV, son 3D et bien d’autres, l’objectif des technoférences étant de favoriser les rencontres et donner naissance à des projets collaboratifs. L’édition #19 sur le thème « Interactions avec vos données ou données d’interactions ? «  se tiendra le 8 décembre à Brest, que l’on pourra également suivre en visio depuis Rennes, Nantes, Lorient, Le Mans, Laval.

Billets similaires :