Bases de données : le vocabulaire d’un langage multimédia

By 5 May 2013

Bases de données : le vocabulaire d’un langage multimédia – Partie C :

Les projets Media Streams de Marc Davis du Garage Cinema Research Group comme I-Views de Pengkai Pan et Glorianna Davenport du MIT Media Laboratory, ont été créés afin de permettre aux internautes de partager de façon appropriée des bouts de video sur le Net. La démarche de Marc Davis est en cela encore plus radicale puisqu’il cherche à proposer une base de données vidéo organisées non dans un ordre alphabétique ou thématique, mais telles les figures d’un langage. Il ne s’agit pas d’utiliser les capacités de partage de l’Internet dans le seul but de s’échanger des contenus vidéos. Il faut aussi repenser la notion de « sharable authorship », partage de la paternité de l’œuvre, et créer les outils nécessaires à ce « partage » ou plutôt à cette mise en commun.

Media Streams est un langage d’annotations de contenus vidéo. Ces annotations sont des descripteurs iconiques, et permettent aux utilisateurs de plus facilement se repérer dans des contenus vidéos ainsi annotés. Un « clip » peut être lié à différents descripteurs. Les concepteurs ont attachés beaucoup d’importance à la retranscription des actions et des transitions vidéo. Marc Davis a lancé ce projet car il pense qu’une pratique accrue du garage cinema dans un futur proche (actualités personnalisées, vidéo sur demandes…) ainsi que la télévision interactive ne peuvent pas se développer sans un accès facilité aux immenses ressources vidéo existantes. Ce langage de description doit pouvoir « encoder et interpréter des informations détaillées sur le lieu, le moment, et les conditions de la prise de vue et doit pouvoir attacher ces informations au fichier numérique : des indicateurs satellitaires donneront les informations sur la longitude, la latitude et l’altitude ; la date sera enregistrée aussi ; d’autres données sensibles (température, humidité, vent) ainsi que les mouvements de caméra (panoramiques, zooms…) et la distance de la caméra au sujet, tout cela constituera d’utiles couches d’informations liées aux flux audio et vidéo que la caméra produit ».

Finalement, le projet Media Streams n’a rien d’utopique et des associations d’industriels ont déjà penché sur la question, motivés par l’explosion du nombre de chaînes télévisées sur satellite, câble et Internet. Des codecs de compression de fichiers informatiques tels le MPEG4 et le MPEG7 ont été créés dans ce sens. Ils permettent à la fois de contenir différents types de médias (texte, sons, images fixes et animées…) et d’y attacher certaines informations qui les caractérisent (descripteurs). Mais laissons à Nicolas Granon le soin d’expliquer tout cela…

« Le MPEG 4 intègre dans sa spécification la possibilité de mélanger plusieurs sortes de contenus matriciels ou vectoriels, éventuellement synthétiques, etc… C’est un ensemble de normes qui servent à la reconstitution d’une scène audio-visuelle. L’idée c’est de décrire une scène. On dit : ma scène est formée par des éléments sonores, des éléments visuels et/ou sonores. Ils peuvent être symboliques ou non. En sonore, du symbolique, c’est essentiellement du MIDI ou ce genre de chose. Dans les éléments visuels ça peut être des éléments vectoriels, des polices de caractère, etc… Et l’appareil qui restitue la scène est capable de recalculer la scène qui a été décrite en amont. Éventuellement en intégrant des éléments bitmap au milieu. Ça n’a rien d’extraordinaire. L’élément le plus proche qu’on ait aujourd’hui qui ressemblerait à du MPEG 4 en tout cas dans l’idée de représentation de la scène, c’est Flash. Parce que dans Flash on a ce mélange de médias assez ouvert. Image fixe, image animée, image vectorielle, sons enregistrés, sons de synthèse… On a un peu tout ça dans un Player Flash. La scène c’est quelque chose qu’on regarde. Ce n’est pas que l’habillage. On peut tout imaginer. On peut imaginer un personnage de synthèse dans un environnement photo réaliste, ou filmé. On peut imaginer le contraire : un personnage filmé ou photographié à l’intérieur d’une scène synthétique. Et tous les intermédiaires possibles. Les exemples qu’on montrait il y a quelques années quand le MPEG 4 a été normalisé, c’était typiquement des journaux télévisés. Avec un présentateur dans un décor de synthèse, avec des sous-titres, des insertions à l’écran pour afficher un texte d’accompagnement. L’idée c’était de dire on va essayer d’éviter de transférer sur le réseau une information qu’on est capable de reconstituer. C’était ça l’idée.

Un tout autre aspect est la partie classification, c’est un autre étage de la fusée. C’est la norme MPEG 7 qui s’intéresse à tout ce qui est descripteur. L’ambition de MPEG 7 c’est de fournir un cadre méthodologique et technique qui permette de distribuer des descripteurs de tout, partout, pour que toutes les machines puissent accéder à des ensembles de descripteurs de contenus essentiellement audiovisuels . À l’époque les applications envisagées étaient les programmes de télé. Le but était de distribuer le programme télé à des centaines de millions de personnes, grâce au satellite, avec des descripteurs très puissants en terme d’horaires (d’enchaînements temporels des choses), techniques (sur quel canal ça passe sachant qu’il peut y avoir des différences de calibres de réception pour une même chaîne dans les différentes zones de couverture du satellite) et puis de contenu des programmes (les ayants droit artistiques, l’équipe technique, l’intrigue s’il y en a une, etc…). Projet extrêmement ambitieux et qui n’est actuellement que très peu utilisé dans les applications grand public. Certaines applications existent à l’état de prototype comme les formats d’annotations vidéo d’IBM et de Ricoh (Ricoh Movie Tool). Ces formats permettent d’ajouter des informations à chaque prise d’un film tourné en vidéo comme des descriptions du décor, des objets-clefs, de l’intrigue etc. Chacune de ces descriptions associées à une prise bien précise, sont stockées dans un fichier XML lu par de très nombreuses applications de post-production. L’utilisateur a aussi la possibilité d’ajouter ses propres descriptifs. Il permet aussi de distinguer les différentes prises utilisées dans une séquence donnée en détectant les coupes et les fondus. Puis il peut enregistrer ces prises indépendamment dans une base de données. Ceci montre à quel point MPEG7 peut être un outil très puissant. »

Sur le Net, ces formats ne sont pas répandus. Les classements de vidéo sur les sites en proposant utilisent des critères relatifs aux grandes catégories de contenus (animation, films, sport, clip…) ou relatifs aux appréciations des spectateurs (top 100 des favoris, top 100 de ceux qui ont le plus de commentaires…). La recherche de la vidéo la plus drôle, la plus bizarre… est une pratique quotidienne pour certains internautes. Des sites comme YouTube.com permettent aux quidams de mettre en ligne une foule de vidéo chaque jour, des parodies, des films montés de bric et de broc… Mais nous sommes encore loin d’une vidéothèque bien rangée, organisée de la façon la plus adéquate. Par exemple, YouTube.com, propose des critères de contenus classiques et une fois qu’une vidéo a été sélectionnée, il va proposer à l’internaute de voir d’autres vidéos de la même famille, c’est à dire des vidéos qui dans leur nom contiennent des mots similaires au nom de la première vidéo. Si souvent ces films ne peuvent pas être téléchargés librement, il est assez facile pour un bidouilleur de les enregistrer sur son disque dur à partir des fichiers temporaires générés à la lecture du film dans le browser. Une autre façon de procéder et de passer par des systèmes tels le peer-to-peer pour obtenir des fichiers piratés ou par des sites proposant des téléchargements payants (système du VOD, « video on demand » sur lequel nous nous pencherons à nouveau plus loin).

Lire le mémoire complet ==> (LES DIGIMAS)
Mémoire de fin d’études – Section Cinéma
ENS Louis Lumière