Attention, Toute proposition doit faire l’objet d’un résumé enregistré avant le 22 mars 2004 directement sur le site web de l’aci



Yüklə 336,74 Kb.
səhifə4/8
tarix26.10.2017
ölçüsü336,74 Kb.
#14919
1   2   3   4   5   6   7   8

B - Description du projet


 

B1 – Objectifs et contexte :

On précisera, en particulier, les verrous scientifiques et technologiques à dépasser, l’état de l’art ainsi que les projets concurrents ou similaires connus dans le contexte national et international, en particulier ceux auxquels les équipes du projet participent.



1.1 Contexte applicatif et motivation
L’objectif applicatif du projet Demi-Ton est la structuration automatique des flux télévisuels. Cette activité consiste à construire automatiquement une structure de données qui représente l’organisation logique des différents éléments de production et de diffusion présents. Cette structure est alignée sur le flux, c’est-à-dire qu’elle doit comporter les informations temporelles nécessaires pour connaître la position temporelle de chacun de ses éléments.
La structuration de flux télévisuels est actuellement effectuée manuellement par un nombre important d’acteurs du multimédia ayant à prendre en compte la dimension « flux » des contenus télévisuels et radiophoniques. C’est par exemple le cas des diffuseurs radio et TV, qui doivent être en mesure de produire des informations précises sur ce qui est effectivement passé à l’antenne, des sociétés de pige audiovisuelle, qui réalisent pour le compte de tiers des relevés de diffusion de tels ou tels contenus, des instances publiques de régulation de l’audiovisuel qui doivent être en mesure de vérifier le respect des contraintes légales (par exemple respect de l’équité du temps de parole des personnalités politiques) ou contractuelles (par exemple respect de quotas de diffusion dans le cadre d’un cahier des charges) des diffuseurs. Ce type d’activité peut également trouver sa place dans des applications destinées au grand public, par exemple dans des boîtiers de réception et d’enregistrement TV (Set Top Box, Personnal Video Recorder) qui, du fait de l’augmentation constante de leurs capacités de stockage, devront être capables de permettre à leurs utilisateurs de sélectionner dans le flux les contenus susceptibles de les intéresser et d’organiser ces éléments de flux sur le disque local.

C’est néanmoins dans les centres d’archivage audiovisuel que le problème de la structuration des flux télévisuels se pose de façon la plus aiguë. Ainsi, l'Institut National de l'Audiovisuel (INA), qui a pour mission d'archiver à des fins patrimoniales et commerciales les documents télévisuels et sonores télédiffusés en France, collecte et archive aujourd'hui par une captation permanente au titre du dépôt légal de la télévision 41 chaînes de télévision et 17 chaînes de radio diffusées par voie hertzienne, par le câble et par le satellite.


Le contenu de ces flux doit être documenté de façon adaptée à chaque type documentaire de façon à ce qu'il puisse être exploité au mieux, c'est-à-dire effectivement accessible pour la consultation publique dans le cadre de projets de recherche.

Techniquement, cette documentation se déroule en plusieurs étapes, dont en particulier : captation des flux, segmentation et documentation proprement dite. L'une des activités les plus coûteuses au cours de ce processus est la segmentation qui consiste à « découper » le flux en segments de différents niveaux de façon à ce que chacun de ces segments puisse être documenté séparément : découpage du flux global en émissions, découpage d'une émission en séquences de plateau et séquences de reportage, découpage des séquences de plateau en interviews, découpage des interviews en répliques, par exemple. Cette activité de structuration est une activité préalable nécessaire à l'activité de documentation à proprement parler puisqu'elle permet à la fois d'isoler des segments homogènes pouvant être documentés individuellement (par exemple : « le reportage où l'on voit les premiers prisonniers de la guerre Iran-Irak ») et de les situer dans le contexte où ils ont été diffusés (par exemple : « ce reportage fait partie d'une rétrospective sur les guerres impliquant l'Irak diffusé le 20 mars 2003 dans une édition spéciale du journal télévisé du 20h de TF1 consacré à la guerre USA-Irak »). Ainsi, par exemple, les documentalistes passent environ 30% de leur temps à isoler les plateaux des reportages dans les émissions de plateau (journaux télévisés et magazines).


Cette activité prend dans un environnement de travail audiovisuel traditionnel une part du temps de travail des documentalistes qui est considérée comme trop importante par rapport à sa valeur ajoutée, en comparaison avec le temps qu'il faut pour rédiger le résumé textuel d'une séquence ou lui attribuer des descripteurs. De plus, dans le contexte de publication automatisée qui ne manquera pas d'apparaître d'ici quelques années (qu’il s’agisse de diffusion en ligne, de cession d’extraits ou encore de publication multimédia), l'activité de structuration se voit également adjoindre la contrainte supplémentaire d'une excellente précision temporelle. En effet, les informations de structuration des flux vont devenir les repères utilisés pour la manipulation de ceux-ci à des fins non seulement de documentation comme c'est le cas dans l'environnement traditionnel, mais également de publication audiovisuelle et multimédia. Cette activité de publication peut impliquer des dispositifs de navigation par petites unités, des découpages et des remontages de segments, des projections de segments isolés, etc. La structuration devient la base d'une activité éditoriale multimédia qui doit reposer sur des repères précis à l'image près afin que les résultats soient conformes aux attentes. Or, la segmentation à des fins de documentation est aujourd'hui effectuée « par excès » afin de gagner du temps puisqu'il n'y a pas d'inconvénient à ce que les segments soient plus grands que ce qu'ils devraient être s'ils ont pour seul objectif de permettre à un opérateur humain de retrouver le contenu associé à une description.
La motivation applicative pour cette recherche consiste donc à tenter d'automatiser l'activité de structuration des flux afin, d'une part, que le travail humain soit concentré sur des activités à plus forte valeur ajoutée et, d'autre part, que le résultat de cette segmentation soit temporellement suffisamment précise pour qu'elle puisse servir de base à toutes les activités de publication multimédia de contenus audiovisuels.

L'importance de toute cette recherche est soulignée par l'augmentation récente des flux à traiter. Le dépôt légal des œuvres télévisuelles a été étendu en 2002 aux chaînes diffusées par câble ou satellite et 22 chaînes supplémentaires ont été ajoutées au processus de captation en septembre 2003. Le simple enregistrement des œuvres captées permet leur mémorisation, mais ne permettra pas d'utiliser un stock qui n'aurait alors plus d'utilité. Les 360 000 heures de télévision qui sont ainsi captées annuellement doivent être rapprochées des 17 000 heures archivées annuellement jusqu'au 1er janvier 2002 et des 513 200 heures que l'INA a en stock et qui représentent les archives de la télévision de l'origine à aujourd'hui (volume évalué au 30 juin 2002).



1.2 Approche globale et objectif du projet
L’approche globale retenue pour résoudre le problème de la structuration automatique des flux télévisuels réside en trois points clés :

  • le traitement multimodal des flux télévisuels afin d’extraire de toutes les modalités disponibles les descripteurs susceptibles de fournir des indices permettant de repérer et d’identifier les éléments de structure présents dans le flux ; les acquis des différentes équipes participant au projet seront mobilisés, et certaines parties seront réorientées pour répondre plus particulièrement aux besoins de la structuration des flux ;

  • la mise au point d’un modèle statistique permettant de représenter de façon homogène les différents descripteurs disponibles et de réaliser la fusion des données dans le contexte particulier de la structuration automatique des flux ;

  • l’utilisation d’informations a priori, très souvent disponibles en accompagnement des flux, comme par exemple les grilles prévisionnelles de diffusion, qui peuvent également être intégrées dans le modèle ou bien être utilisées pour le contrôle du processus de structuration.

Le projet Demi Ton focalise ses travaux sur la mise au point du modèle statistique et sur l’utilisation des informations a priori. Il mobilise les technologies existantes dans les équipes partenaires pour l’analyse élémentaire, sauf dans certain cas où il semble possible de faire évoluer des outils existants pour les rendre plus utiles dans ce contexte particulier.




1.3 État de l'art
Analyse des pratiques actuelles
Pour permettre l'accès et la manipulation de documents multimédia, des index décrivant le contenu sont nécessaires. À ce jour, la construction des index est généralement prise en charge par les documentalistes qui partitionnent les documents vidéo et leur assignent manuellement un nombre limité de mots clés. Ce travail allie des phases répétitives, longues et à faible valeur ajoutée pour le personnel qui les effectue, comme la structuration des documents, et des phases à forte valeur intellectuelle ajoutée, comme l'annotation et l'indexation fine de certains segments.

Une solution naturelle à ce problème est d'automatiser certaines de ces tâches, en utilisant des techniques de structuration, d'extraction et de classification automatique du contenu du matériel vidéo. Trois aspects principaux sont à prendre en compte dans ce travail. Le premier est relatif au niveau de granularité à considérer et doit répondre à la question « Quoi ? » : que faut-il repérer, le document dans son ensemble, une séquence d'images ou des images isolées ? Le second aspect est relatif aux différentes modalités et à leur analyse et dépend de la réponse à la question « Comment ? » : faut-il indexer en utilisant une classification du signal image ou du signal sonore uniquement, faut-il combiner les différentes modalités ? Le troisième aspect est lié au type d'index à utiliser et doit répondre à la question « Avec quoi ? » : les noms des intervenants dans une émission de télévision, leurs visages, leur voix ou leurs positions relatives ?




Outils d’analyse élémentaire
La plupart des solutions proposées pour l'indexation vidéo tentent de répondre à ces questions en reposant sur des approches monomédias : les composantes image, son et texte sont traitées et utilisées de manière généralement indépendante. Pour chacun de ces médias, de nombreux descripteurs ont été proposés et constituent une boite à outils utilisable. Une bonne compilation de ces approches est présentée dans deux ouvrages de référence [1,2] ainsi que dans des articles de synthèse [3,4].
L'analyse de la composante visuelle bénéficie de résultats obtenus dans le domaine de l'analyse d'images fixes ou de l'analyse du mouvement. De nombreuses contributions ont été proposées pour réaliser la segmentation temporelle des vidéos en plans élémentaires à partir de la détection de transitions visuelles [5], suivie d'un regroupement hiérarchique de ces plans élémentaire en scènes et de leur caractérisation à partir d'un ensemble réduit d'images représentatives (images-clés). Côté description des images, la plupart des descripteurs proposés caractérisent l'ensemble de l'image [6,7] : histogrammes de couleur, descripteurs de texture, descripteurs de forme, descripteurs globaux de mouvement. Ce champ de recherche est encore actif : les histogrammes de couleur se révèlent peu discriminants dans des bases d'images très volumineuses ; les descripteurs de texture sont chacun spécialisés pour certains types de texture et les descripteurs de forme reposent sur une segmentation automatique de l'image, qui est un problème difficile et non résolu dans le cas général. Des approches prometteuses reposant sur l'utilisation d'un ensemble de descripteurs locaux ont été proposées récemment et ouvrent la voie à des techniques dites de reconnaissance partielle : reconnaissance d'objets indépendants du fond de l'image, reconnaissance de portions de scène etc...[8].

De façon à répondre plus directement aux requêtes formulées par l'utilisateur portant plus naturellement sur la sémantique des documents que sur leur contenu élémentaire, des indices visuels de plus haut niveau sémantique peuvent être extraits. La détection et la reconnaissance de visages [9,10], la détection de texte incrusté (sous-titres) [11] ou la détection de logos (imagettes particulières) sont des techniques souvent indispensables pour caractériser des segments vidéo. Beaucoup reste à faire dans ce domaine, la plupart des techniques actuelles s'appliquant dans des conditions contraintes (éclairage contrôlé, fond d'image uniforme, vues frontales, ...) qui ne correspondent qu'à des situations très particulières dans les programmes vidéos.

L'indexation de documents textuels associés aux vidéos (script) bénéficie, contrairement à certains autres médias, d'une longue expérience des archivistes et documentalistes. L'indexation manuelle permet, à l'aide de listes d'autorité (listes de mots-clés) ou de thesaurus, de représenter de manière quasi unifiée, au sein d'un système de recherche d'information, les concepts abordés dans un texte. Cependant, la quantité croissante de documents numériques a laissé place à une indexation automatique « plein texte » (full text) qui, outre le problème du choix des mots contenus dans les textes qui vont les représenter (mots simples ou complexes, mots suffisamment discriminants, mots situés dans une certaine partie du texte,...), pose de nouveaux problèmes liés à une indexation non plus au niveau des concepts mais des mots.

Deux de ces problèmes d'ordre sémantique sont fondamentaux : celui de la formulation différente d'une même idée (comment apparier le même concept contenu dans une requête et un texte, mais exprimé différemment) et, problème dual, celui de la désambiguïsation (un même mot - même chaîne graphique - pouvant exprimer des concepts différents). À ces difficultés se combine le fait que le sens d'un mot dans un document portant sur un domaine, et donc les liens sémantiques que ce mot entretient avec d'autres mots, varient en fonction de ce domaine.


L’analyse de la composante son n’a été que peu exploité dans le contexte de la structuration de flux vidéo, à l’exception de la transcription automatique de la parole dans le cadre de l'indexation des journaux télévisés (JT). On trouve néanmoins quelques approches concernant la structuration et la caractérisation de flux sonores. Par exemple, la segmentation d'un flux sonore selon les classes parole/silence/musique ou l'indexation en locuteur sont des tâches largement exploitées, notamment dans le cadre de la transcription du JT ou de conférences. En revanche, la détection de sons clés ou encore la caractérisation de morceaux de musique (rock, classique, etc.) sont des domaines émergeant du traitement avancé du signal sonore qui trouvent leur application dans la structuration vidéo. Ces approches ne sont cependant que marginalement exploitées, à cause du manque de maturité et de fiabilité des techniques utilisées d’une part et, d’autre part, de l’absence de cadre théorique bien défini pour l’intégration.
Les techniques présentées jusqu'à présent sont principalement monomédias, alors que les documents vidéo ne peuvent être compris généralement qu'en faisant intervenir tous ces médias. Créer des systèmes basés sur l'utilisation conjointe et simultanée de plusieurs médias demande de trouver un formalisme qui permette de décrire ce couplage.
Modèles
En matière d’intégration multimodale, de nombreuses approches sont possibles. Elles peuvent être classées en fonction de leurs propriétés respectives par rapport au cycle de traitement, de la prise en compte du contenu et de la méthode de classification. Le cycle de traitement peut être itératif, permettant l'utilisation incrémentale d'informations contextuelles, ou non itératif. La prise en compte du contenu peut être réalisée en utilisant les différentes modalités de manière symétrique (simultanée) ou de manière asymétrique (ad hoc). Finalement, la méthode de classification peut être statistique ou reposer sur un système à base de règles de décision. La plupart des méthodes proposées sont symétriques et non itératives.

Certaines suivent une approche à base de règles de décision. En [17], par exemple, les modalités visuelles et sonores sont intégrées de façon à détecter de la parole, du silence, l'identité des locuteurs, des plans contenant ou non des visages, parlants ou non. Les visages parlants sont détectés, en localisant des visages dans les plans vidéos et en mesurant le volume de parole dans ces mêmes plans, puis en utilisant un ensemble de règles de décision. De nombreuses méthodes se basent sur une approche statistique. Un exemple de méthode statistique, symétrique et non itérative est constitué par le système Name-It [18]. Le système associe des visages détectés et des noms, en calculant un facteur de cooccurrence qui combine les résultats des modules de détection et reconnaissance de visages, d'extraction de noms et de reconnaissance de sous-titres.

D’autres approches préliminaires utilisant une analyse multimodale sont apparues très récemment [12,13], certaines exploitées commercialement [14]. Dans la plupart, l'intégration des différentes modalités sert de méthode de vérification ou de méthode de compensation des erreurs ou imprécisions de chaque modalité. Un aspect important, indispensable pour l'intégration de données hétérogènes, est la synchronisation et l'alignement de ces différentes modalités, étant donné que ces modalités doivent partager un même référentiel temporel (timeline) et être analysées à un même degré de granularité. L'étude de la littérature dans ce domaine nous montre que les modalités sont généralement converties dans un format conforme à l'expertise principale des équipes de recherche. Ainsi, lorsque l'analyse sonore est la spécialité d'une équipe, les séquences d'images sont converties en (milli)secondes [15]. D'une manière symétrique, les équipes spécialisées en analyse d'image alignent les enregistrements sonores sur les frames ou les plans détectés. Ces approches supposent un alignement a priori connu et parfait entre les signaux visuels et sonores, ce qui est rarement le cas. Des approches permettant des procédures d'alignement automatique sont à développer. Une première approche proposée en [16], consiste à aligner images et enregistrements sonores en mettant en correspondance les mots résultant d'une transcription sonore et le script d'un journal télévisé.

Les modèles de Markov cachés (MMC) s'imposent de plus en plus comme méthode statistique de référence pour l'intégration multimodale [12,15]. Ils offrent l'avantage de pouvoir intégrer des modalités hétérogènes, et sont de plus capables de prendre en compte des données séquentielles. Ils sont en outre particulièrement appropriés pour combiner différents classifieurs monomédias. Notons que, dans ce cas, la plupart des méthodes font l'hypothèse de l'indépendance des médias, qui peut être réductrice. D'autres approches reposent sur l'utilisation de modèles statistiques bayésiens, bien adaptés à la fusion de données [19]. Notons que ces formalismes permettent d'accumuler des évidences issues de médias différents, cela exigeant toutefois que les classificateurs monomédias puissent fournir leurs résultats sous une forme probabiliste.


Contrastant avec les méthodes présentées précédemment, certaines approches sont asymétriques, en ce sens que les modalités ne sont pas utilisées simultanément. Par exemple, en [15], un MMC segmente tout d'abord le flux vidéo en trois catégories en se basant sur la modalité audio, puis, dans un second temps, partage plus finement chacun de ces segments en se basant sur la modalité visuelle. Des résultats récents tendent à montrer que l'utilisation de combinaisons de classificateurs statistiques pour l'intégration multimodale est prometteuse. Par contre, les systèmes les employant sont peu nombreux et très spécialisés. En outre, il semblerait que la prise en compte des informations textuelles, riches sémantiquement, est généralement délaissée au profit des modalités visuelles et sonores, alors que la combinaison de ces trois modalités peut permettre de lever de nombreuses ambiguïtés. Il apparaît donc que de multiples applications, plus générales, sont envisageables notamment avec l'extension du formalisme des modèles de Markov cachés et la prise en compte de toutes les ressources disponibles, à des résolutions temporelles différentes.


Utilisation d’informations a priori
Toutes les méthodes de structuration et de classification de document utilisent une large part d’a priori, notamment sur le contenu du document afin de déclencher les traitements adéquats. Ces connaissances a priori sont souvent liées à une méthode qui ne s’applique qu’à certains types de documents. Par exemple, pour structurer une vidéo de tennis, on peut utiliser efficacement des connaissances a priori sur les règles de production de la télévision ainsi que sur la structure du jeu en terme de match, points et sets [20]. De même, on utilisera des connaissances sur les règles de production pour structurer au mieux un journal télévisé. Dans la grande majorité des cas, les approches de structuration proposées dans la littérature ne s’appliquent qu’à un seul type de document. De ce fait, l’utilisation des connaissances a priori est figée au sein du modèle et ne peut s’adapter de manière dynamique à un contenu.

1.4 Projets passés et projets en cours
De nombreux projets ont adressé la problématique de l'indexation multimodale sans la considérer comme centrale, la plupart avec peu de succès. Parmi ceux auxquels ont participé l'IRISA et/ou l'INA, on peut citer DiVAN (Esprit), Diceman (ACTS) et AGIR (RNRT) qui ont tous eu l'ambition d'extraire des descripteurs multimodaux. Le problème s'est néanmoins révélé plus difficile que prévu, en particulier en ce qui concerne la possibilité d'identifier quels seraient les descripteurs multimodaux utiles pour une activité donnée.

Ces premiers travaux nous ont néanmoins permis de baliser le travail. Au sein du projet RNRT AGIR auquel participaient l'INA, METISS et des personnes de TEXMEX, nous avions exploré une piste syntaxique via l'utilisation des schémas de description MPEG-7. Cela permet une grande puissance d'expression, mais ne résout que le problème... syntaxique. Cela permet de créer des descripteurs aussi complets que souhaités, mais n'assure aucune intégration au niveau des outils d'extraction ou de reconnaissance d'informations. Cela correspond plutôt au modèle de fusion à haut niveau des informations et décisions prises séparément sur chaque média. Ce projet a aussi permis de tester la pertinence des divers outils d'extraction d'informations disponibles sur chaque médias dans le contexte d'applications intéressant l'INA.

Les recherches ont progressé et il est maintenant envisageable d'arriver à des résultats satisfaisants en concentrant une activité de recherche sur cette question et sur la façon d'extraire ces descripteurs. Le projet RIAM FERIA auquel participe l'INA et TEXMEX reprend les éléments techniques et architecturaux des projets précédents et a pour but de développer un framework de développement d'applications. Au sein de ce projet sont réunies les compétences nécessaires pour fournir les briques de base, et le projet vise à fournir l'infrastructure logicielle qui permettra de les combiner de manière souple et variée pour des applications différentes. Ce projet est de type précompétitif et il n'est pas le cadre pour résoudre des problèmes théoriques nouveaux. Par contre, les partenaires de Demi-Ton s'appuieront sur l'infrastructure technique fournie par le projet FERIA. Le cadre technologique proposé sera suffisamment unifié pour que la multimodalité et la coopération entre analyse automatique et description manuelle ne rencontre pas d'obstacle technique.

On retrouve cette même thématique dans le projet Domus Videum auquel participent l'INA et METISS, dans un contexte et un partenariat un peu différent. Le projet Domus Videum développe quelques approches concernant l’utilisation d’attributs extraits de la bande sons pour le résumé et la structuration de vidéo de sports et de documentaires. Entre autres choses, les travaux menés dans ce cadre sur la structuration audiovisuelle de vidéo de tennis à l’aide de chaînes de Markov cachés ont montré le potentiel de l’approche markovienne pour l’intégration multimodale, tout en mettant en évidence la nécessité d’une approche plus intégrée.

La thèse d'Ewa Kijak, dans laquelle TEXMEX et METISS sont impliqués, se termine sur un exemple de modèle d'intégration de quelques informations sonores et visuelles au sein d'un même modèle de Markov caché. Ce travail met en avant les difficultés à résoudre, par exemple celle de la prise en compte au sein d'un même modèle d'informations de granularité temporelle différente : images tous les 24e ou 25e de seconde, informations sonores tous les centièmes de secondes, résultats de segmentation fournissant des intervalles, événements clés ponctuels, décalage entre les divers résultats de segmentation...
Les principaux projets connus sur l'indexation multimodale sont :


  • le projet IST M4 (http://www.dcs.shef.ac.uk/spandh/projects/m4/) qui traite le cas particulier des réunions de travail filmées ;

  • le projet RNRT RECIS (http://lisi.insa-lyon.fr/~eegyedzs/Recis/index_en.htm) récemment terminé qui est orienté vers la recherche de contenus par des outils de navigation construit par analyse séparée des différentes modalités ;

  • les projets menés par le consortium suisse IMS (http://www.im2.ch/) sont également centrés sur la construction d'un cadre d'intégration probablement comparable à celui de FERIA.

Par rapport aux autres projets existants, les points forts de Demi-Ton sont :



  • la prise en compte des flux télévisuels dans leur ensemble en envisageant leur description aux niveaux nécessaires ;

  • la prise en compte de besoins applicatifs désormais clairement identifiés par une communauté professionnelle ;

  • le bénéfice d'une architecture technique parfaitement adaptée aux besoins expérimentaux et garantissant la possibilité de concentrer les efforts du projet sur la recherche qu'il souhaite mettre en œuvre, et non sur le développement de l'infrastructure nécessaire ;

  • un environnement expérimental réel ;

L’expérience des partenaires de ce projet, acquise à travers la participation aux divers projets mentionnés ci-dessus, est également un point fort pour le succès de Demi-Ton.


Yüklə 336,74 Kb.

Dostları ilə paylaş:
1   2   3   4   5   6   7   8




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©muhaz.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin