Attention, Toute proposition doit faire l’objet d’un résumé enregistré avant le 22 mars 2004 directement sur le site web de l’aci



Yüklə 336,74 Kb.
səhifə5/8
tarix26.10.2017
ölçüsü336,74 Kb.
#14919
1   2   3   4   5   6   7   8

1.5 Enjeux scientifiques
L’enjeu scientifique du projet est d’attaquer les points bloquants de l’analyse multimodale des documents multimédias.

Le premier enjeu est de mettre en place dans cet objectif une véritable collaboration entre les outils d’analyse propres à chaque modalité. Cet enjeu est abordé depuis maintenant assez longtemps mais les solutions se sont toujours heurtées à deux difficultés. La première est qu'on est encore loin d'avoir épuisé ce qui est faisable sur chaque média et que les spécialistes de chaque média ne manquent pas de travail dans leur propre domaine avant d'envisager d'aller voir ailleurs. La deuxième est plus structurelle : la plupart des équipes de recherche sont monodisciplinaires et ont donc plus de difficultés à traiter des problèmes faisant intervenir plusieurs domaines, d'autant plus que ces domaines ont chacun une grande richesse conceptuelle, théorique et un outillage varié.

Le deuxième enjeu est la mise au point d’un modèle de fusion destiné à la reconnaissance des structures des documents audiovisuels dans toute leur complexité, et non plus simplement destiné à la segmentation dans le sens traditionnel du terme. Ceci impose de prendre en compte dans le modèle les informations disponibles sur les relations, hiérarchiques et éventuellement plus complexes, existant entre les segments à identifier.

Le troisième enjeu est l’utilisation des informations disponibles a priori. Celles-ci sont complexes et variées et en général d’assez haut niveau. Il s’agit par exemple des grilles de programmes fournies par les diffuseurs qui présentent les horaires prévisionnels de diffusion des programmes. Il peut également s’agir d’images et de sons prototypiques de certains éléments de contenus identifiés comme tels par les documentalistes, comme par exemple des jingles sonores, des habillages, etc. L’objectif est d’être capable d’utiliser ces informations sans lesquelles la structuration automatique ne peut probablement pas être réalisée, d’une part en les incorporant dans le modèle de fusion pour qu’ils soient considérés comme des éléments entrant en jeu dans la reconnaissance à proprement parler, d’autre part en les utilisant pour le pilotage de l’analyse afin par exemple d’éviter des analyses inutiles ou d’adapter les outils (paramétrage ou adaptation de modèle) à ce qui est attendu.

Le quatrième enjeu est le passage à une approche descendante. L’approche retenue, notamment par la place importante qu’elle accorde à l’utilisation des informations disponibles a priori de haut niveau, semble remettre en cause le modèle le plus répandu enchaînant extraction de descripteurs, segmentation et classification pour le remplacer par un modèle où les informations de haut niveau disponibles déterminent le processus d’analyse.
De plus, le projet aborde également des enjeux liés à l’apprentissage, à la généralisation et à l’auto-adaptation, sur lesquels il n’effectuera pas de recherches spécifiques mais pourra proposer des pistes intéressantes. Il semble en effet difficile d’envisager, dans le contexte de la structuration automatique, une approche reposant sur un apprentissage supervisé, d’une part de chacun des outils d’analyse, d’autre part du processus global de structuration. Il est nécessaire de prévoir, à terme, des possibilités d’apprentissage par généralisation de façon à ce qu’un outil d’analyse puisse être paramétré par un très faible nombre d’exemples choisis par l’utilisateur, comme par exemple les habillages des séquences de publicité sur telle chaîne. Sur une piste voisine de celles évoquées précédemment, il sera nécessaire d’envisager à terme des moyens d’adaptation automatique des outils d’analyse aux contenus qu’ils traitent en fonction des informations disponibles a priori ou extraites dans une étape précédente de l’analyse. La détection de motifs répétitifs doit aussi permettre aux outils, en utilisant les résultats obtenus lors des premières apparitions d’un motif, d’améliorer sa reconnaissance des apparitions suivantes de celui-ci.

B2 – Description du projet : (5 à 10 pages)

Entre autres, le caractère innovant du projet (concepts, technologies, expériences …) devra être explicité et la valeur ajoutée des coopérations entre les différentes équipes sera discutée.


Le projet a pour but de proposer un modèle qui permette d'exprimer de manière unifiée toutes les informations issues d'une vidéo, quel que soit le média dont elles sont issues, mais qui permette aussi d'exprimer les besoins d'utilisation de ces données. La fourniture de ce modèle va de pair avec celle des algorithmes d'extraction et de fusion des informations nécessaires et de ceux d'utilisation du modèle obtenu. Le travail effectué sera expérimenté dans le cadre applicatif qui motive ce travail, celui de la structuration automatique de flux de télévision. Pour cela, le modèle sera alimenté par des données générées par des modules d’analyse élémentaire existants dans les équipes du projet. De plus, des possibilités de collaboration entre méthodes d’extraction de descripteurs identifiées comme intéressantes seront étudiées. Cette identification est en partie déjà effectuée, mais de nouvelles pistes pourront être explorées. Les informations disponibles a priori seront utilisées à la fois pour alimenter le modèle et piloter son fonctionnement.

2.1 État des usages
Comme il a été dit précédemment, le besoin initial pour la structuration des flux télévisuels est celui lié à l'activité de documentation dans le cadre du dépôt légal de la télévision. Il s'agit donc pour cet usage d'être capable de repérer les unités devant faire l'objet d'une documentation.

Le flux capté est une composition de divers éléments : émissions complètes diffusées sans interruption (exemple : l'émission « l'heure de vérité » du xx/xx/xx), émissions diffusées avec des interruptions, publicités, autopromotion, interprogrammes, épisodes d'une série d'émissions, émissions appartenant à une collection, etc. Néanmoins, les segments susceptibles d'être documentés n'appartiennent pas forcément uniquement à ce niveau. Des segments des niveaux suivants peuvent par exemple également être documentés :



  • le niveau « saison » caractérisé par la grille de programmes en vigueur sur cette saison ;

  • le niveau « journée de diffusion » ;

  • le niveau « tranche horaire » ;

  • le niveau « programme » qui, comme nous l'avons vu, ne correspond pas nécessairement à un segment contigu, mais peut avoir été interrompu par divers éléments ; il correspond plutôt en réalité à une unité de production ;

  • le niveau « interprogramme » ;

  • les éléments de structure (souvent appelées « séquences ») des programmes eux-mêmes dans des émissions composites ou fortement structurées, comme par exemple :

      • les plateaux / reportages / interviews des journaux télévisés ;

      • les interventions des invités dans un grand nombre de programmes à base de plateaux ;

      • les reportages dans différents types de programmes ;

      • les performances dans les programmes de variétés,

      • etc.

Le besoin supplémentaire pour la structuration des flux télévisuels est celui prescrit par les activités de manipulation de contenus : publication en ligne, vente d’extraits, thématisation, etc. Il s'agit dans ce cas d'offrir la structuration nécessaire aux manipulations des contenus dans des activités de publication de ces contenus. Des niveaux de complexité très différents sont envisageables, il peut s'agir, par exemple :

  • d'être capable de reconstituer intégralement et « proprement » un programme à partir du flux de diffusion, sachant qu'il a pu être interrompu par des publicités et subir un début et une fin en fondu enchaîné ;

  • d'isoler un reportage au sein d'un journal télévisé ;

  • de synthétiser toutes les interventions d'un invité dans un talk show comportant plusieurs invités ;

  • de naviguer dans un documentaire à base d'interviews par sa table des matières ;

  • de publier des offres d'extraits thématiques d'une archive généraliste telle que celle de l'INA.

Un des objectifs du projet sera donc de proposer une modélisation des structures des flux sur laquelle pourront s'appuyer les applications de documentation et de navigation. Les modèles génériques (modèles de documents, modèles de média, modèles temporels, modèles structurels) sur lesquels doit s'appuyer cette modélisation sont relativement bien connus et maîtrisés par les équipes présentes dans le projet. Ces aspects ne feront donc pas l'objet de nouvelles recherches. Par contre, les modèles spécifiques dont des exemples viennent d'être donnés devront être développés de façon à répondre aux besoins du projet. Ces modèles seront l'articulation entre la partie « analyse » et la partie « usage » du projet.
2.2 Un modèle général de combinaison
Deux stratégies de fusion d'informations sont généralement opposées : intégration précoce d'une part et tardive d'autre part. Dans l'intégration tardive, l'opération de fusion s'appuie sur des décisions partielles prises indépendamment dans chacune des modalités présentes. Bien que l'intégration tardive soit un candidat de choix pour traiter des données hétérogènes, dans la mesure où les décisions partielles sont, par nature, plus homogènes qu'une description bas-niveau de chacun des flux, il nous parait important de baser le processus de structuration sur l'ensemble des informations plutôt que sur un ensemble de décisions partielles. De plus, ce schéma d’intégration cumule les erreurs des différentes décisions partielles. À l’opposé, l'intégration précoce présente plusieurs inconvénients, notamment celui de la réduction de l'information disponible en essayant d'établir une représentation unique de l'ensemble des flux d'informations dans un espace commun. Il n'est donc pas possible de traiter par cette approche des données de natures trop différentes.

Afin de pallier aux problèmes respectifs des deux approches mentionnées, nous proposons de développer un cadre permettant une analyse des flux de données basée sur la modélisation conjointe des différentes sources d'informations. Un tel modèle vise à intégrer au mieux toutes les informations disponibles pour mener la tâche visée à bien. En particulier, un des points importants est la possibilité de prendre en compte au sein du modèle des flux d'informations ayant des résolutions temporelles différentes. Par exemple, cette différence de résolution temporelle apparaît très clairement entre des descripteurs issus d'un flux vidéo à 25 Hz et des descripteurs audio dont la résolution est typiquement 100 Hz. Par ailleurs, notons que cet échantillonnage peut être irrégulier comme c'est le cas, par exemple, pour des flux textuels. Enfin, le modèle doit permettre d’exploiter aisément les informations a priori disponibles comme la grille des programmes.

L'approche proposée se base sur une extension du formalisme des modèles de Markov cachés (MMC) en introduisant la notion de trajectoires multiples. Cette approche combine les avantages d'une approche par MMC multi-flux [21] avec ceux d'une approche par modèle de trajectoire ou modèles segmentaux [22]. Ces derniers modèles, introduits en traitement automatique de la parole, associent à un état de la chaîne de Markov non plus une seule observation mais un segment contenant une séquence d’observations. Nous proposons d’étendre ce formalisme afin d'associer un ensemble de segments de longueur et de résolution temporelle différentes à chaque état du MMC. Une telle approche doit non seulement permettre une modélisation conjointe des différentes sources d'information à notre disposition mais permet également d'intégrer des connaissances de haut niveau quant à la tâche à effectuer, notamment au niveau de la structure des MMC. Une première approche du formalisme à base de modèles à trajectoires multiples a été proposée dans le cadre de la thèse de Ewa Kijak (thèse Thomson/IRISA, TEXMEX) et expérimentée sur une tâche de structuration vidéo sur la base des images et du son.

Dans ce projet, nous envisageons d'approfondir ce cadre théorique pour prendre en compte de nouvelles sources d'informations (texte, métadonnées, etc.) ainsi que les contraintes et spécificités de la tâche de structuration envisagée. Le travail consiste donc à étayer le formalisme des modèles de trajectoires multiples pour y inclure de nouvelles informations, à étudier comment cette approche se combine avec les tâches de structuration envisagées et à développer les algorithmes appropriés à la structuration. Soulignons que ce travail de modélisation s'accompagne nécessairement de travaux concernant la représentation des flux de données et l'extraction d'information de chacun des flux.


2.3 Les composantes élémentaires
Le son
En matière de description de la bande sonore, quatre modules seront utilisés, correspondant à quatre fonctions d’analyse sonore élémentaire. Le projet s’appuiera sur les modules développés par l’équipe METISS dans le cadre de précédents travaux.

La première fonction consiste à détecter des plages sonores homogènes, permettant ainsi de réaliser une segmentation de la bande sonore qui est un prétraitement indispensable pour certaines applications telles que la transcription. Les techniques mises en œuvre pour cette tâche sont typiquement des algorithmes de détection de ruptures à l'aide d'un critère d'information bayésien.

La deuxième fonction vise à déterminer si un événement sonore donné et connu est présent dans un document ou dans un plage sonore donnée. Dans ce domaine, les méthodes proposées se basent principalement sur l'utilisation de tests binaires d'hypothèses avec une modélisation par mélange de gaussiennes de la distribution des descripteurs audio. La domaine d'application privilégié pour cette tâche est très certainement la vérification vocale d'identité qui consiste à déterminer si un locuteur donné est présent dans un document ou pas

La troisième fonction consiste à segmenter et à détecter une ou plusieurs classes de son données dans un document. Deux approches sont possibles pour traiter ce problème. La première consiste à segmenter le document sonore en plages homogènes et à caractériser le contenu de chacune des plages homogènes à l'aide d'une méthode de détection de classe sonore. La seconde approche, très largement utilisée, se base sur l'utilisation d'un modèle de Markov caché dans lequel chaque état correspond à une classe sonore, elle-même modélisée par un mélange de gaussiennes.

Enfin, un module de transcription de la parole, basé sur une approche combinant modèles statistiques de langage et modèles de Markov cachés pour la modélisation acoustique, sera utilisé. L'amélioration des systèmes de transcription n'entre pas dans le cadre du projet et l’on se contentera d’adapter le module existant aux données à traiter. À l’inverse, l’interaction entre ce module et les autres médias, en particulier avec les techniques de traitement automatique des langues, sera étudié.
La vidéo
En matière de description de la vidéo, nous réutiliserons des modules développés dans le cadre de divers autres contrats (PRIAM Médiaworks, RNRT AGIR, RIAM FERIA…) Comme pour le son, le but du présent projet n’est pas de travailler à l’amélioration de ces modules, mais de les placer dans un cadre plus général, et d’étudier leurs interactions.

Un premier module, reposant sur l'analyse du mouvement de caméra, aura pour but de détecter les transitions, de segmenter et caractériser les plans. Le découpage en plans est réalisé en analysant les variations du mouvement de la caméra ou les variations de contenu d'une image à l'autre à partir de descripteurs basés « images fixes ». Les paramètres estimés du mouvement de caméra peuvent être utilisés pour typer les segments vidéo ou unités temporelles ainsi déterminés (travelling, changements de plans, zoom). On peut extraire un nombre réduit d'images représentatives (images clés) du flux vidéo, pour représenter au mieux le contenu de chacun de ces segments. Ces dernières permettent de construire des résumés iconiques de la vidéo et d'y définir des points d'entrée.

Un second ensemble de fonctionnalités concerne le calcul de descripteurs pour les diverses plages temporelles issues de la segmentation. En matière de vidéo, les éléments les plus intéressants sont la détection et la reconnaissance des visages, la détection et la reconnaissance du texte incrusté (nom des personnes interviewées par exemple) ainsi que la détection d’éléments particuliers comme les logos. L’ensemble de ces fonctionnalités est développé dans le cadre du projet RIAM FERIA et nous les reprendrons donc directement.
Le texte

L'utilisation de données textuelles se révèle en routine indispensable à la documentation et à l'exploitation des documents audiovisuels. Ces données textuelles sont diverses par leurs contenus et leurs origines. Elles peuvent être professionnelles (thésaurus, conducteurs d'émissions, etc.) ou non (ontologies propres à certains domaines, corpus d'articles de journaux), issues du flux audiovisuel (texte incrusté, transcription de la parole) ou externes à celui-ci (programmes électroniques).

Nous proposons d’utiliser principalement deux sources de texte : la transcription de la bande sonore sera fournie à un module de thématisation dont le but est de repérer les changements de thèmes dans le texte et de caractériser le thème de chaque segment homogène, information qui pourra être utilisée pour segmenter le flux. Les outils dont nous disposons n’ont pas été conçus dans ce cadre où les textes sont fortement dégradés (textes agrammaticaux, pas de ponctuation ni structure, onomatopées, noms propres non reconnus…). Un important travail est donc à faire pour tester les outils actuels, les adapter et les rendre plus robustes pour pouvoir traiter de telles données, sachant qu’à l’inverse, la segmentation en thèmes peut tirer profit d’indices extraits de la bande son ou vidéo. Ce travail est suffisamment important pour justifier une thèse qui y soit entièrement consacrée.

Nous proposons aussi d’étudier une deuxième approche qui part du constat suivant. On dispose dans un certain nombre de cas et plus particulièrement dans celui de l'actualité, d'informations textuelles venant compléter les documents audiovisuels : articles de journaux, dépêches d'agence par exemple. Ces informations peuvent être exploitées pour aider à la structuration d'un ensemble de documents audiovisuels. Des outils de traitement automatique des langues peuvent être mobilisés pour extraire une structuration thématique d'un corpus de textes afférents à un corpus audiovisuel. Cette structuration thématique pourra alors être liée temporellement au corpus audiovisuel par l'intermédiaire d'une analyse textuelle de la transcription de la bande son.


Combinaisons entre modules
La fusion entre informations issues de modalités différentes est au cœur du projet. Celle-ci sera étudiée selon deux axes de travail. Les modèles stochastiques fournissent un cadre général pour intégrer les informations. Leur utilisation est écrite au paragraphe 2.2. À côté de ce cadre général, des coopérations plus spécifiques entre applications sont intéressantes.

Deux cas se présentent. Tout d’abord celui où une fusion des informations de bas niveau issues de deux médias peut permettre une meilleure décision. C’est le cas de la reconnaissance couplée locuteur / visages, la personne dont on entend la voix étant présente à l’écran la plupart du temps. Un cadre bayésien doit permettre d’intégrer de telles informations, en particulier en modifiant les a priori. Notons que dans ce cas, les modules de traitement de chaque média ne sont pas affectés. Il n’y a pour le moment guère de possibilités de modifier un détecteur de visages pour y intégrer une information sonore.

Un deuxième cas est celui où les informations issues d’autres médias peuvent être utilisées au sein même d’un module. C’est le cas des modules de segmentation sonores et textuels qui ont besoin de disposer d’une échelle à laquelle ils doivent rechercher des ruptures. La fourniture d’une telle information, issue par exemple de la segmentation de la vidéo en plans pour la segmentation sonore, par la segmentation sonore pour la thématisation, peut permettre un meilleur lissage des résultats et ensuite une fusion plus facile par le modèle stochastique.

2.4 Pilotage du modèle et informations a priori
Le problème de la structuration automatique des flux télévisuels sera abordé en adoptant une démarche descendante qui va de la modélisation des flux à analyser aux outils de traitement de signal à mettre en œuvre. Les différentes étapes de ce processus sont les suivantes :


  1. modélisation du flux à structurer. Cela peut par exemple être la grille des émissions prévues, en y incluant des informations connues à l’avance et dont la détection permettra de structurer le flux : exemples de jingles sonores, de visages de présentateurs, échantillons de voix, génériques, etc.

  2. modélisation des traitements à effectuer. Il s’agit de piloter intelligemment les outils d’analyse de manière : a) à éviter des calculs inutiles (traitements coûteux sur des plages de publicité qui seront ignorées par la suite, par exemple) et b) à pouvoir fusionner les descripteurs afin d’améliorer les taux de confiance des résultats et d’obtenir des descripteurs plus informatifs.

  3. instanciation de ce modèle dans un système effectif.

Idéalement, on pourrait imaginer un passage automatique du modèle de flux décrit en 1) au modèle de traitement décrit en 2), ce qui pourra être envisagé ultérieurement et indépendamment. Mais dans un premier temps, il semble plus raisonnable de permettre une description manuelle de ces traitements, telle que : « lancer la transcription de la parole sur les séquences situées entre deux séquences plateau » à l’aide d’un langage déclaratif et contextuel à la description du flux. Un effort important sera fait sur la déclarativité et la souplesse du langage de modélisation (flux et traitement). L’objectif est de permettre de traiter facilement de nouveaux types de grilles, de nouvelles collections de documents, etc… mais aussi de prendre en compte des nouvelles actions (de nouveaux descripteurs) implémentés a posteriori ou définis par l’utilisateur même. Interprétable par la machine, ce langage doit être suffisamment simple pour qu’il puisse être intelligible par des personnes non initiées.

Pour le point 3), il est envisagé d’étendre un système existant de raisonnement de manière à pouvoir exécuter les outils d’extraction lorsque nécessaire, en cours de résolution. Plusieurs systèmes sont envisageables et le choix n’a pas encore été effectué : système de résolution de contraintes, systèmes à base de règles, systèmes d’inférence logique, grammaires. Ce système devra permettre aussi de procéder à un ordonnancement des extractions en prenant en compte par exemple la confiance qu’on peut accorder à un extracteur ou celle qu’on peut accorder à une combinaison de ceux-ci.



2.5 Contexte expérimental et évaluation
La structuration automatique des flux télévisuels ne trouve sa pleine mesure que dans un environnement où captation, description, archivage, exploitation et diffusion sont des processus entièrement intégrés. La structuration des flux est une tâche nécessaire à cette intégration et elle ne peut être réellement validée que dans un contexte qui n’existe pas encore.

Le contexte expérimental sera celui de l’INA, qui fournira les corpus dans les volumes suffisants. Les expérimentations se feront dans un premier temps dans des conditions « in vitro » mais reconstituant un environnement réaliste des contraintes applicatives rencontrées à l'INA, notamment en termes de volumes et de capacités de traitement. En cas de résultats suffisamment encourageants, ces expérimentations pourront déboucher sur des expérimentations « in vivo » installées sur les lieux de production.

Différents types d’évaluations seront menés. En premier lieu, une comparaison qualitative sera effectuée avec le travail des documentalistes actuellement chargées de reconstituer les grilles de diffusion réelles à partir des prévisions des diffuseurs et des flux effectivement enregistrés. Cette évaluation devra évaluer l’intérêt de ce qu’apporte la structuration automatique en plus du simple recalage des grilles effectué actuellement, par exemple sur la hiérarchisation des éléments, la précision temporelle, le repérage des éléments d’inter programme (publicité, autopromotion, annonces), la systématicité de l’analyse…

Une enquête, également qualitative, sera menée sur les possibilités d’intégration des outils de structuration développés dans le « workflow » de l’INA, dont ils pourraient devenir la base sur laquelle le reste s’appuierait. En effet, l’activité de structuration est le préalable nécessaire à toutes les actions ensuite effectuées sur les contenus, qu’il s’agisse de documentation, de recherche, de navigation, de publication, de communication ou de production. L’objectif de cette évaluation est de savoir si le modèle choisi permet de produire toutes les informations nécessaires aux futures activités de l’INA.

Enfin, un minimum d’évaluation quantitative semble nécessaire. Le projet tentera de définir ce qu’est une vérité de terrain pour un outil de structuration du flux télévisuel et construira alors des vérités de terrain pour une partie des corpus avec des outils développés pour l’occasion, puis définira leur mode de confrontation avec les résultats des outils. La principale difficulté de cette tâche réside dans le passage d’un mode de repérage purement temporel des éléments (c’est alors de la segmentation) à un mode de représentation structurel, ce qui fait qu’on ne peut pas se contenter d’étudier l’exactitude des bornes temporelles.

2.6 Apport des partenaires
Équipe TEXMEX
L'équipe TEXMEX est un projet commun au CNRS, à l'université de Rennes 1 et à l'INRIA. Elle vise à regrouper au sein d'une même équipe des spécialistes de divers domaines concernés par l'exploitation des grandes collections de documents multimédias numériques : traitement des images et des langues, statistiques, bases de données. La présence à l'IRISA d'une équipe spécialisée en son et parole nous a mené à choisir de ne pas traiter ce thème en interne à l'équipe, mais plutôt de vouloir monter une collaboration proche entre les deux équipes.

L'équipe s'est fixée trois objectifs. Nous travaillons tout d'abord sur les systèmes d'indexation et de recherche d'images ; nous travaillons tant sur divers composants de ces systèmes, que sur l'interaction entre ces composants et leurs contraintes propres : calcul des descripteurs, algorithmes d'indexation et de recherche, gestion de la mémoire et des caches, supports matériels spécialisés. Un deuxième axe de recherche concerne l'ajout de ressources linguistiques aux moteurs de recherche textuels pour en améliorer les performances. Ce travail oblige à s'intéresser aux ressources linguistiques nécessaires et à leur acquisition, mais aussi à leur utilisation possible au sein des moteurs de recherche, ce qui remet en cause l'utilisation directe du modèle vectoriel de recherche d'information. Le troisième objectif est l'étude du couplage entre médias pour la description des documents multimédias. Les couplages texte – image et vidéo – son sont les premiers sur lesquels nous travaillons. Le présent projet vise à renforcer et développer cet axe.

En ce qui concerne ce dernier axe, nous profitons de l’expérience acquise au cours de la thèse de Ewa Kijak sur la structuration des vidéos de tennis, thèse qui s’est déroulée en collaboration avec Thomson et l’équipe METISS. Cette thèse, basée sur l’utilisation de modèles de Markov hiérarchiques, en a montré l’intérêt, a mis aussi les limites et a débouché sur la proposition d’utiliser les modèles de segments. Nous avons repris cette idée, et l'étude théorique des modèles de segments fait l’objet de la thèse de Manolis Delakis qui a débuté à l’automne en collaboration avec l’équipe METISS.

Nous avons participé à de nombreux projets sur la description de vidéos (PRIAM Médiaworks, RNRT AGIR, RIAM FERIA), projets dans lesquels nous avons plus spécifiquement travaillé sur les modules de traitement de la vidéo (détection et reconnaissance de visages, détection de texte et de logos, reconnaissance d’objets, segmentation au sens du mouvement et calcul d’images clés…). Les compétences de l’équipe concernent donc tant la description des vidéos et le traitement automatique des langues, que l’utilisation conjointe de plusieurs médias.


Équipe METISS
L'équipe Modélisation et Expérimentation pour le Traitement des Informations et des Signaux Sonores (METISS) de l'Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA) possède une solide expérience dans les domaines de l’extraction et de la modélisation d’informations sonores.

En particulier, l’équipe possède une solide compétence en matière de segmentation de documents sonores, de suivi d’événements sonores et de reconnaissance du locuteur, comme en atteste son implication dans de nombreux projets français (AGIR, DiVAN, Domus Videum, Alize) et européens (CAVE, PICASSO). METISS participe depuis de nombreuses années aux campagnes d’évaluations organisées par le National Institute of Standards and Technolgy (NIST) en reconnaissance du locuteur, ce qui lui permet de disposer d’une connaissance approfondie du domaine. Les récents travaux menés dans le cadre du projet Domus Videum ont permis à METISS de développer une expertise concernant l’extraction d’information dans les bandes sons de vidéos et l’intégration de ces informations dans un processus de structuration. Ce travail d’intégration a été partiellement mené en collaboration avec l’équipe TEXMEX. Enfin, l’expérience des travaux précédents de Guillaume Gravier sur la reconnaissance de parole audiovisuelle sera également un élément déterminant dans la définition d’un modèle pour une approche multimédia intégrée.

L’équipe METISS possède également un savoir faire en matière d’indexation d’informations radiodiffusées avec sa participation à la campagne d’évaluation ESTER (Évaluation des Systèmes de Transcription enrichie d’Émissions Radiophoniques) organisée dans le cadre du projet Technolangue EVALDA. Dans le cadre de cette campagne, METISS développe une plate-forme permettant la segmentation du flux radio en tour de parole et en émission d’une part, ainsi que des indexations en locuteurs, en thèmes, en mots, etc. Le module de transcription de la plate-forme s’articule autour du logiciel de reconnaissance de la parole Sirocco, développé conjointement par l’IRISA et Télécom Paris (ENST).

Le projet Demi-Ton s’appuiera sur l’ensemble des outils d’analyse du signal développés par l’équipe METISS, notamment concernant la caractérisation du contenu de la bande son, la détection de rupture et la transcription automatique.



Équipe DCA
L'équipe de recherche Description des Contenus Audiovisuels (DCA) de l'Institut National de l’Audiovisuel (INA) positionne ses travaux sur les nouveaux moyens d'exploitation des contenus audiovisuels, que ce soit dans le cadre des activités d’exploitation commerciale des archives de l’INA sur la mise en place de nouveaux moyens d'exploitation des fonds et sur la manière de les mettre en œuvre (par exemple catalogue structuré en ligne, thématisation et organisation de l'offre), dans le cadre du dépôt légal audiovisuel, sur l'amélioration qualitative et quantitative du traitement du flux des documents entrant à l'INA (par exemple structuration automatique, assistance à l'indexation par des outils d'analyse automatique du flux audio/vidéo) ou sur la mise en place de nouveaux moyens d'accès aux archives (par exemple outils de navigation dans des collections de documents audiovisuels) et enfin dans le cadre de partenariats avec la communauté des professionnels de l’audiovisuel, par exemple sur l’industrialisation des moyens de production multi-plateformes..

Dans ce cadre d’applications, l’équipe DCA tente de mettre en place des moyens de manipulation des contenus audiovisuels par l'intermédiaire de la manipulation de leurs « descriptions » plutôt que par leur manipulation « directe ». Le programme de recherche de l’équipe est donc centré sur les descriptions des contenus audiovisuels et vise à étudier leur production, leur représentation et leur exploitation.

La structuration des flux audiovisuels est une des priorités actuelles de l’équipe qui possède pour cela une solide compétence dans des domaines clés. Sa situation à l’INA lui fournit un accès direct à toute l’information nécessaire pour établir ses connaissances sur les contenus télévisuels, sur les flux et sur les usages, ainsi que la possibilité d’expérimenter dans un environnement réaliste. L’équipe détient une compétence importante sur les langages de description de l’audiovisuel principalement par les travaux de Jean Carrive et la thèse de Gwendal Auffret (2001, UTC / INA) qui ont débouché sur plusieurs versions d’un langage de description nommé AEDI (Audiovisuel Event Description Interface), spécialement adapté aux besoins de description structurée ainsi que sur une influence de l’équipe sur le modèle de lien au média de la norme MPEG-7. De plus, l’équipe mène depuis 1998 des travaux sur diverses techniques d’analyse automatique centrés sur l’extraction de descripteurs de haut niveau et l’adaptation des méthodes aux tâches et aux contenus : thèse d’Emmanuel Veneau (2001, INA / IRISA) sur la macrosegmentation, thèse d’Alexandre Allauzen (2003, INA / LIMSI) sur l’adaptation des modèles de langage de transcription automatique de la parole, thèse de Rémi Landais sur l’extraction de textes incrustés (en cours, LIRIS / INA). Enfin, l’équipe possède également des compétences plus spécifiquement liées à la structuration automatique des flux par la thèse de Jean Carrive (2000, LIP-6 / Sony / INA) traitant de la modélisation de séquences et leur reconnaissance par résolution de contraintes, ainsi que par la thèse venant de débuter de Jean-Philippe Poli (LSIS / INA) centrée sur cette problématique.

L’équipe a également participe ou a participé à de nombreux projets européens (DiVAN, Diceman, Echo, Eurodelphes) et nationaux (AGIR, Chaperon, Domus Videum, FERIA) en rapport avec la problématique.



2.7 Apport de la collaboration
Le projet que nous proposons fait face a deux contraintes opposées : nous souhaitons une intégration forte des outils, des modèles, des concepts, et donc une collaboration proche entre équipes, ce qui nécessite un consortium réduit de partenaires fortement impliqués. Mais nous souhaitons aussi que notre travail puisse prendre en compte largement les sources d'informations possibles et donc les médias, de même que les utilisations possibles des descriptions obtenues. D'où la nécessité de compétences très variées. La composition actuelle nous paraît assez optimale, chaque partenaire apportant plusieurs compétences fortes et complémentaires, sans trop de redondance et avec une bonne habitude préalable de la collaboration dans divers projets. Nous souhaitons, à travers ce projet, renforcer cette collaboration.

Ce projet se place aussi dans le cadre plus général du rapprochement souhaité entre l’IRISA, les équipes de recherche de la direction de la recherche et de l'expérimentation de l'INA et Thomson. Ce rapprochement, en ce qui concerne le traitement, la structuration et l’indexation des documents multimédias et audiovisuels, va prendre la forme d’un GIS en cours de montage (GIS ÆTERNAM : analyse et exploitation, recherche et navigation dans les documents audiovisuels et multimédias). Le but de cette collaboration est de confronter, dans une structure permettant une collaboration étroite, les points de vue des utilisateurs de ces technologies, l’INA et la filiale Technicolor de Thomson en sont deux qui possèdent et traitent des quantités très importantes de documents, des industriels fournisseurs de technologie et de matériel, ce qui est la cas de Thomson et de sa filiale Grass Valley, et des scientifiques. Cette collaboration prendra la forme de recherches communes, de participation conjointe à des consortiums, d’échanges d’information, de code, de données, d’informations de veille scientifique ou technologique… Notre participation commune à divers projets sera intégrée à l’activité de ce GIS.

La présente proposition constitue l’un des axes de cette collaboration. Elle se situe sur un des thèmes importants de travail pour les trois équipes qui y participent, sans qu’aucune de ces équipes n’ait les moyens propres pour mener ce travail dans ces trois aspects : modules de traitements, modèle stochastique, intégration d’informations a priori. Elle représente donc un bon exemple du type de travaux que nous voudrions instancier au sein du GIS en cours de montage.

B3 – Résultats attendus :
Le résultat attendu du projet est un procédé de structuration automatique des flux télévisuels, ainsi que l’expérimentation de ce procédé sur des masses de données importantes.

En rentrant plus dans les détails, le premier résultat du projet sera une analyse des chaînes de traitements documentaires actuelles et des besoins devant être remplis par le résultat de la structuration automatique des flux à l’INA. Dans la mesure du possible, cette analyse sera étendue à des besoins d’autres organismes tels ceux évoqués ci-dessus. Cette analyse comportera également une description précise des données disponibles a priori (grilles prévisionnelles de programmes par exemple) ou de celles qui pourraient l’être de façon réaliste (par exemple, prototypes de jingles ou de séquences annonçant le début d’un programme). Le résultat de cette étude devrait être disponible à environ T0+6.

Un autre résultat du projet devra être la mise en place d’une chaîne de traitement spécifique à cette application, fournissant la capacité de stocker les volumes nécessaires sur des serveurs de contenus adaptés à l’analyse automatique, la capacité de traitement suffisante pour effectuer les traitements en un temps raisonnable, mais aussi les outils de visualisation nécessaire à l’appréhension des résultats. La chaîne de traitement devrait être disponible à environ T0 + 12.

De plus, des corpus seront constitués pour les expérimentations. Les volumes envisagés sont d’environ 2 à 3 semaines par flux pour environ 2 à 5 chaînes de télévision, soit au maximum 15 semaines de programmes correspondant à plus de 2 500 heures. A titre d’indication, le stockage nécessaire pour l’ensemble est de 1,7 To en MPEG-1 à 1,5 Mb/s et de 9 To en MPEG-2 à 8 Mb/s. Le corpus complet sera constitué au fur et à mesure du projet, mais plusieurs semaines de flux pourront être mise à disposition du projet dès T0 + 3.

Une étude sera menée afin d’essayer de savoir comment constituer une vérité de terrain pour une telle recherche et comment les résultats de la structuration automatique peuvent être confrontés à cette vérité de terrain. Le projet développera un outil permettant de constituer une vérité de terrain et en construira pour un volume qui reste à déterminer. L’ensemble devrait être disponible à T0 + 12.

Bien entendu, le modèle général de fusion des informations issues des diverses modalités constitue le principal espoir de résultat de ce projet. Ce modèle sera piloté par un système de pilotage mobilisant des connaissances sur les flux à structurer et sur les traitements à effectuer. Du fait des travaux de thèse déjà engagés à l’IRISA et à l’INA, les premiers résultats tangibles sur ces aspects sont attendus à T0 + 18 et continueront à être développés sur le reste de la durée.

De plus, plusieurs études particulières seront menées sur certains outils d’analyse entrant dans la chaîne de façon à ce qu’ils soient adaptés à cette tâche particulière.

Enfin, des expérimentations et des évaluations seront effectuées. Celles-ci seront de deux ordres : des expérimentations sur la qualité de la structuration obtenue et des expérimentations sur son utilisabilité dans les contextes applicatifs envisagés. Dans un premier temps, le modèle développé pour la confrontation des structures extraites aux vérités de terrain sera mis en œuvre afin d'évaluer les outils d'extraction. Ces premières évaluations globales devraient pouvoir démarrer à environ T0 + 24. Dans un second temps, vers T0 + 30, des expérimentations d'usage seront menées dont l'objectif sera de confronter les structures extraites aux usages pour lesquels elles ont été prévues. Des interfaces utilisateurs seront développées dans l'objectif de permettre à un utilisateur de vérifier la validité des descripteurs extrait et éventuellement de les corriger, puis de les exploiter pour une tâche de description ou de publication.



Le succès du projet mènera à un renouvellement complet du traitement des grands flux de télévision et de vidéos. Il consacrera la nécessité et l'apport d'approches prenant tous les médias en même temps, et élargira le champ d'application des techniques de description automatique de la vidéo, tout en permettant à ces techniques de passer le cap de l'expérimentation sur de petits exemples d'école au traitement des grands volumes de données.

Bibliographie
[1] B. Furht, S.W. Smoliar, and H-J. Zhang. Video and Image Processing in Multimedia Systems. Kluwer Academic Publishers, Norwell, USA, 2th edition, 1996.
[2] A. Hanjalic, G.C. Langelaar, P.M.B. van Roosmalen, J. Biemond, and R.L. Lagendijk. Image and Video Databases: Restoration, Watermarking and Retrieval. Elsevier Science, Amsterdam, The Netherlands, 2000.
[3] R.M. Bolle, B.-L. Yeo, and M.M. Yeung. Video query: Research directions. IBM Journal of Research and Development, 42(2):233-252, 1998.
[4] R. Brunelli, O. Milch and C.M. Modena. A survey on the automatic indexing of video data. Journal of Visual Communication and Image Representation, 10(2):78-112, 1999.
[5] P. Bouthemy, M. Gelcon, F. Ganansia. A Unified Approach to Shot Change Detection and Camera Motion Characterization. IEEE Trans. On Circuits and Video Technology 9, 7, octobre 1999, p. 1030-1044.
[6] N. Boujemaa, S. Boughorbel, C. Vertan. Soft Color Signature for Image Retrieval by Content. Eusflat'2001,2, p.394-401, 2001.
[7] R. Fablet. Modélisation statistique non paramétrique et reconnaissance du mouvement dans des séquences d'images : application à l'indexation vidéo. Thèse de doctorat, Université de Rennes 1, juillet 2001.
[8] C. Schmid, R. Mohr. Local Grayvalue Invariants for Image Retrieval. IEEE Trans, on Pattern Analysis and Machine Intelligence 19, 5, mai 1997, p. 530-534.
[9] C. Garcia, M. Delakis, A Neural Architecture for Fast and Robust Face Detection", Proceedings of the IEEE-IAPR International Conference on Pattern Recognition (ICPR'02), Août 2002, Quebec city, Canada.
[10] C. Garcia, G. Zikos, G. Tziritas, Wavelet Packet Analysis for Face Recognition, Image and Vision Computing, 18(4), Février 2000, p.289-297.
[11] C. Garcia, X. Apostolidis, Text Detection and Segmentation in Complex Color Images, Proceedings of 2000 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2000), Juin 2000, Istanbul, Vol. IV, p. 2326-2330.
[12] A.A. Alatan, A.N. Akansu, and W. Wolf. Multimodal dialogue scene detection using hidden markov models for content-based multimedia indexing. Multimedia Tools and Applications, 14(2):137-151,2001.
[13] N. Babaguchi, Y. Kawai, and T. Kitahashi. Event based indexing of broadcasted video by intermodal collaboration. Graphical models and image processing, 60(1):13-23, 1998.
[14] Convera. http://www.convera.com
[15] J. Huang, Z. Liu, Y. Wang, Y. Chen, and E.K. Wong. Integration of multimodal features for video scene classification based on HMM. IEEE Workshop on Multimedia Signal Processing, Copenhagen, Denmark, 1999.
[16] R. Jain and A.G. Hampapur. Metadata in video databases. ACM SIGMOID, 23(4):27-33, 1994.
[17] S. Tsekeridou and I. Pitas. Content-based video parsing and indexing based on audio-visual interaction. IEEE Transactions on Circuits and Systems for Video Technology, 11(4):522-535, 2001.
[18] S. Satoh, Y. Nakamura, and T. Kanade. Name-It: Naming and detecting faces in news videos. IEEE Multimedia, 6(1):22-35, 1999.
[19] J. Pearl. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. Morgan Kaufmann, San Mateo, USA, 1998.
[20] E. Kijak, G. Gravier, L. Oisel and P. Gros. Audiovisual Integration for Tennis Broadcast Structuring, Intl. Workshop on Content Based Multimedia Indexing, 2003.
[21] H. Bourlard, S. Dupont and C. Ris. Multi-stream speech recognition, Research Report RR 96-07, IDIAP, 1996.
[22] Vassilios Digalakis. Segment-based stochastic models of spectral dynamics for continuous speech recognition. Ph. D. Thesis, Boston University, 1992.

C – Moyens financiers et humains demandés par chaque équipe9

Comme indiqué dans les tableaux ci-dessous, on distinguera

- les financements via le Fonds National pour la Science qui peuvent inclure

* du fonctionnement

* de l’équipement

* des mois de personnel temporaire (CDD) pour un montant ne pouvant excéder 50% du financement total attribué. La durée du ou des contrat(s) prévus, qui ne peuvent excéder 24 mois chacun, sera précisée.



- les moyens demandés aux organismes de recherche qui peuvent inclure

* des postes de post-doc

* des demandes de délégation ou détachement pour des enseignants-chercheurs

* des accueils de chercheurs étrangers

- les demandes d’allocations de recherche
Les diverses possibilités concernant l’attribution de moyens pour recruter ou accueillir des personnels seront globalement très limitées pour l’ensemble des ACI. Leurs demandes devront donc être particulièrement justifiées. Si les bénéficiaires de ces demandes sont connus ou pressentis, les CV correspondants seront joints à la présente demande.

On présentera une justification scientifique des moyens demandés pour chacune des équipes impliquées dans le projet.

Yüklə 336,74 Kb.

Dostları ilə paylaş:
1   2   3   4   5   6   7   8




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©muhaz.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin