Projets concernés
Nationaux : Quaero, Disco, Sample Orchestrator (SOR), Ecoute, MusicDiscover ; FP7 ICT : 3DTVS, MiReS
Collaborations industrielles : Dalet, Orange, Exalead, Kelis, MakeMusic, WMI
Les activités relatives à l'indexation audio/musique se sont fortement développées pendant la période considérée. Ceci est en partie dû au démarrage du projet Quaero financé par l'Oseo dans lequel l'Ircam coordonne les activités relatives à l'indexation musicale (recherche, création de corpus, intégration). Ce projet a permis d'asseoir cette thématique à l'Ircam à travers ces différentes composantes : recherche, évaluation / constitution de corpus et développement / intégration. Durant cette période, nous avons également participé à de nombreux autres projets : ACI Masse de données "Music Discover" (développement d'interface de navigation basé sur le contenu), RIAM Ecoute (indexation musicale et segmentation parole/musique), ANR Sample Orchestrator (indexation des échantillons audio), ANR MDCO DISCO (passage à l'échelle des recherches par similarité) et participons au projet européen MIReS (création d'une feuille de route pour l'indexation musicale). Nous résumons ces évolutions depuis janvier 2007.
Les recherches relatives à l'indexation audio s'articulent autour de deux grandes thématiques reposant sur des techniques différentes : (a) estimation de paramètres musicaux variables en temps (b) estimation de paramètres globaux à un morceau de musique. L'étude de ces différentes facettes vise à fournir une description complète du contenu audio.
Dans la première thématique, nous avons étudié de nouveaux algorithmes pour :
− l'estimation du tempo (approche supervisée et non supervisée de création gabarits spectraux représentant les différents patterns rythmiques possibles [Peeters11c], estimation par régression GMM [1]),
− l'estimation de la position des battements et des premiers temps (modèle de Markov inversé dans lequel le temps est la variable cachée, utilisant des observations de type énergie, variation temporelle des chromas et balances spectrales [Peeters11a]),
− l'estimation de la suite temporelle d'accords et de la tonalité locale (modèle de Markov à états-doubles reposant sur des règles de transition dérivé de la théorie musical permettant le décodage simultané des accords, du premier temps et de la tonalité locale ; [Papadopoulos10a] [Papadopoulos11a]),
− de localisation et caractérisation des segments de voix chantés (description du signal par paramètres intonatifs — vibrato, tremolo, portamento — combinés à une description du spectre par true-envelope [Regnier12b]),
− pour l'estimation de la structure musicale d'un morceau (utilisation de matrices de similarité d'ordre supérieurs et estimation par approche maximum de vraisemblance [Peeters07c]).
Dans la deuxième thématique, nous avons étudié :
− le développement de nouveaux descripteurs audio (pour la description du timbre [Peeters11d], de la morphologie des sons [Peeters10a], de la "production studio" d'un morceau [Tardieu11a]),
− de nouveaux algorithmes pour la classification et la segmentation automatique (développement d'un algorithme générique basé sur la sélection automatique des meilleurs descripteurs [Peeters07b], subdivision des problèmes de classification en sous-problèmes binaires résolus par SVM [Burred09b]), ces algorithmes sont ensuite utilisés pour segmenter automatiquement un flux audio en parole / musique, segments chantés / instrumentaux ou fournir un (ou plusieurs) label(s) de type genre, humeur, instrumentation,
− de nouveaux algorithmes pour la recherche par similarité acoustique (modélisation des descripteurs par technique « Super Vector » [Charbuillet11a]),
− de nouveaux algorithmes permettant le passage à l'échelle des recherches par similarité (transformation des distances afin de palier l'absence d'inégalité triangulaire [Charbuillet10a]),
− de nouveaux algorithmes pour l'identification audio par technique de type “fingerprint” (utilisation de descripteurs de type “spectre de modulation”, synchronisation des codes par détection d'onsets [Ramona11c]).
L'évaluation a une place prédominante dans l'indexation musicale et pour cela nous participons régulièrement aux campagnes d'évaluation internationale MIREX. Afin de palier les défauts méthodologiques de MIREX, nous avons initié la création des campagnes d'évaluation internes du projet Quaero. Pour ces campagnes, nous avons proposé des frameworks d'évaluation [Ramona11b] ainsi que des corpus annotés. Depuis 2009, nous avons effectué un travail important dans le domaine de création de corpus annotés, tant concernant la création/validation de concepts d'annotation pour la musique [Peeters09c], la description du contenu de ces corpus [Peeters12a], que la création même (une base de 8000 titres musicaux annotés a ainsi été crées). Afin de permettre une pérennisation de ces travaux au delà du projet Quaero, l'Ircam a commencé cette année à s'impliquer dans l'organisation de tâches musiques dans les campagnes Media-Eval [Orio12b].
Les méthodes proposées testées positivement lors des évaluations ont ensuite été développées en C++. Ceci a donné naissance à la série de logiciels : ircamclassification, ircambeat, ircamchord, ircamstructure, ircamdescriptor. Certains de ces logiciels sont ensuite intégrés dans des applications spécialisées (ircambeat intégré dans AudioSculpt ou prochainement dans la plate-forme de montage vidéo de Stupeflix), ou publiques comme le moteur de recherche musicale MSSE d'Orange [Peeters12b], ou MUMA d'Exalead [Lenoir11a].
Dostları ilə paylaş: |