2.10.1.1Suivi et reconnaissance de morphologies sonores et gestuelles
Le suivi de gestes permet de synchroniser des médias numériques lors de performances instrumentales ou dansées. Ce type d’application est complémentaire au suivi de partition. Contrairement au suivi de partition, le suivi de geste n’est pas déterminé à partir d’une partition symbolique mais à partir d’exemples enregistrés de gestes continus. Ce système intègre directement la possibilité d’effectuer non seulement du « suivi » mais également de la « reconnaissance de gestes » sur la base d’un lexique défini par des exemples choisis par l’utilisateur.
Le système développé, basé sur des Modèles de Markov Cachés, permet de généraliser les notions de « geste » en s’appliquant à tout profil temporel provenant de capteurs ou de descripteurs sonores [Bevilacqua07a, 09a, 11b]. Dans le cas de descripteurs sonores, le « geste » correspond donc à des profils temporels de paramètres déterminés à partir du flux audio. Par exemple, un suivi de voix a été réalisé récemment en utilisant des coefficients mfcc et semble très prometteur.
Depuis 2007, cet axe de recherche s’est considérablement étendu. Le développement d’une version entièrement nouvelle a favorisé un nombre croissant d’expérimentations. Ces travaux ont été réalisés en partie dans les projets de recherche européens i-Maestro et SAME et les projets ANR EarToy et Interlude. De plus, un effort de publication a été fourni, assurant désormais une meilleure visibilité de ce travail. Cette recherche a également été valorisée dans des productions artistiques comme le quatuor augmenté [Bevilacqua12a], des installations interactives [Bevilacqua10b] et dans un DVD interactif [Bevilacqua07b].
Des extensions de ce système ont fait l’objet de plusieurs thèses. Baptiste Caramiaux a démontré la pertinence du filtrage particulaire comme méthode d’inférence, permettant une adaptation continue de paramètres comme l’orientation et l’amplitude du geste. Jules Françoise généralise également le suivi de geste en travaillant actuellement sur une structuration hiérarchique de Modèles de Markov [Françoise12a].
Bruno Zamborlin (en collaboration avec Goldsmiths University of London) poursuit un travail sur le suivi de gestes, notamment dans le de gestes captés avec des micros de contacts (prototype appelé Mogees).
Plus spécifiquement sur les morphologies temporelles sonores, la thèse de Julien Bloit concernait la modélisation et la reconnaissance d'événements musicaux en temps réel dans un flux audio. Dans une première partie de sa thèse, un algorithme appelé Short-time Viterbi a été proposé pour effectuer, avec une latence minimale, un décodage optimal de modèles de Markov Cachés (HMM). Les performances de cette approche ont été étudiées sur une tâche de segmentation en phonèmes de la voix parlée [Bloit08a]. Nous avons montré, en collaboration avec l’équipe analyse synthèse, qu’il était possible de reconnaître les phonèmes de manière quasi synchrone, avec une latence de l’ordre de la durée du phonème.
Un autre résultat important de cette thèse a concerné une modélisation de l’évolution temporelle de descripteurs en utilisant des modèles de Markov cachés segmentaux [Bloit09a, 10a]. L’intérêt réside dans le fait que ces modèles permettent de segmenter une courbe de descripteurs en unités interprétables et définies par l’utilisateur. Ce travail a été poursuivi par Baptiste Caramiaux qui a utilisé cette approche avec succès dans le cadre de gestes ancillaires de clarinettistes [Caramiaux12a].
Dostları ilə paylaş: |