Segmentation de la parole : La délimitation précise des unités (du phone jusqu'à la phrase) est l'une des bases des traitements. Création du logiciel ircamAlign pour le Français et l'Anglais.
Gestion de corpus oraux : Tous les travaux nécessitent la gestion de bases de données et méta-données d'enregistrements, certaines très grandes. En interne et dans le projet Rhapsodie, étude création des systèmes de gestion de bases de données d'unités de parole IrcamCorpusTools et RhapsodieCorpusTools
Modélisation de la prosodie du Français et du style de parole : En traitement comme en synthèse, la prosodie doit être prise en compte. Un modèle pour l'analyse et la synthèse de la prosodie et du style de parole a été développé. Il repose sur un apprentissage statistique à partie de corpus oraux. La thèse de N. Obin [Obin11e] a reçu le prix de la fondation Des Treilles.
Synthèse à partir du texte :Pour les applications artistiques, un système de synthèse à partir du texte doit être de très haute qualité, extrêmement flexible et pouvoir synthétiser toutes sortes de voix à la demande des artistes. Les logiciels IrcamTTS (par sélection d'unités) et IrcamHTS ont été développés en utilisant IrcamCorpusTools et ont servi dans de nombreuses productions artistiques.
Transformation de la voix : De nombreuses applications réclament diverses transformations, de type et de nature (homme-femme, âge, etc.), de timbre (tendu-relaché, chuchoté, etc.), d’expressivité (vivante-plate, joyeuse-triste, etc.) et de conversion d'identité (faire parler le locuteur B comme le locuteur A). Ces transformations ont été étudiées et des logiciels correspondants ont été développés (Plugin SuperVP-TRAX, bibliothèques VoiceForger et Emotive, logiciel IrcamVoiceConversion)
Séparation de la source glottique et des influences du conduit vocal : Pour les transformations réalistes, il est indispensable de déconvoluer la source et le conduit vocal. C'est un objet de recherche mondiale depuis des années. Nous avons obtenu des résultats remarquables [Degottex10b] permettant l'estimation de paramètres d'un modèle de débit glottique et donc la synthèse.
Les principaux résultats sont :
Nombreuses utilisations du traitement de la voix par les compositeurs.
Une méthode de déconvolution de la source glottique et du conduit vocal.
Mise au point d'une base de données et d'un langage de requêtes en ligne sur un corpus de parole spontanée annoté prosodiquement et syntaxiquement. Ce qui semble être une première mondiale.
Modèle de prosodie sur des segments linguistiques variés et pour plusieurs styles de parole.
Une gamme complète de transformations de la voix.
Une synthèse à partir du texte de voix d'acteurs (André Dussolier) très proche du naturel.