La dictée vocale
- Les méthodes d’identification : Elles sont fondées sur une connaissance des mécanismes de production (ex : le conduit vocal). L’hypothèse de base est que le canal buccal est constitué d’un tube cylindrique de section variable. L’ajustement des paramètres de ce modèle permet de déterminer à tout instant sa fonction de transfert. Cette dernière fournit une approximation de l’enveloppe du spectre du signal à l’instant d’analyse (figure 2).
On repère alors aisément les fréquences formantiques. En répétant cette méthode plusieurs fois, on obtient l’ empreinte du signal, comme le montre la figure 3.
b. Le décodage acoustico-phonétiqueIl consiste à décrire le signal acoustique de parole en termes d’unités linguistiques discrètes. Les unités les plus utilisées sont les phonèmes , les syllabes, les mots… Un phonème est un élément sonore d’un langage donné, déterminé par les rapports qu’il entretient avec les autres sons de ce langage. Par exemple, le mot " cou " est formé des phonèmes " keu " et " ou ". Il en existe une trentaine en français. Cette notion est assez importante en reconnaissance vocale. Le décodage a pour but de segmenter le signal en segments élémentaires et d’étiqueter ces segments. Le principal problème est de choisir les unités sur lesquelles portera le décodage. Si des unités longues telles que les syllabes ou les mots sont choisies, la reconnaissance en elle-même sera facilitée mais leur identification est difficile. Si des unités courtes sont choisies, comme les phones (sons élémentaires), la localisation sera plus facile mais leur exploitation nécessitera de les assembler en unités plus larges. Les phonèmes constituent un bon compromis, leur nombre est limité : ils sont donc souvent utilisés. Une fois la segmentation effectuée, l’identification des différents segments se fait en fonction de contraintes phonétiques, linguistiques… Il faut que le système ait intégré un certain nombre de connaissances : données articulatoires, sons du français, données phonétiques, prosodiques , syntaxiques , sémantiques …
a. Les mots isolésL'absence, dans le signal vocal, d'indicateurs sur les frontières de phonèmes et de mots constitue une difficulté majeure de la reconnaissance de la parole. On distingue actuellement deux systèmes :
- l’approche globale Dans l'approche globale , l'unité de base sera le plus souvent le mot considéré comme une entité globale, c'est à dire non décomposée. L'idée de cette méthode est de donner au système une image acoustique de chacun des mots qu'il devra identifier par la suite. Cette opération est faite lors de la phase d'apprentissage, où chacun des mots est prononcé une ou plusieurs fois. Cette méthode a pour avantage d'éviter les effets de coarticulation, c'est à dire l'influence réciproque des sons à l'intérieur des mots. Elle est cependant limitée aux petits vocabulaires prononcés par un nombre restreint de locuteurs. Principe général de la méthode globale pour un système monolocuteur : Le principe est le même que ce soit pour l’approche analytique ou l’approche global, ce qui différencie ces deux méthodes est l’entité à reconnaître : pour la première il s’agit du phonème, pour l’autre du mot. On distingue deux phases : La phase d'apprentissage : un locuteur prononce l'ensemble du vocabulaire, souvent plusieurs fois, de façon à créer en machine le dictionnaire de références acoustiques. Pour l’approche analytique, l'ordinateur demande à l'utilisateur d'énoncer des phrases souvent dépourvues de toute signification, mais qui présentent l'intérêt de comporter des successions de phonèmes bien particuliers. Pour un système multilocuteur, cette phase n’existe pas, c’est la principale différence. La phase de reconnaissance : un locuteur (le même que précédemment car nous sommes dans le cas d'un système monolocuteur ) prononce un mot du vocabulaire. Ensuite la reconnaissance du mot est un problème typique de reconnaissance de formes. Tout système de reconnaissance des formes comporte toujours les trois parties suivantes:
On retrouve ces trois étages dans un système de reconnaissance vocale, comme le montre la figure n°4 :
- l’approche analytique L'approche analytique , qui tire parti de la structure linguistique des mots, tente de détecter et d'identifier les composantes élémentaires ( phonèmes , syllabes, …). Celles-ci sont les unités de base à reconnaître. Cette approche a un caractère plus général que la précédente : pour reconnaître de grands vocabulaires, il suffit d'enregistrer dans la mémoire de la machine les principales caractéristiques des unités de base. Pour la reconnaissance de mots isolés à grand vocabulaire , la méthode globale ne convient plus car la machine nécessiterait une mémoire et une puissance considérable pour respectivement stocker les images acoustiques de tous les mots du vocabulaire et comparer un mot inconnu à l'ensemble des mots du dictionnaire. C'est donc la méthode analytique qui est utilisée : les mots ne sont pas mémorisés dans leur intégralité, mais traités en tant que suite de phonèmes .
Conclusion : Description des différentes phases de reconnaissance des mots isolési) Le capteur Un signal électrique est issu du microphone lorsque le locuteur parle. ii) Paramétrisation du signal Cet étage, dont le rôle est d'analyser et de paramétrer le signal vocal du locuteur, consiste en un traitement mathématique du signal. Cette étape vient d’être développée dans la partie précédente. Le signal suite à ce traitement est sous une forme :
Difficulté rencontrée : comme nous sommes dans le cas de mots isolés, les frontières des mots (début et fin de mot) sont généralement déterminées en repérant les intersections de la courbe d'énergie du signal avec un ou plusieurs seuils évalués expérimentalement. Si la prise de son est effectuée dans un local bruité, le bruit de fond additionné au signal vocal peut dégrader les performances du système de reconnaissance, notamment, en perturbant le fonctionnement de l'algorithme chargé de positionner les frontières des mots. Dans ce cas, comment séparer le bruit du signal reçu par le microphone afin d'en extraire le signal vocal émis par le locuteur ? Solution : Une approche couramment utilisée est d'estimer le signal dû au locuteur en soustrayant la densité spectrale du bruit de fond de la densité spectrale du signal mesuré au microphone. Le spectre du bruit de fond étant évalué par la moyenne des spectres de bruit mesurés durant les silences séparant les énoncés. Cette méthode suppose que le bruit de fond est localement stationnaire, c'est à dire que sa densité spectrale mesurée immédiatement avant l'énoncé d'un mot reste identique durant l'énoncé de ce mot. iii) Prise de décision du choix du mot Principe : Le signal vocal émis par l'utilisateur, une fois paramétré, va pouvoir être comparé aux mots du dictionnaire de référence en terme d'images acoustiques. L'algorithme de reconnaissance permet de choisir le mot le plus ressemblant, par calcul d'un taux de similitude - au sens d'une distance à définir - entre le mot prononcé et les diverses références. Difficulté rencontrée : Ce calcul n'est pas simple, même pour un locuteur unique, car les mots, donc les formes, à comparer ont des durées et des rythmes différents . En effet, un locuteur même entraîné ne peut prononcer plusieurs fois une même séquence vocale avec exactement le même rythme et la même durée. Les échelles temporelles de deux occurrences d'un même mot ne coïncident donc pas, et les formes acoustiques issues de l'étage de paramétrisation ne peuvent être simplement comparé point à point. Solutions : il existe différentes solutions pour résoudre le problème de l'alignement temporel entre un mot inconnu et une référence : Une solution très efficace consiste en un algorithme de comparaison dynamique qui va mettre en correspondance optimale les échelles temporelles des deux mots. On démontre que cette méthode fournit la solution optimale du problème. Elle nécessite, en revanche, beaucoup de calculs. Le principe de la comparaison dynamique est expliqué par la figure n°5, où l’action de l’algorithme est symbolisée par les traits entre chaque mot :
Cette figure montre les correspondances effectuées par un algorithme de programmation dynamique entre une forme à reconnaître (en l'occurrence le spectrogramme du chiffre " trois ") et un vocabulaire de référence (ici les chiffres " un ", " deux ", " trois "). Le " trois " de référence est plus long (prononciation plus lente) que le " trois " à reconnaître ; l'algorithme assure une mise en correspondance optimale entre les vecteurs des spectrogrammes. En revanche, la comparaison avec les formes de référence " un " et " deux ", très différentes de " trois ", est plus aléatoire. La représentation des mots est la suivante : horizontalement => le temps ; verticalement => les fréquences ; nuance de gris => l’intensité. b. La parole en continui) Quelle approche ? On distingue deux approches différentes. La première consiste à reconstituer la phrase à partir du signal. Il s’agit là d’une approche ascendante. On " lit " tout simplement le signal. On ne cherche pas à comprendre le résultat obtenu, on se contente de le décrypter. La deuxième approche consiste à prédire le mot à reconnaître. On a ici en opposition une approche descendante. En implantant dans le système une certaine intelligence, la machine pourra prévoir ce qui va être dit. Cette approche permet de ne pas avoir à tester tout le dictionnaire de la machine, et ainsi à gagner du temps. Cependant aucun système ne fonctionne en approche uniquement descendante, et rares sont ceux qui fonctionnent en approche uniquement ascendante. Voyons l’exemple de la figure 6 : un exemple d’un treillis de mots obtenu par une méthode descendante ou par une méthode ascendante dans le cas de la machine Myrtille 1 ( schéma tiré de " Reconnaissance automatique de la parole " , 1991, page 156) Fig. 6 : Comparaison du treillis de mots construit par une méthode descendante au treillis total possible ii) Le sens du traitement A un moment ou à un autre, il faut bien commencer à analyser le signal lui-même. C’est là qu’on doit déterminer la stratégie latérale. Le plus naturel est de procéder par ordre chronologique. C’est ce qu’on appelle le traitement gauche - droite. Il peut cependant s’avérer intéressant d’appliquer le traitement du milieu vers les cotés. Dans cette méthode, on balaye le signal sans une analyse très poussée, on recherche des mots - clés. On accentue la recherche de quelques mots du vocabulaire. Ainsi, après l’application de cette méthode, il est possible d’appliquer une stratégie descendante pour combler les " trous ". iii) La recherche d’une solution optimale On appelle stratégie de recherche l’ensemble des règles qui permettent d’atteindre la solution optimale. On distingue deux grand types de stratégies. On considère tout d’abord les stratégies totales. Elles consistent en l’examen de toutes les solutions possibles. La machine teste tout son vocabulaire et attribue pour l’ensemble des phrases possibles un score de reconnaissance sous forme de probabilité. Cela est applicable par exemple dans un système de commande par la parole, où le vocabulaire est très limité. Dans un vocabulaire étendu, ceci est évidemment inapplicable. Les stratégies employées alors sont les stratégies heuristiques. Parmi les stratégies les plus employées, on peut noter celle-ci : Stratégie du meilleur d'abord : A chaque analyse, le système ne retient que la solution offrant le meilleur score de probabilité. Cette stratégie est très simple à mettre en oeuvre, car elle n’effectue qu’une seule analyse à la fois. On gagne en temps de traitement, mais on perd en performance. Entre cette stratégie et une stratégie totale, il existe cependant un juste milieu. Recherche en faisceau : On peut la décrire comme étant une stratégie des " quelques meilleurs d’abord ". Elle conserve simultanément les hypothèses les plus plausibles, et poursuit la recherche en parallèle dans les différentes branches. Elle compare enfin les solutions partielles qui vont au même niveau de profondeur dans l’arbre de recherche. Cela est coûteux en temps machine, mais on se rapproche plus d’une solution optimale, car l’espace des solutions explorées est bien plus vaste. Recherche par îlots de confiance : Dans les stratégies précédentes, une phrase est supposée analysée de la gauche vers la droite, en partant du début. Ici, on ne recherche que des mots - clés, dont la reconnaissance est quasi - certaine. On obtient donc une phrase à trous, avec ce qu’on appelle des îlots de confiance, dont on est sûr de la reconnaissance. On applique enfin une des stratégies précédentes pour découvrir ce qu’il y a entre. Dans l’exemple qui suit (Figure 7), on peut voir une sorte de synthèse des différents niveaux de stratégies. Il s’agit de la stratégie mise en œuvre par le système Myrtille II ( schéma tiré de " Reconnaissance automatique de la parole " ,1991, page 157) Fig. 7 : Stratégie du système Myrtille II c. Bilan:Le choix de la technique de reconnaissance vocale dépend de l'utilisation :
Légende : +++ : très bien ++ : bien + : correct --- : inapte -- : insuffisant - : moyen III) Diverses applicationsNous avons vu précédemment que d’une façon générale, le choix d’une reconnaissance vocale doit faire l’objet d’une étude attentive, fondée sur un ensemble de critères objectifs. En particulier, il est important d’examiner si la voix apporte véritablement un accroissement des performances ou un meilleur confort d’utilisation. Par ailleurs, il ne faut pas trop attendre de la commande vocale mais la considérer, en tout état de cause, comme un moyen complémentaire parmi d’autres moyens d’interaction homme-machine plus traditionnels. Bien entendu, à chaque type d’application correspondent des critères de performance différents. Ainsi, pour des applications en reconnaissance de la parole, on jugera la qualité d’une application sur les quatre critères principaux suivants :
Reconnaissance de petits vocabulaires de mots isolésa. TélécommunicationL’apparition récente de systèmes multilocuteurs présentant de bonnes performances à travers le réseau téléphonique commuté ( jusqu’à 99% de reconnaissance pour de petits vocabulaires ) ouvre de nouveaux champs d’applications : serveurs d’informations, réservations, autorisations bancaires… De tels systèmes sont par exemple commercialisés par Voice Processing, Scott Instruments,… Des tests en vraie grandeur ont été menés avec succès avec le grand public, en particulier en France et au Canada. Dans le secteur de la téléphonie, les grandes sociétés de télécommunication ont engagé une course à l’innovation. Ainsi, il suffit de dire le nom du correspondant désiré dans le récepteur, à condition de l’avoir préalablement encodé, pour obtenir la communication souhaitée. Ceci peut-être très utile pour téléphoner depuis une voiture. L’information au public est aussi un domaine concerné par la numérisation de la parole. Dans les gares ou les aéroports, par exemple, on pourra bientôt voir des bornes interactives qui remplaceront les agents préposés aux renseignements. Pour connaître l’horaire d’un train, il suffira de demander de vive voix à la machine où on veut aller et quand, et elle répondra dans la langue de notre choix, avant de nous souhaiter un agréable voyage. Plus précisément, aujourd’hui, deux gammes de services dominent le marché des services de Télécommunication à commande vocale : ce sont les services à opérateurs partiellement automatisés et les services de répertoires vocaux, évoluant progressivement vers des services plus complets d’assistants téléphoniques.
b. L’automatisation des services à opérateurs (assistance aux opérateurs)Ces services représentaient en 1997 environ 25% du marché, mais leur part devrait décroître dans les prochaines années, du fait de leur saturation et de l’augmentation beaucoup plus forte des autres gammes. L’intérêt de ces services est d’ordre économique. Quand un utilisateur appelle un service à opérateur, toute seconde de conversation avec l’opérateur qui peut être gagnée par un dialogue automatisé avec un serveur vocal se traduit par des gains d’exploitation très importants. Parmi les nombreux enseignements apportés par ces premiers services grand public de grande ampleur (plusieurs millions d’appels par jour), le besoin de systèmes très robustes a été mis clairement en évidence (Nortel utilise 200 modèles différents pour reconnaître les mots " oui " et " non " et leurs synonymes en deux langues), ainsi que la nécessité d’éducation et de communication autour de la commande vocale auprès du grand public, et la nécessité d’enrichir progressivement les modèles utilisés par des données d’exploitation réelle. c. Les répertoirs vocauxCette gamme de services représente aujourd’hui, au niveau mondial, environ 50% du marché des services à commande vocale. Ici, la reconnaissance vocale sert à associer un numéro de téléphone au nom du correspondant désigné, offrant ainsi un naturel et une rapidité de numérotation accrus par rapport au clavier. Cette gamme de services est principalement justifiée dans l’environnement mobile (mains occupés, yeux occupés) où la numérotation par clavier est peu commode, voire dangereuse. Le service est souvent couplé, pour les mobiles, à un service de numérotation vocale (de plus en plus souvent en parole continue), permettant d’établir tout appel sans intervention manuelle. Reconnaissance de grands vocabulaires : la dictée continuea. Dictée personnelle d’IBMUn des produits les plus avancés est le système de dictée personnelle d’IBM. La cadence est de 70 à 100 mots par minute et le taux de reconnaissance approche 97%. Des dictionnaires volumineux et spécialisés facilitent le processus de reconnaissance et limitent les interventions de l’utilisateur pour préciser l’orthographe d’un mot. Ceci est le résultat de vingt ans de recherche acharnée, conjugués aux efforts de centaines d’ingénieurs mobilisés pour un budget qui n’a pas été dévoilé. Pour utiliser le logiciel, il faut une heure et demie d’apprentissage consacrée à lire quelque cent soixante phrases pour que le système reconnaisse la voix. Il faut aussi un peu de self-control car il faut faire l’effort d’une diction " saucisson " et omettre de faire les liaisons entre les mots. Cela permet au logiciel d’analyser le spectre de la voix, tout comme les défauts de prononciation et d’élocution : cheveu sur la langue, élision de certains phonèmes , accents régionaux… C’est pourquoi le système est monolocuteur , c’est-à-dire qu’il ne reconnaît qu’un seul orateur à la fois. Le français, riche en homophones ( sang et sans ), est l’une des langues qui a posé le plus de problèmes aux ingénieurs d’IBM, qui ont également mis au point le système en anglais, américain, italien, espagnol et allemand. Le logiciel est totalement incapable de retrouver le découpage des mots par leur sens, comme le fait le cerveau humain, si la dictée est continue, une phrase ne peut être transcrite qu’au prix d’insensés calculs de probabilité. C’est pourquoi il faut marquer une pause entre les mots et articuler. Concrètement, le système procède d’abord à un balayage rapide des 35 000 occurrences qu’il a en mémoire. En effet, les chercheurs, après des années d’études statistiques sur la langue, ont retenu les mots les plus fréquemment usités. Entendant le mot " prendre ", le logiciel élimine d’emblée tous les sons éloignés pour ne garder que quelques centaines d’items possibles. Ensuite, se fait la reconnaissance à partir de trinômes ( groupe de trois mots qui sont situés avant et après le mot recherché ), à partir desquels il va pouvoir lancer des algorithmes. Si l’on dicte la phrase " le monsieur va prendre le dossier bleu ", au moment où l’on prononce le verbe " prendre ", le logiciel a déjà ‘compris’ les mots " le monsieur va ", et commence de déchiffrer " le dossier bleu ", cela en vitesse réelle. En fait, le système trouve que la probabilité est faible pour qu’un adjectif, tel " grande ", ou un nom, tel " gendre ", intervienne… Dès lors, si erreur il y a, elle portera plutôt sur " rendre ", par exemple, un ‘équiprobable’ de " prendre ". Le seul critère de choix du logiciel est ici phonétique. Reste que si le logiciel ne procède pas, à proprement parler, à une analyse grammaticale, le jeu des probabilités laisse en définitive passer bien moins de fautes d’orthographe que certains correcteurs grammaticaux. De plus, le système continue de s’améliorer au fur et à mesure de l’utilisation. Pendant la lecture même, les algorithmes du système analysent les bruits ambiants, ce qui améliore encore la reconnaissance. D’autre part, il est fortement conseillé de reporter les corrections à même le logiciel de reconnaissance vocale pour améliorer d’autant ses performances : dès lors, on peut réécouter chaque mot saisi, et quand il y a faute, taper au clavier le mot mal reconnu. A la prochaine dictée, celui-ci sera correctement " compris " du logiciel. Au final, selon IBM, une moyenne de six mois suffisent pour que le système et le locuteur aient pris leur vitesse de croisière. En outre, il est prévu la commercialisation de " domaines " propres à certaines professions. D’ores et déjà, un lexique spécialisé pour les relations commerciales existe. Les radiologues, dont certains se sont prêtés au jeu des tests de mise au point depuis plus de deux ans, seront servis les premiers. Un domaine juridique devrait ensuite être rapidement disponible. IBM souhaite donc séduire d’abord tous les professionnels qui ont l’habitude de dicter à leurs secrétaires des rapports sur magnétophone. A présent, de la rapidité de calcul dépend l’étendue du lexique, la qualité de décryptage de la voix et la souplesse. Si tout est dans la carte, c’est aussi d’elle dont les ingénieurs d’IBM ont le moins envie de parler. Les signaux vocaux sont traduits par un convertisseur analogique/numérique, puis transmis à un processeur DSP. C’est ce dernier qui traite le signal via des transformées de Fourier, qui analysent le spectre de la voix et en définissent les courbes de fréquence ; et des " modèles de Markov ", qui permettent de calculer des probabilités de prononciation de certains phonèmes .
b. Dragon Naturally SpeakingLa société américaine Dragon Systems, créée en 1982, est spécialisée depuis son origine dans les systèmes de reconnaissance vocale. Depuis, elle est constamment à la pointe de la technologie, accumulant les premières mondiales qui ont marqué les avancées les plus significatives en reconnaissance vocale sur PC. On peut ainsi citer en 1984 le premier logiciel de reconnaissance vocale utilisable sur un portable, en 1990 le premier logiciel commercialisable de reconnaissance vocale à grand vocabulaire, en 1993 le premier logiciel de reconnaissance vocale travaillant avec des cartes son standard du marché et dans la plupart des applications Windows, et en 1997 le premier logiciel de reconnaissance vocale en dictée continu et à grand vocabulaire. Le Dragon Naturally Speaking permet de dicter de la façon la plus naturelle au monde à une incroyable vitesse et une précision extrême : sans avoir à marquer de pause entre les mots, à 130 mots par minute et plus. Ses atouts sont entre autres :
Les systèmes présentés par IBM, Kuzweil et Dragon Systems sont le plus souvent fondés sur une modélisation stochastique de la parole, méthode actuellement la plus performante (1992). L’avenir est aux systèmes continus et à l’indépendance vis à vis du locuteur, sans phase d’apprentissage. Ces caractéristiques demeurent difficiles à mettre en œuvre sur ordinateur, que ce soit en raison de l’absence d’algorithmes linguistiques sophistiqués ou, plus logiquement, parce que les processeurs sont encore trop peu puissants. Les recherches sur le traitement du langage naturel et sur le traitement du signal (notamment NSP-Native Signal Processing chez Intel et Microsoft ) aboutiront très certainement à des solutions complètement logicielles, qui s’intègreront aux systèmes d’exploitation. On sait déjà que les prochaines versions de Windows proposeront des fonctions de synthèse et de reconnaissance de la parole. CONCLUSION :Les technologies vocales ont de fait déjà pénétré des domaines d’activité de la vie courante (serveurs interactifs vocaux, aide à la navigation à bord de voiture et aide à la formation). Outre ces domaines en expansion, la dictée automatique de documents écrits, notamment de rapports médicaux, semble constituer un domaine particulièrement prometteur du fait de systèmes pouvant traiter un nombre croissant de langues. L’expansion de ces nouveaux modes de communication ne deviendra cependant effective que si les performances des systèmes atteignent un niveau acceptable pour le grand public, en termes de fiabilité mais aussi de facilité d’utilisation. L’effort entrepris par la communauté scientifique pour se doter d’outils linguistiques adaptés à une meilleure évaluation des systèmes constitue une première étape. Des études socio-économiques pour identifier les besoins réels des utilisateurs doivent conduire à une plus large concertation pour convenablement intégrer les technologies vocales dans des applications réalistes. Sitographie :
Yüklə 98,85 Kb. Dostları ilə paylaş: |