Ar el azami ikram Champs Disciplinaire



Yüklə 308,71 Kb.
səhifə3/17
tarix26.10.2017
ölçüsü308,71 Kb.
#13255
1   2   3   4   5   6   7   8   9   ...   17

Résumé :


Les technologies d'Identification Automatique de Locuteurs (IAL) ne cessent de connaitre un grand développement suite à une forte demande et à une grande exigence de la part de nombreux secteurs. Le principal défi pour les systèmes d'IAL est le traitement  de la variabilité des environnements et la distorsion des canaux de transmission qui affectent la qualité du signal de parole. Actuellement, la plus part de ces systèmes donnent d'excellents résultats en terme de taux d'identification avec de la parole propre enregistrée dans des conditions contrôlées. Par contre dans des environnements bruyants, qui coïncident généralement avec les conditions réelles, les performances de ces systèmes se dégradent d'une manière drastique à des niveaux qui peuvent les rendre même parfois inutilisables. Par conséquent, l'optimisation paramétrique et la robustesse vis-à-vis des différents types de perturbations  deviennent des problèmes fondamentaux de recherche dans le domaine de l'IAL.

Notre objectif principal, dans ce travail de thèse, est de concevoir, réaliser et contribuer à l'optimisation paramétrique et à l'amélioration de la robustesse d'un système d'IAL (SIAL) fonctionnant en mode indépendant du texte. Pour cela, nous avons d'abord réalisé un système optimal à base de la méthode d'extraction conventionnelle MFCC (Coefficients Cepstraux à Fréquence Mel). Il s'agit en fait du système de référence que nous allons utiliser pour la validation des performances de notre système robuste. Ensuite nous avons développé un deuxième système basé sur la méthode d'extraction GFCC (Coefficients Cepstraux à Fréquence Gammatone) qui s'avère plus robuste en milieu bruité. En vue d'augmenter les performances de ce système, nous avons procédé en deux étapes et selon deux points de vue: Premièrement, nous avons analysé la méthode MFCC du point de vue de la complexité du temps de calcul et la précision du taux d'identification pour aboutir à une configuration paramétrique optimale que nous avons utilisé par la suite comme système de référence pour la comparaison des performances. Deuxièment, nous avons exploré, du point de vue système, les techniques avancées pour l'extraction de caractéristiques robustes en vue d'aboutir à une architecture robuste vis-à-vis des bruits. Ainsi nous avons développé et implémenté une conception autour de la méthode à paramètres robustes GFCC. Dans cette conception, nous avons également inséré quelques techniques de rehaussement et d'adaptation du signal de parole comme la Détection d'Activité Vocale (VAD) et la Normalisation par Moyenne Cepstrale (CMN).

Les tests de performances effectués sur une base de données, que nous avons enregistrée en langue arabe pour une population de 51 locuteurs de sexe mixte et en présence d'un bruit blanc gaussien additif de niveau variable, montent d'une part la supériorité en termes de taux d'identification du système fondé sur cette dernière conception en comparaison avec le système de référence. D'autre part, nous avons noté également une amélioration significative des performances des deux systèmes en présence des techniques VAD et CMN. Ce travail a finalement abouti à la mise en place d'une plateforme destinée à la recherche et l'expérimentation qui fonctionne en temps différé pour permettre l'évaluation de performances des différentes conceptions dans différentes conditions. En plus, nous avons également développé un système prototype pour l'IAL opérant en temps réel. Tous nos systèmes sont basé sur les modèles GMM et disponibles pour des démonstrations.

Mots clés :


Optimisation paramétrique, Robustesse en milieu bruité, Système d'identification automatique de locuteurs, Vecteur acoustique


Development of an automatic speaker identification system in TEXT independent mode: contribution to parametric optimization and robustness in noisy environment

Abstract :

Automatic Speaker Identification (ASI) technologies continue to know a great development due to strong demand and high requirement from many sectors. The main challenge for ASI systems is how to deal the variability of environments and distortion of channels transmission that affect the quality of the speech signal. Currently, the most part of these systems give excellent results in terms of identification rate with the clean speech recorded in controlled conditions. However in noisy environments, which usually coincide with the real conditions, the performances of these systems are drastically degraded to levels that make them unusable. Therefore, optimization and robustness become fundamental problems of research in the field of ASI.

Our main objective, in this thesis, is to design, implement and contribute to the parametric optimization and improvement of robustness of an Automatic Speaker Identification System (ASIS) operating in text-independent mode. For this, first we have implemented a system based on the conventional extraction method, using the Mel Frequency Cepstral Coefficients (MFCC) which will serve us as a reference system. Then we developed a second system based on the method of extraction using the Gammatone Frequency Cepstral Coefficients (GFCC) that is more robust in the adverse environment. For increasing the performance of these systems, we conducted two stages under two perspectives:

Firstly, we analyzed the classical MFCC method in terms of the complexity of computation time and accuracy of the identification rate to achieve an optimal parametric configuration that we will use later as a reference system to make comparisons.

Secondly, we explored advanced techniques in order to achieve a robust architecture capable to operate in a noisy environment. So we have developed and implemented a design around the advanced and robust GFCC method. In this architecture, we also inserted some methods of enhancement and adaptation of the speech signal like Voice Activity Detection (VAD) and Cepstral Mean normalization (CMN).

The performance tests conducted on a database which we have recorded in Arabic language for a population of 51 speakers in the presence of a multilevel additive white Gaussian noise, show the superiority, in term of Identification Rate (IR), of the system based on the latest design in comparison with the reference system. Secondly, we have also noted a significant performances improvement of the two systems in the presence of the VAD and CMN techniques.



This work eventually led to the establishment of a platform for research and experimentation operating in off-line. This platform permits to evaluate the performances of different conceptions in different conditions. In addition, we have also developed a prototype system for automatic speaker identification, operating in real-time. All our systems are based on GMM models and available for demonstrations
Key Words :
Automatic speaker identification system, acoustic vector, parametric optimization, robustness in adverse conditions


Une approche de gestion de profils et de personnalisation des réponses neurologiques dans un environnement mobile
Par

EL ALLIOUI Youssouf

Champs Disciplinaire: Informatique

UFR : Informatique avancée

Soutenu le : 06 Octobre 2012
Membres de jury : 

Rachid EL KOUCH, Président

Institut National des Postes et Télécommunications, Rabat

Omar EL BEQQALI, Encadrant

Faculté des Sciences Dhar El Mahraz, Fès

Mostafa BELLAFKIH, Rapporteur

Institut National des Postes et Télécommunications, Rabat

Mohammed SABBANE, Rapporteur

Faculté des Sciences, Meknès

Hamid TAIRI, Membre

Faculté des Sciences Dhar El Mahraz, Fès

Mohammed Faouzi BELAHSEN, Membre

Chef de Service Neurologique au CHU Hassan II, Fès

Professeur et Vice Doyen à la Faculté de Médecine - Fès

Yüklə 308,71 Kb.

Dostları ilə paylaş:
1   2   3   4   5   6   7   8   9   ...   17




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©muhaz.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin