'être humain reste une merveille technologique encore très mal connue. Nous sommes
capables, sans aucun efforts, instantanément et de façon robuste capables d'isoler un flux de parole d'un individu donné, à partir d'un paysage sonore complexe et bruité.
Le prodige ne s'arrête pas là, nous sommes en plus capable d'autentifier le locuteur, percevoir son état émotionnel et élaborer un sens à cette suite de mots transmis par ce signal.
Nous pourrions évoquer également la formidable dynamique dont est capable notre organe, sans oublier toute la psycho-acoustique qui nous permet de localiser précisément une source sonore (même dans un paysage sonore bruité) ou encore évaluer la densité d'un solide ou d'un liquide par l'écoute du son produit par un impact sur ce dernier.
3.1.1.1Le signal acoustique de la parole
La parole est un signal réel, continu, d'énergie finie et non stationnaire. Sa structure est complexe et variable avec le temps. Sa composition, figure
2, est la suivante
- Pseudo-périodique (D) : sons voisés
- Aléatoire (A) : sons fricatifs
- Impulsionel (C) : phase explosive des sons occlusifs. (B est du bruit)
Figure 2: Représentation temporelle du signal acoustique de la parole.
Une manière aisée de décrire le signal acoustique est d'utiliser une représentation sous forme de spectrogramme (les termes couramment employés de Sonagraph et Sonagram sont des marques déposées), comme dans la figure 3.
Le spectrogramme est une représentation tridimensionnelle, où le temps est représenté sur l'axe X, la fréquence sur l'axe Y et le niveau de chaque fréquence, sur l'axe Z, est symbolisé par le niveau de noir. Cette analyse temps-fréquence, d'abord réalisée de manière analogique à l'aide de bancs de filtres, est maintenant réalisée de manière numérique par TFR. Elle sera détaillée dans le chapitre consacré aux outils d’analyse et de traitement du signal.
Figure 3. Oscilogramme (en haut) et Spectrogramme (en bas) de Parole
Figure 4 : Spectrogramme du mot "Samedi"
On peut distinguer nettement sur la figure 4 les différents phonèmes du mot samedi. On voit très bien également les différents formants des voyelles A E et I .
3.1.1.1 - Découpage thématique du décodage du signal de la Parole
Six grands thèmes existent dans ce domaine :
1) le codage et la compression de la parole
2) la synthèse de la parole (production d'un signal vocal à partir d'un dictionnaire d'éléments phonétiques et/ou de règles).
3) la reconnaissance automatique de la parole par une machine
4) la reconaissance du locuteur (authentification / Bio métrie)
5) la reconaissance automatique de la langue parlée par le locuteur
6) l'identification et la classification de l'émotion du locuteur
Qu'est ce que la parole humaine ?
La parole humaine est un flux continu constitué d'une suite de mots, eux mêmes étants constitués d'un enchainement de phonèmes et de bruits articulatoires.
Quels sont ses paramètres ?
La parole est très variable puisqu'un même phonème possède de nombreux paramètres qui sont fonction du locuteur.
- Intensité de la voix
- hauteure de la voix
- type de son émis par le locuteur (chuchottement, chant, parole)
- débit du locuteur
- déformation du son du à l'accent du locuteur
- propriétées physio-acoustique de l'appareil phonatoire du locuteur
- émotion dans la voix du locuteur (serein, pleurant, en colère, gémissant, riant, euphorique ...)
Tous ces paramètres rendent le signal vocal très variable. il est difficile d'identifier facilement les sons élémentaires.
De plus, lorsqu'il y a plus d'un locuteur, ce travail devient très périeux avec le mélange de signaux.
Remarque : les conditions d'enregistrement peuvent également modifier profondément le signal :
D'autres paramètres, absents du signal, nous permettent d'appréhender un discour comme par exemple les signaux visuels. En effet, chacun de nous sans s'en rendre compte lis sur les lèvres de son interlocuteur.
De célèbres illusions auditives proviennent de cette double lecture du discours (visuelle et auditive)
D'autres paramètres, cet fois ci de type cognitifs, interviennent en permanence dans la compréhention d'un flot de paroles.
- la connaissance du contexte (pragmatique)
- la connaissance des concepts (sémantique)
- la connaissance de la structure des langages (syntaxique)
- la connaissance des mots (lexicale)
- la connaissance des sons (phonétique et phonologique)
On peu classer ces différents paramètres en trois grandes familles :
1- Modèles acoustiques décrivant les entités à reconnaitre
2- Le Lexique codant les mots du vocabulaire
3- Modèle de langage décrivant la structure des phrases du langage
Le phonème est devenu l'unité de base de la plus part des systèmes de reconnaissance vocale.
Voisi la structure de base d'un système de reconnaissance vocale :
Parole -----------------------> Algorithmes de reconnaissance --------------------> Hypothèse
Algorithmes faisant appel à :
Modèles acoustiques + Lexique + Modèle de langage
Le signal vocal est redondant. Pour en optimiser son traitement, il faut tout d'abord réduire cette redondance par extraction de paramètres pertinents et invariants (formants)
Méthode générale :
Utilisation de la représentation amplitude/ fréquence du signal : le spectre fréquentiel
il est donné par la transformation de Fourier