Overblog
Editer la page Suivre ce blog Administration + Créer mon blog
/ / /

 

tete_032.gif 

lL'être humain reste  une merveille technologique encore très mal connue. Nous sommes capables, sans aucun efforts, instantanément et de façon robuste capables d'isoler un flux de parole d'un individu donné, à partir d'un paysage sonore complexe et bruité.

Le prodige ne s'arrête pas là, nous sommes en plus capable d'autentifier le locuteur, percevoir son état émotionnel et élaborer un sens à cette suite de mots transmis par ce signal.

Nous pourrions évoquer également la formidable dynamique dont est capable notre organe, sans oublier toute la psycho-acoustique qui nous permet de localiser précisément une source sonore (même dans un paysage sonore bruité) ou encore évaluer la densité d'un solide ou d'un liquide par l'écoute du son produit par un impact sur ce dernier.

 

  3.1.1.1Le signal acoustique de la parole 


 

Description.

 

La parole est un signal réel, continu, d'énergie finie et non stationnaire. Sa structure est complexe et variable avec le temps. Sa composition, figure 2, est la suivante

 

 

-    Pseudo-périodique (D) : sons voisés

-    Aléatoire (A) : sons fricatifs

-    Impulsionel (C) : phase explosive des sons occlusifs. (B est du bruit)

 

 

 

Oscilogramme-du-mot-ski.gif

Figure 2: Représentation temporelle du signal acoustique de la parole.

 

Une manière aisée de décrire le signal acoustique est d'utiliser une représentation sous forme de spectrogramme (les termes couramment employés de Sonagraph et Sonagram sont des marques déposées), comme dans la figure 3.

 

 

Le spectrogramme est une représentation tridimensionnelle, où le temps est représenté sur l'axe X, la fréquence sur l'axe Y et le niveau de chaque fréquence, sur l'axe Z, est symbolisé par le niveau de noir. Cette analyse temps-fréquence, d'abord réalisée de manière analogique à l'aide de bancs de filtres, est maintenant réalisée de manière numérique par TFR. Elle sera détaillée dans le chapitre consacré aux outils d’analyse et de traitement du signal.

 

 

oscilogramme-parole-phrase.png

Figure 3. Oscilogramme (en haut) et Spectrogramme (en bas) de Parole

 

Spectrogramme-du-mot-samedi.gif

 

 

Figure 4 : Spectrogramme du mot "Samedi"

 

  On peut distinguer nettement sur la figure 4 les différents phonèmes du mot samedi. On voit très bien également les différents formants des voyelles  A    E   et   I .

 

 

 

 

  3.1.1.1  -  Découpage thématique du décodage du signal de la Parole


Six  grands thèmes existent dans ce domaine :

 

1) le codage et la compression de la parole

2) la synthèse de la parole (production d'un signal vocal à partir d'un dictionnaire d'éléments phonétiques et/ou de règles).

3) la reconnaissance automatique de la parole par une machine

4) la reconaissance du locuteur (authentification / Bio métrie)

5) la reconaissance automatique de la langue parlée par le locuteur

6) l'identification et la classification de l'émotion du locuteur

 

 

 

3.1.1.2  -  Définition de la Parole humaine 

 

Qu'est ce que la parole humaine ?

 

 La parole humaine est un flux continu constitué d'une suite de mots, eux mêmes étants constitués d'un enchainement de phonèmes et de bruits articulatoires.

 

Quels sont ses paramètres ?

 

La parole est très variable puisqu'un même phonème possède de nombreux paramètres qui sont fonction du locuteur.

- Intensité de la voix

- hauteure de la voix

- type de son émis par le locuteur (chuchottement, chant, parole)

- débit du locuteur

- déformation du son du à l'accent du locuteur

- propriétées physio-acoustique de l'appareil phonatoire du locuteur

- émotion dans la voix du locuteur (serein, pleurant, en colère, gémissant, riant, euphorique ...)

 

 

Tous ces paramètres rendent le signal vocal très variable. il est difficile d'identifier facilement les sons élémentaires.

De plus, lorsqu'il y a plus d'un locuteur, ce travail devient très périeux avec le mélange de signaux.

 

locution-d-un-meme-mot.JPG

 

 

 

locution-d-un-meme-mot-par-2-loc.JPG

 

 

 

 

Remarque : les conditions d'enregistrement peuvent également modifier profondément le signal :

 

locution-d-un-meme-mot-2-micro-diff.JPG

 

D'autres paramètres, absents du signal, nous permettent d'appréhender un discour comme par exemple les signaux visuels. En effet, chacun de nous sans s'en rendre compte lis sur les lèvres de son interlocuteur.

De célèbres illusions auditives proviennent de cette double lecture du discours (visuelle et auditive)

 

D'autres paramètres, cet fois ci de type cognitifs, interviennent en permanence dans la compréhention d'un flot de paroles.

- la connaissance du contexte (pragmatique)

- la connaissance des concepts (sémantique)

- la connaissance de la structure des langages (syntaxique)

- la connaissance des mots (lexicale)

- la connaissance des sons (phonétique et phonologique)

 

 

3.1.1.3  -  Paramétrisation du langage humain 

 

On peu classer ces différents paramètres en trois grandes familles :

1- Modèles acoustiques décrivant les entités à reconnaitre

 

2- Le Lexique codant les mots du vocabulaire

 

3- Modèle de langage décrivant la structure des phrases du langage

 

Le phonème est devenu l'unité de base de la plus part des systèmes de reconnaissance vocale.

 

Voisi la structure de base d'un système de reconnaissance vocale :

 

Parole -----------------------> Algorithmes de reconnaissance --------------------> Hypothèse

 

Algorithmes faisant appel à :

Modèles acoustiques + Lexique + Modèle de langage

 

 

Le signal vocal est redondant. Pour en optimiser son traitement, il faut tout d'abord réduire cette redondance par extraction de paramètres pertinents et invariants (formants)

 

Méthode générale :

Utilisation de la représentation amplitude/ fréquence du signal : le spectre fréquentiel 

 

Spectrograme-de-la-Parole.JPG

 

il est donné par la transformation de Fourier

 

Partager cette page
Repost0

Présentation

  • : Le blog de outilsrecherche
  • : Blog d'un thésard qui partage ses connaissances et ses recherches. Logiciels, environnements, notes perso, Parole, reconnaissance automatique, modélisation, acoustique, biologie, cognition, neuro-sciences, langage, audition, production de la parole traitement du signal et informatique
  • Contact

Recherche

Archives

Liens