Exploration de réseaux de neurones à décharges dans un contexte de reconnaissance de parole

De plus en plus de recherches s'effectuent pour développer des systèmes de reconnaissance en se basant sur l'approche connexionniste. En grande partie, on tente de résoudre de cette manière les problèmes que l'on rencontre avec les approches statistiques plus conventionnelles (reconna...

Full description

Bibliographic Details
Main Author: Loiselle, Stéphane
Format: Others
Language:fr
Published: 2004
Subjects:
Online Access:http://constellation.uqac.ca/691/1/18186435.pdf
Description
Summary:De plus en plus de recherches s'effectuent pour développer des systèmes de reconnaissance en se basant sur l'approche connexionniste. En grande partie, on tente de résoudre de cette manière les problèmes que l'on rencontre avec les approches statistiques plus conventionnelles (reconnaissance difficile dans des conditions bruités, quantité de données nécessaire pour l'apprentissage, ...). L'objectif de cette recherche est de tester la reconnaissance d'un signal vocal à l'aide d'un prototype inspiré par un excellent système de reconnaissance vocale qui a évolué depuis des milliers d'années. On fait évidemment allusion à celui de l'être humain qui est non seulement capable de comprendre rapidement les paroles prononcées par un individu dans des conditions adverses, mais aussi de deviner son sexe, son âge ainsi que son accent. Des réseaux de neurones ont déjà été développés pour effectuer la reconnaissance vocale, avec plus ou moins de succès. Cependant, nous ne commençons qu'à avoir une idée du potentiel offert par ces outils. Pour cette raison, nous poursuivons l'exploration des réseaux de neurones à décharges, car ils devraient nous permettre d'effectuer la reconnaissance vocale indépendamment du locuteur, sans avoir à exécuter une longue période d'apprentissage qui nécessite une importante quantité de données. De plus, certains types de réseaux à décharges se prêtent bien à la programmation événementielle. Nous avons donc tenté de conserver cette orientation pour obtenir une exécution plus efficace lors de la reconnaissance. La revue de certains articles jugés intéressants ou qui nous ont inspirés pour ce travail compose la première partie de cette recherche. Aussi, nous donnons une brève description des éléments théoriques amenés par ces articles ou ceux particulièrement intéressants rencontrés à travers le cheminement pédagogique de cette maîtrise. Parmi les domaines qui se rattachent à notre sujet, ceux qui nous viennent le plus rapidement en tête sont les domaines de l'intelligence artificielle (plus précisément les domaines portant sur les réseaux de neurones), des systèmes en temps réel et des processus aléatoires. Dans ce mémoire, on a exploré deux façons différentes d'effectuer la reconnaissance vocale à l'aide de neurones à décharges. Dans une première partie, un réseau composé d'oscillateurs a été utilisé avec un cepstrogramme. Malheureusement, il semble que ce type d'entrée ne soit pas compatible avec l'architecture présentée. De plus, l'implémentation des neurones oscillatoires dans un langage de programmation orienté événements, comme Rodin, risque à première vue d'être difficile. D'un autre côté, le prototype qui a été conçu en s'inspirant du fonctionnement du système auditif possède un potentiel intéressant. En effet, à l'aide du codage par ordre de rang et en modélisant le fonctionnement de l'oreille interne par un banc de filtre et des détecteurs de seuils, nous avons effectué efficacement la reconnaissance vocale avec un vocabulaire limité. Les résultats du prototype se comparent à ceux obtenus avec des chaînes de Markov et des coefficients cepstraux lorsqu'on limite le nombre de prononciations à l'apprentissage. De plus, l'approche développée est simple et peut facilement s'implémenter dans un langage de programmation orienté événements. Cet avantage va éventuellement nous permettre une exécution plus efficace du système de reconnaissance vocale. D'après les tests présentés dans ce mémoire, les efforts futurs devraient se concentrer sur le prototype qui utilise le codage par ordre de rang. En effet, ce prototype présente déjà un grand potentiel pour la reconnaissance vocale.