Inférence grammaticale en situations bruitées
L'inférence grammaticale s'intéresse à l'apprentissage automatique de langages formels. Ces derniers sont organisés en plusieurs classes formant la hiérarchie de Chomsky. Parmi elles, les langages réguliers, reconnus par des automates finis déterministes, forment la classe la plus « s...
Main Author: | |
---|---|
Language: | FRE |
Published: |
Université Jean Monnet - Saint-Etienne
2009
|
Subjects: | |
Online Access: | http://tel.archives-ouvertes.fr/tel-00411616 http://tel.archives-ouvertes.fr/docs/00/41/16/16/PDF/these.pdf |
id |
ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00411616 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-004116162013-01-07T18:17:16Z http://tel.archives-ouvertes.fr/tel-00411616 http://tel.archives-ouvertes.fr/docs/00/41/16/16/PDF/these.pdf Inférence grammaticale en situations bruitées Tantini, Frédéric [INFO:INFO_OH] Computer Science/Other inférence grammaticale apprentissage actif boules de mots apprentissage bruitée L'inférence grammaticale s'intéresse à l'apprentissage automatique de langages formels. Ces derniers sont organisés en plusieurs classes formant la hiérarchie de Chomsky. Parmi elles, les langages réguliers, reconnus par des automates finis déterministes, forment la classe la plus « simple » à apprendre : l'apprentissage des automates a largement été étudié et a donné naissance à plusieurs algorithmes d'inférence grammaticale.<br /><br />Toutefois, un problème concernant les données est devenu crucial : celui du bruit. Des propositions d'algorithmes ont vu le jour pour essayer de résoudre ce problème, mais nous montrons que les résultats ne sont toujours pas satisfaisants, y compris pour les langages réguliers. Or, puisqu'ils forment la base de la hiérarchie de Chomsky, ce sont toutes les classes de la hiérarchie qui ne peuvent être apprises en situations bruitées.<br /><br />Aussi, nous proposons une nouvelle classe de langages qui semble ne pas souffrir de ce handicap : celle des boules de mots. Nous démontrons que cette classe, de prime abord peu orthodoxe mais utilisée dans de nombreuses applications comme la correction orthographique ou la recherche de plus proches voisins, reste identifiable à la limite même lorsque les données d'apprentissage subissent l'influence d'un bruit non statistique.<br /><br />De plus, nous introduisons les requêtes de correction basées sur la distance d'édition et nous présentons un algorithme d'apprentissage des boules de mots à partir de telles requêtes. Nous montrons expérimentalement que de simples heuristiques a posteriori suffisent à le rendre résistant lorsque l'oracle répond approximativement à de telles requêtes. Ceci justifie encore une<br />fois la robustesse des boules de mots au bruit.<br /><br />Contrairement aux idées reçues, le bruit n'est donc pas une malédiction en inférence grammaticale : les langages à base de distance offrent de nouvelles perspectives. 2009-06-09 FRE PhD thesis Université Jean Monnet - Saint-Etienne |
collection |
NDLTD |
language |
FRE |
sources |
NDLTD |
topic |
[INFO:INFO_OH] Computer Science/Other inférence grammaticale apprentissage actif boules de mots apprentissage bruitée |
spellingShingle |
[INFO:INFO_OH] Computer Science/Other inférence grammaticale apprentissage actif boules de mots apprentissage bruitée Tantini, Frédéric Inférence grammaticale en situations bruitées |
description |
L'inférence grammaticale s'intéresse à l'apprentissage automatique de langages formels. Ces derniers sont organisés en plusieurs classes formant la hiérarchie de Chomsky. Parmi elles, les langages réguliers, reconnus par des automates finis déterministes, forment la classe la plus « simple » à apprendre : l'apprentissage des automates a largement été étudié et a donné naissance à plusieurs algorithmes d'inférence grammaticale.<br /><br />Toutefois, un problème concernant les données est devenu crucial : celui du bruit. Des propositions d'algorithmes ont vu le jour pour essayer de résoudre ce problème, mais nous montrons que les résultats ne sont toujours pas satisfaisants, y compris pour les langages réguliers. Or, puisqu'ils forment la base de la hiérarchie de Chomsky, ce sont toutes les classes de la hiérarchie qui ne peuvent être apprises en situations bruitées.<br /><br />Aussi, nous proposons une nouvelle classe de langages qui semble ne pas souffrir de ce handicap : celle des boules de mots. Nous démontrons que cette classe, de prime abord peu orthodoxe mais utilisée dans de nombreuses applications comme la correction orthographique ou la recherche de plus proches voisins, reste identifiable à la limite même lorsque les données d'apprentissage subissent l'influence d'un bruit non statistique.<br /><br />De plus, nous introduisons les requêtes de correction basées sur la distance d'édition et nous présentons un algorithme d'apprentissage des boules de mots à partir de telles requêtes. Nous montrons expérimentalement que de simples heuristiques a posteriori suffisent à le rendre résistant lorsque l'oracle répond approximativement à de telles requêtes. Ceci justifie encore une<br />fois la robustesse des boules de mots au bruit.<br /><br />Contrairement aux idées reçues, le bruit n'est donc pas une malédiction en inférence grammaticale : les langages à base de distance offrent de nouvelles perspectives. |
author |
Tantini, Frédéric |
author_facet |
Tantini, Frédéric |
author_sort |
Tantini, Frédéric |
title |
Inférence grammaticale en situations bruitées |
title_short |
Inférence grammaticale en situations bruitées |
title_full |
Inférence grammaticale en situations bruitées |
title_fullStr |
Inférence grammaticale en situations bruitées |
title_full_unstemmed |
Inférence grammaticale en situations bruitées |
title_sort |
inférence grammaticale en situations bruitées |
publisher |
Université Jean Monnet - Saint-Etienne |
publishDate |
2009 |
url |
http://tel.archives-ouvertes.fr/tel-00411616 http://tel.archives-ouvertes.fr/docs/00/41/16/16/PDF/these.pdf |
work_keys_str_mv |
AT tantinifrederic inferencegrammaticaleensituationsbruitees |
_version_ |
1716451820129222657 |