Inférence grammaticale en situations bruitées

L'inférence grammaticale s'intéresse à l'apprentissage automatique de langages formels. Ces derniers sont organisés en plusieurs classes formant la hiérarchie de Chomsky. Parmi elles, les langages réguliers, reconnus par des automates finis déterministes, forment la classe la plus « s...

Full description

Bibliographic Details
Main Author: Tantini, Frédéric
Language:FRE
Published: Université Jean Monnet - Saint-Etienne 2009
Subjects:
Online Access:http://tel.archives-ouvertes.fr/tel-00411616
http://tel.archives-ouvertes.fr/docs/00/41/16/16/PDF/these.pdf
id ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00411616
record_format oai_dc
spelling ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-004116162013-01-07T18:17:16Z http://tel.archives-ouvertes.fr/tel-00411616 http://tel.archives-ouvertes.fr/docs/00/41/16/16/PDF/these.pdf Inférence grammaticale en situations bruitées Tantini, Frédéric [INFO:INFO_OH] Computer Science/Other inférence grammaticale apprentissage actif boules de mots apprentissage bruitée L'inférence grammaticale s'intéresse à l'apprentissage automatique de langages formels. Ces derniers sont organisés en plusieurs classes formant la hiérarchie de Chomsky. Parmi elles, les langages réguliers, reconnus par des automates finis déterministes, forment la classe la plus « simple » à apprendre : l'apprentissage des automates a largement été étudié et a donné naissance à plusieurs algorithmes d'inférence grammaticale.<br /><br />Toutefois, un problème concernant les données est devenu crucial : celui du bruit. Des propositions d'algorithmes ont vu le jour pour essayer de résoudre ce problème, mais nous montrons que les résultats ne sont toujours pas satisfaisants, y compris pour les langages réguliers. Or, puisqu'ils forment la base de la hiérarchie de Chomsky, ce sont toutes les classes de la hiérarchie qui ne peuvent être apprises en situations bruitées.<br /><br />Aussi, nous proposons une nouvelle classe de langages qui semble ne pas souffrir de ce handicap : celle des boules de mots. Nous démontrons que cette classe, de prime abord peu orthodoxe mais utilisée dans de nombreuses applications comme la correction orthographique ou la recherche de plus proches voisins, reste identifiable à la limite même lorsque les données d'apprentissage subissent l'influence d'un bruit non statistique.<br /><br />De plus, nous introduisons les requêtes de correction basées sur la distance d'édition et nous présentons un algorithme d'apprentissage des boules de mots à partir de telles requêtes. Nous montrons expérimentalement que de simples heuristiques a posteriori suffisent à le rendre résistant lorsque l'oracle répond approximativement à de telles requêtes. Ceci justifie encore une<br />fois la robustesse des boules de mots au bruit.<br /><br />Contrairement aux idées reçues, le bruit n'est donc pas une malédiction en inférence grammaticale : les langages à base de distance offrent de nouvelles perspectives. 2009-06-09 FRE PhD thesis Université Jean Monnet - Saint-Etienne
collection NDLTD
language FRE
sources NDLTD
topic [INFO:INFO_OH] Computer Science/Other
inférence grammaticale
apprentissage actif
boules de mots
apprentissage bruitée
spellingShingle [INFO:INFO_OH] Computer Science/Other
inférence grammaticale
apprentissage actif
boules de mots
apprentissage bruitée
Tantini, Frédéric
Inférence grammaticale en situations bruitées
description L'inférence grammaticale s'intéresse à l'apprentissage automatique de langages formels. Ces derniers sont organisés en plusieurs classes formant la hiérarchie de Chomsky. Parmi elles, les langages réguliers, reconnus par des automates finis déterministes, forment la classe la plus « simple » à apprendre : l'apprentissage des automates a largement été étudié et a donné naissance à plusieurs algorithmes d'inférence grammaticale.<br /><br />Toutefois, un problème concernant les données est devenu crucial : celui du bruit. Des propositions d'algorithmes ont vu le jour pour essayer de résoudre ce problème, mais nous montrons que les résultats ne sont toujours pas satisfaisants, y compris pour les langages réguliers. Or, puisqu'ils forment la base de la hiérarchie de Chomsky, ce sont toutes les classes de la hiérarchie qui ne peuvent être apprises en situations bruitées.<br /><br />Aussi, nous proposons une nouvelle classe de langages qui semble ne pas souffrir de ce handicap : celle des boules de mots. Nous démontrons que cette classe, de prime abord peu orthodoxe mais utilisée dans de nombreuses applications comme la correction orthographique ou la recherche de plus proches voisins, reste identifiable à la limite même lorsque les données d'apprentissage subissent l'influence d'un bruit non statistique.<br /><br />De plus, nous introduisons les requêtes de correction basées sur la distance d'édition et nous présentons un algorithme d'apprentissage des boules de mots à partir de telles requêtes. Nous montrons expérimentalement que de simples heuristiques a posteriori suffisent à le rendre résistant lorsque l'oracle répond approximativement à de telles requêtes. Ceci justifie encore une<br />fois la robustesse des boules de mots au bruit.<br /><br />Contrairement aux idées reçues, le bruit n'est donc pas une malédiction en inférence grammaticale : les langages à base de distance offrent de nouvelles perspectives.
author Tantini, Frédéric
author_facet Tantini, Frédéric
author_sort Tantini, Frédéric
title Inférence grammaticale en situations bruitées
title_short Inférence grammaticale en situations bruitées
title_full Inférence grammaticale en situations bruitées
title_fullStr Inférence grammaticale en situations bruitées
title_full_unstemmed Inférence grammaticale en situations bruitées
title_sort inférence grammaticale en situations bruitées
publisher Université Jean Monnet - Saint-Etienne
publishDate 2009
url http://tel.archives-ouvertes.fr/tel-00411616
http://tel.archives-ouvertes.fr/docs/00/41/16/16/PDF/these.pdf
work_keys_str_mv AT tantinifrederic inferencegrammaticaleensituationsbruitees
_version_ 1716451820129222657