Combining machine learning and rule-based approaches in Spanish syntactic generation

Aquesta tesi descriu una gramàtica de Generació que combina regles escrites a mà i tècniques d'aprenentatge automàtic. Aquesta gramàtica pertany a un sistema de Traducció Automàtica de qualitat comercial desenvolupat a Microsoft Research. La primera part presenta la gramàtica i les principals e...

Full description

Bibliographic Details
Main Author: Melero Nogués, Maria Teresa
Other Authors: Badia i Cardús, Antoni
Format: Doctoral Thesis
Language:English
Published: Universitat Pompeu Fabra 2006
Subjects:
004
81
Online Access:http://hdl.handle.net/10803/7501
http://nbn-resolving.de/urn:isbn:8469003178
id ndltd-TDX_UPF-oai-www.tdx.cat-10803-7501
record_format oai_dc
spelling ndltd-TDX_UPF-oai-www.tdx.cat-10803-75012013-07-11T03:42:22ZCombining machine learning and rule-based approaches in Spanish syntactic generationMelero Nogués, Maria TeresaSpanish copularobustnessdecision treesmachine learningsentence realizersnatural language generationmachine translationverb copulatiurobustesaarbres de decisiómétodes estadísticsgeneració sintàcticatraducció automàtica00481Aquesta tesi descriu una gramàtica de Generació que combina regles escrites a mà i tècniques d'aprenentatge automàtic. Aquesta gramàtica pertany a un sistema de Traducció Automàtica de qualitat comercial desenvolupat a Microsoft Research. La primera part presenta la gramàtica i les principals estratègies lingüístiques que aquesta gramàtica implementa. Els requeriments de robustesa que reclama l'ús real del sistema de TA, exigeix del Generador un esforç suplementari que es resol afegint un nivell de pre-generació, capaç de garantir la integritat de l'entrada, sense incorporar elements ad-hoc en les regles de la gramàtica. A la segona part, explorem l'ús dels classificadors d'arbres de decisió (DT) per tal d'aprendre automàticament una de les operacions que tenen lloc al mòdul de pre-generació, en concret la selecció lèxica del verb copulatiu en espanyol (ser o estar). Mostrem que és possible inferir a partir d'exemples els contextos per aquest fenòmen lingüístic no trivial, amb gran precisió.This thesis describes a Spanish Generation grammar which combines hand-written rules and Machine Learning techniques. This grammar belongs to a full-scale commercial quality Machine Translation system developed at Microsoft Research. The first part presents the grammar and the linguistic strategies it embodies. The need for robustness in real-world situations in the everyday use of the MT system requires from the Generator an extra effort which is resolved by adding a Pre-Generation layer which is able to fix the input to Generation, without contaminating the grammar rules. In the second part we explore the use of Decision Tree classifiers (DT) for automatically learning one of the operations that take place in the Pre-Generation component, namely lexical selection of the Spanish copula (i.e. ser and estar). We show that it is possible to infer from examples the contexts for this non-trivial linguistic phenomenon with high accuracy.Universitat Pompeu FabraBadia i Cardús, AntoniUniversitat Pompeu Fabra. Institut Universitari de Lingüística Aplicada2006-06-02info:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/publishedVersionapplication/pdfhttp://hdl.handle.net/10803/7501urn:isbn:8469003178TDX (Tesis Doctorals en Xarxa)enginfo:eu-repo/semantics/openAccessADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
collection NDLTD
language English
format Doctoral Thesis
sources NDLTD
topic Spanish copula
robustness
decision trees
machine learning
sentence realizers
natural language generation
machine translation
verb copulatiu
robustesa
arbres de decisió
métodes estadístics
generació sintàctica
traducció automàtica
004
81
spellingShingle Spanish copula
robustness
decision trees
machine learning
sentence realizers
natural language generation
machine translation
verb copulatiu
robustesa
arbres de decisió
métodes estadístics
generació sintàctica
traducció automàtica
004
81
Melero Nogués, Maria Teresa
Combining machine learning and rule-based approaches in Spanish syntactic generation
description Aquesta tesi descriu una gramàtica de Generació que combina regles escrites a mà i tècniques d'aprenentatge automàtic. Aquesta gramàtica pertany a un sistema de Traducció Automàtica de qualitat comercial desenvolupat a Microsoft Research. La primera part presenta la gramàtica i les principals estratègies lingüístiques que aquesta gramàtica implementa. Els requeriments de robustesa que reclama l'ús real del sistema de TA, exigeix del Generador un esforç suplementari que es resol afegint un nivell de pre-generació, capaç de garantir la integritat de l'entrada, sense incorporar elements ad-hoc en les regles de la gramàtica. A la segona part, explorem l'ús dels classificadors d'arbres de decisió (DT) per tal d'aprendre automàticament una de les operacions que tenen lloc al mòdul de pre-generació, en concret la selecció lèxica del verb copulatiu en espanyol (ser o estar). Mostrem que és possible inferir a partir d'exemples els contextos per aquest fenòmen lingüístic no trivial, amb gran precisió. === This thesis describes a Spanish Generation grammar which combines hand-written rules and Machine Learning techniques. This grammar belongs to a full-scale commercial quality Machine Translation system developed at Microsoft Research. The first part presents the grammar and the linguistic strategies it embodies. The need for robustness in real-world situations in the everyday use of the MT system requires from the Generator an extra effort which is resolved by adding a Pre-Generation layer which is able to fix the input to Generation, without contaminating the grammar rules. In the second part we explore the use of Decision Tree classifiers (DT) for automatically learning one of the operations that take place in the Pre-Generation component, namely lexical selection of the Spanish copula (i.e. ser and estar). We show that it is possible to infer from examples the contexts for this non-trivial linguistic phenomenon with high accuracy.
author2 Badia i Cardús, Antoni
author_facet Badia i Cardús, Antoni
Melero Nogués, Maria Teresa
author Melero Nogués, Maria Teresa
author_sort Melero Nogués, Maria Teresa
title Combining machine learning and rule-based approaches in Spanish syntactic generation
title_short Combining machine learning and rule-based approaches in Spanish syntactic generation
title_full Combining machine learning and rule-based approaches in Spanish syntactic generation
title_fullStr Combining machine learning and rule-based approaches in Spanish syntactic generation
title_full_unstemmed Combining machine learning and rule-based approaches in Spanish syntactic generation
title_sort combining machine learning and rule-based approaches in spanish syntactic generation
publisher Universitat Pompeu Fabra
publishDate 2006
url http://hdl.handle.net/10803/7501
http://nbn-resolving.de/urn:isbn:8469003178
work_keys_str_mv AT meleronoguesmariateresa combiningmachinelearningandrulebasedapproachesinspanishsyntacticgeneration
_version_ 1716592857783992320