Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento

O alinhamento léxico automático é uma tarefa essencial para as técnicas de tradução de máquina empíricas modernas. A abordagem gerativa não-supervisionado têm sido substituída recentemente por uma abordagem discriminativa supervisionada que facilite inclusão de conhecimento linguístico de uma divers...

Full description

Bibliographic Details
Main Author: Schreiner, Paulo
Other Authors: Villavicencio, Aline
Format: Others
Language:Portuguese
Published: 2011
Subjects:
Online Access:http://hdl.handle.net/10183/27658
id ndltd-IBICT-oai-lume.ufrgs.br-10183-27658
record_format oai_dc
spelling ndltd-IBICT-oai-lume.ufrgs.br-10183-276582018-10-21T16:56:39Z Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento Text alignment Schreiner, Paulo Villavicencio, Aline Caseli, Helena de Medeiros Linguística computacional Processamento : Linguagem natural Natural language processing Lexical alignment Machine learning Parallel corpora Multiword expressions UFRGS O alinhamento léxico automático é uma tarefa essencial para as técnicas de tradução de máquina empíricas modernas. A abordagem gerativa não-supervisionado têm sido substituída recentemente por uma abordagem discriminativa supervisionada que facilite inclusão de conhecimento linguístico de uma diversidade de fontes. Dentro deste contexto, este trabalho descreve uma série alinhadores léxicos discriminativos que incorporam heurísticas de pós-processamento com o objetivo de melhorar o desempenho dos mesmos para expressões multi-palavra, que constituem um dos desafios da área de processamento de linguagens naturais atualmente. A avaliação é realizada utilizando um gold-standard obtido a partir da anotação de um corpus paralelo de legendas de filmes. Os alinhadores propostos apresentam um desempenho superior tanto ao obtido por uma baseline quanto ao obtido por um alinhador gerativo do estado-da-arte (Giza++), tanto no caso geral quanto para as expressões foco do trabalho. Lexical alignment is an essential task for modern empirical machine translation techniques. The unsupervised generative approach is being replaced by a supervised, discriminative one that considerably facilitates the inclusion of linguistic knowledge from several sources. Given this context, the present work describes a series of discriminative lexical aligners that incorporate post-processing heuristics with the goal of improving the quality of the alignments of multiword expressions, which is one of the major challanges in natural language processing today. The evaluation is conducted using a gold-standard obtained from a movie subtitle parallel corpus. The aligners proposed show an alignment quality that is superior both to our baseline and to a state-of-the-art generative aligner (Giza++), for the general case as well as for the expressions that are the focus of this work. 2011-02-02T05:59:18Z 2010 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://hdl.handle.net/10183/27658 000764635 por info:eu-repo/semantics/openAccess application/pdf reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul instacron:UFRGS
collection NDLTD
language Portuguese
format Others
sources NDLTD
topic Linguística computacional
Processamento : Linguagem natural
Natural language processing
Lexical alignment
Machine learning
Parallel corpora
Multiword expressions
UFRGS
spellingShingle Linguística computacional
Processamento : Linguagem natural
Natural language processing
Lexical alignment
Machine learning
Parallel corpora
Multiword expressions
UFRGS
Schreiner, Paulo
Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento
description O alinhamento léxico automático é uma tarefa essencial para as técnicas de tradução de máquina empíricas modernas. A abordagem gerativa não-supervisionado têm sido substituída recentemente por uma abordagem discriminativa supervisionada que facilite inclusão de conhecimento linguístico de uma diversidade de fontes. Dentro deste contexto, este trabalho descreve uma série alinhadores léxicos discriminativos que incorporam heurísticas de pós-processamento com o objetivo de melhorar o desempenho dos mesmos para expressões multi-palavra, que constituem um dos desafios da área de processamento de linguagens naturais atualmente. A avaliação é realizada utilizando um gold-standard obtido a partir da anotação de um corpus paralelo de legendas de filmes. Os alinhadores propostos apresentam um desempenho superior tanto ao obtido por uma baseline quanto ao obtido por um alinhador gerativo do estado-da-arte (Giza++), tanto no caso geral quanto para as expressões foco do trabalho. === Lexical alignment is an essential task for modern empirical machine translation techniques. The unsupervised generative approach is being replaced by a supervised, discriminative one that considerably facilitates the inclusion of linguistic knowledge from several sources. Given this context, the present work describes a series of discriminative lexical aligners that incorporate post-processing heuristics with the goal of improving the quality of the alignments of multiword expressions, which is one of the major challanges in natural language processing today. The evaluation is conducted using a gold-standard obtained from a movie subtitle parallel corpus. The aligners proposed show an alignment quality that is superior both to our baseline and to a state-of-the-art generative aligner (Giza++), for the general case as well as for the expressions that are the focus of this work.
author2 Villavicencio, Aline
author_facet Villavicencio, Aline
Schreiner, Paulo
author Schreiner, Paulo
author_sort Schreiner, Paulo
title Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento
title_short Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento
title_full Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento
title_fullStr Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento
title_full_unstemmed Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento
title_sort alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento
publishDate 2011
url http://hdl.handle.net/10183/27658
work_keys_str_mv AT schreinerpaulo alinhamentolexicoutilizandotecnicashibridasdiscriminativasedeposprocessamento
AT schreinerpaulo textalignment
_version_ 1718779672998707200