A MACHINE LEARNING APPROACH FOR PORTUGUESE TEXT CHUNKING

PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO === CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICO === A segmentação textual é uma tarefa de Processamento de Linguagem Natural muito relevante, e consiste na divisão de uma sentença em sequências disjuntas de palavras sintaticamente...

Full description

Bibliographic Details
Main Author: GUILHERME CARLOS DE NAPOLI FERREIRA
Other Authors: RUY LUIZ MILIDIU
Language:English
Published: PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO 2011
Online Access:http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=29117@1
http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=29117@2
id ndltd-IBICT-oai-MAXWELL.puc-rio.br-29117
record_format oai_dc
collection NDLTD
language English
sources NDLTD
description PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO === CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICO === A segmentação textual é uma tarefa de Processamento de Linguagem Natural muito relevante, e consiste na divisão de uma sentença em sequências disjuntas de palavras sintaticamente relacionadas. Um dos fatores que contribuem fortemente para sua importância é que seus resultados são usados como significativos dados de entrada para problemas linguísticos mais complexos. Dentre esses problemas estão a análise sintática completa, a identificação de orações, a análise sintática de dependência, a identificação de papéis semânticos e a tradução automática. Em particular, abordagens de Aprendizado de Máquina para estas tarefas beneficiam-se intensamente com o uso de um atributo de segmentos textuais. Um número respeitável de eficazes estratégias de extração de segmentos para o inglês foi apresentado ao longo dos últimos anos. No entanto, até onde podemos determinar, nenhum estudo abrangente foi feito sobre a segmentação textual para o português, de modo a demonstrar seus benefícios. O escopo deste trabalho é a língua portuguesa, e seus objetivos são dois. Primeiramente, analisamos o impacto de diferentes definições de segmentação, utilizando uma heurística para gerar segmentos que depende de uma análise sintática completa previamente anotada. Em seguida, propomos modelos de Aprendizado de Máquina para a extração de segmentos textuais baseados na técnica Aprendizado de Transformações Guiado por Entropia. Fazemos uso do corpus Bosque, do projeto Floresta Sintá(c)tica, nos nossos experimentos. Utilizando os valores determinados diretamente por nossa heurística, um atributo de segmentos textuais aumenta a métrica F beta igual 1 de um sistema de identificação de orações para o português em 6.85 e a acurácia de um sistema de análise sintática de dependência em 1.54. Ademais, nosso melhor extrator de segmentos apresenta um F beta igual 1 de 87.95 usando anotaçoes automáticas de categoria gramatical. As descobertas indicam que, de fato, a informação de segmentação textual derivada por nossa heurística é relevante para tarefas mais elaboradas cujo foco é o português. Além disso, a eficácia de nossos extratores é comparável à dos similares do estado-da-arte para o inglês, tendo em vista que os modelos propostos são razoavelmente simples. === Text chunking is a very relevant Natural Language Processing task, and consists in dividing a sentence into disjoint sequences of syntactically correlated words. One of the factors that highly contribute to its importance is that its results are used as a significant input to more complex linguistic problems. Among those problems we have full parsing, clause identification, dependency parsing, semantic role labeling and machine translation. In particular, Machine Learning approaches to these tasks greatly benefit from the use of a chunk feature. A respectable number of effective chunk extraction strategies for the English language has been presented during the last few years. However, as far as we know, no comprehensive study has been done on text chunking for Portuguese, showing its benefits. The scope of this work is the Portuguese language, and its objective is twofold. First, we analyze the impact of different chunk definitions, using a heuristic to generate chunks that relies on previous full parsing annotation. Then, we propose Machine Learning models for chunk extraction based on the Entropy Guided Transformation Learning technique. We employ the Bosque corpus, from the Floresta Sintá(c)tica project, for our experiments. Using golden values determined by our heuristic, a chunk feature improves the F beta equal 1 score of a clause identification system for Portuguese by 6.85 and the accuracy of a dependency parsing system by 1.54. Moreover, our best chunk extractor achieves a F beta equal 1 of 87.95 when automatic part-of-speech tags are applied. The empirical findings indicate that, indeed, chunk information derived by our heuristic is relevant to more elaborate tasks targeted on Portuguese. Furthermore, the effectiveness of our extractors is comparable to the state-of-the-art similars for English, taking into account that our proposed models are reasonably simple.
author2 RUY LUIZ MILIDIU
author_facet RUY LUIZ MILIDIU
GUILHERME CARLOS DE NAPOLI FERREIRA
author GUILHERME CARLOS DE NAPOLI FERREIRA
spellingShingle GUILHERME CARLOS DE NAPOLI FERREIRA
A MACHINE LEARNING APPROACH FOR PORTUGUESE TEXT CHUNKING
author_sort GUILHERME CARLOS DE NAPOLI FERREIRA
title A MACHINE LEARNING APPROACH FOR PORTUGUESE TEXT CHUNKING
title_short A MACHINE LEARNING APPROACH FOR PORTUGUESE TEXT CHUNKING
title_full A MACHINE LEARNING APPROACH FOR PORTUGUESE TEXT CHUNKING
title_fullStr A MACHINE LEARNING APPROACH FOR PORTUGUESE TEXT CHUNKING
title_full_unstemmed A MACHINE LEARNING APPROACH FOR PORTUGUESE TEXT CHUNKING
title_sort machine learning approach for portuguese text chunking
publisher PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO
publishDate 2011
url http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=29117@1
http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=29117@2
work_keys_str_mv AT guilhermecarlosdenapoliferreira amachinelearningapproachforportuguesetextchunking
AT guilhermecarlosdenapoliferreira umaabordagemdeaprendizadodemaquinaparasegmentacaotextualnoportugues
AT guilhermecarlosdenapoliferreira machinelearningapproachforportuguesetextchunking
_version_ 1718988965215731712
spelling ndltd-IBICT-oai-MAXWELL.puc-rio.br-291172019-03-01T15:42:49Z A MACHINE LEARNING APPROACH FOR PORTUGUESE TEXT CHUNKING UMA ABORDAGEM DE APRENDIZADO DE MÁQUINA PARA SEGMENTAÇÃO TEXTUAL NO PORTUGUÊS GUILHERME CARLOS DE NAPOLI FERREIRA RUY LUIZ MILIDIU VIOLETA DE SAN TIAGO DANTAS BARBOSA QUENTAL DANIEL SCHWABE RUY LUIZ MILIDIU PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICO A segmentação textual é uma tarefa de Processamento de Linguagem Natural muito relevante, e consiste na divisão de uma sentença em sequências disjuntas de palavras sintaticamente relacionadas. Um dos fatores que contribuem fortemente para sua importância é que seus resultados são usados como significativos dados de entrada para problemas linguísticos mais complexos. Dentre esses problemas estão a análise sintática completa, a identificação de orações, a análise sintática de dependência, a identificação de papéis semânticos e a tradução automática. Em particular, abordagens de Aprendizado de Máquina para estas tarefas beneficiam-se intensamente com o uso de um atributo de segmentos textuais. Um número respeitável de eficazes estratégias de extração de segmentos para o inglês foi apresentado ao longo dos últimos anos. No entanto, até onde podemos determinar, nenhum estudo abrangente foi feito sobre a segmentação textual para o português, de modo a demonstrar seus benefícios. O escopo deste trabalho é a língua portuguesa, e seus objetivos são dois. Primeiramente, analisamos o impacto de diferentes definições de segmentação, utilizando uma heurística para gerar segmentos que depende de uma análise sintática completa previamente anotada. Em seguida, propomos modelos de Aprendizado de Máquina para a extração de segmentos textuais baseados na técnica Aprendizado de Transformações Guiado por Entropia. Fazemos uso do corpus Bosque, do projeto Floresta Sintá(c)tica, nos nossos experimentos. Utilizando os valores determinados diretamente por nossa heurística, um atributo de segmentos textuais aumenta a métrica F beta igual 1 de um sistema de identificação de orações para o português em 6.85 e a acurácia de um sistema de análise sintática de dependência em 1.54. Ademais, nosso melhor extrator de segmentos apresenta um F beta igual 1 de 87.95 usando anotaçoes automáticas de categoria gramatical. As descobertas indicam que, de fato, a informação de segmentação textual derivada por nossa heurística é relevante para tarefas mais elaboradas cujo foco é o português. Além disso, a eficácia de nossos extratores é comparável à dos similares do estado-da-arte para o inglês, tendo em vista que os modelos propostos são razoavelmente simples. Text chunking is a very relevant Natural Language Processing task, and consists in dividing a sentence into disjoint sequences of syntactically correlated words. One of the factors that highly contribute to its importance is that its results are used as a significant input to more complex linguistic problems. Among those problems we have full parsing, clause identification, dependency parsing, semantic role labeling and machine translation. In particular, Machine Learning approaches to these tasks greatly benefit from the use of a chunk feature. A respectable number of effective chunk extraction strategies for the English language has been presented during the last few years. However, as far as we know, no comprehensive study has been done on text chunking for Portuguese, showing its benefits. The scope of this work is the Portuguese language, and its objective is twofold. First, we analyze the impact of different chunk definitions, using a heuristic to generate chunks that relies on previous full parsing annotation. Then, we propose Machine Learning models for chunk extraction based on the Entropy Guided Transformation Learning technique. We employ the Bosque corpus, from the Floresta Sintá(c)tica project, for our experiments. Using golden values determined by our heuristic, a chunk feature improves the F beta equal 1 score of a clause identification system for Portuguese by 6.85 and the accuracy of a dependency parsing system by 1.54. Moreover, our best chunk extractor achieves a F beta equal 1 of 87.95 when automatic part-of-speech tags are applied. The empirical findings indicate that, indeed, chunk information derived by our heuristic is relevant to more elaborate tasks targeted on Portuguese. Furthermore, the effectiveness of our extractors is comparable to the state-of-the-art similars for English, taking into account that our proposed models are reasonably simple. 2011-06-10 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=29117@1 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=29117@2 eng info:eu-repo/semantics/openAccess PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO PPG EM INFORMÁTICA PUC-Rio BR reponame:Repositório Institucional da PUC_RIO instname:Pontifícia Universidade Católica do Rio de Janeiro instacron:PUC_RIO