A MACHINE LEARNING APPROACH FOR PORTUGUESE TEXT CHUNKING
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO === CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICO === A segmentação textual é uma tarefa de Processamento de Linguagem Natural muito relevante, e consiste na divisão de uma sentença em sequências disjuntas de palavras sintaticamente...
Main Author: | |
---|---|
Other Authors: | |
Language: | English |
Published: |
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO
2011
|
Online Access: | http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=29117@1 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=29117@2 |
id |
ndltd-IBICT-oai-MAXWELL.puc-rio.br-29117 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
English |
sources |
NDLTD |
description |
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO === CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICO === A segmentação textual é uma tarefa de Processamento de Linguagem Natural
muito relevante, e consiste na divisão de uma sentença em sequências disjuntas
de palavras sintaticamente relacionadas. Um dos fatores que contribuem
fortemente para sua importância é que seus resultados são usados como significativos
dados de entrada para problemas linguísticos mais complexos. Dentre
esses problemas estão a análise sintática completa, a identificação de orações,
a análise sintática de dependência, a identificação de papéis semânticos e a
tradução automática. Em particular, abordagens de Aprendizado de Máquina
para estas tarefas beneficiam-se intensamente com o uso de um atributo de
segmentos textuais. Um número respeitável de eficazes estratégias de extração
de segmentos para o inglês foi apresentado ao longo dos últimos anos. No entanto,
até onde podemos determinar, nenhum estudo abrangente foi feito sobre
a segmentação textual para o português, de modo a demonstrar seus benefícios.
O escopo deste trabalho é a língua portuguesa, e seus objetivos são dois. Primeiramente,
analisamos o impacto de diferentes definições de segmentação,
utilizando uma heurística para gerar segmentos que depende de uma análise
sintática completa previamente anotada. Em seguida, propomos modelos de
Aprendizado de Máquina para a extração de segmentos textuais baseados na
técnica Aprendizado de Transformações Guiado por Entropia. Fazemos uso do
corpus Bosque, do projeto Floresta Sintá(c)tica, nos nossos experimentos. Utilizando
os valores determinados diretamente por nossa heurística, um atributo
de segmentos textuais aumenta a métrica F beta igual 1 de um sistema de identificação
de orações para o português em 6.85 e a acurácia de um sistema de análise
sintática de dependência em 1.54. Ademais, nosso melhor extrator de segmentos
apresenta um F beta igual 1 de 87.95 usando anotaçoes automáticas de categoria
gramatical. As descobertas indicam que, de fato, a informação de segmentação
textual derivada por nossa heurística é relevante para tarefas mais elaboradas
cujo foco é o português. Além disso, a eficácia de nossos extratores é comparável à dos similares do estado-da-arte para o inglês, tendo em vista que os
modelos propostos são razoavelmente simples. === Text chunking is a very relevant Natural Language Processing task, and
consists in dividing a sentence into disjoint sequences of syntactically correlated
words. One of the factors that highly contribute to its importance is that its
results are used as a significant input to more complex linguistic problems.
Among those problems we have full parsing, clause identification, dependency
parsing, semantic role labeling and machine translation. In particular, Machine
Learning approaches to these tasks greatly benefit from the use of a chunk
feature. A respectable number of effective chunk extraction strategies for the
English language has been presented during the last few years. However, as
far as we know, no comprehensive study has been done on text chunking for
Portuguese, showing its benefits. The scope of this work is the Portuguese
language, and its objective is twofold. First, we analyze the impact of different
chunk definitions, using a heuristic to generate chunks that relies on previous
full parsing annotation. Then, we propose Machine Learning models for chunk
extraction based on the Entropy Guided Transformation Learning technique.
We employ the Bosque corpus, from the Floresta Sintá(c)tica project, for our
experiments. Using golden values determined by our heuristic, a chunk feature
improves the F beta equal 1 score of a clause identification system for Portuguese by 6.85
and the accuracy of a dependency parsing system by 1.54. Moreover, our best
chunk extractor achieves a F beta equal 1 of 87.95 when automatic part-of-speech tags
are applied. The empirical findings indicate that, indeed, chunk information
derived by our heuristic is relevant to more elaborate tasks targeted on
Portuguese. Furthermore, the effectiveness of our extractors is comparable to
the state-of-the-art similars for English, taking into account that our proposed
models are reasonably simple. |
author2 |
RUY LUIZ MILIDIU |
author_facet |
RUY LUIZ MILIDIU GUILHERME CARLOS DE NAPOLI FERREIRA |
author |
GUILHERME CARLOS DE NAPOLI FERREIRA |
spellingShingle |
GUILHERME CARLOS DE NAPOLI FERREIRA A MACHINE LEARNING APPROACH FOR PORTUGUESE TEXT CHUNKING |
author_sort |
GUILHERME CARLOS DE NAPOLI FERREIRA |
title |
A MACHINE LEARNING APPROACH FOR PORTUGUESE TEXT CHUNKING |
title_short |
A MACHINE LEARNING APPROACH FOR PORTUGUESE TEXT CHUNKING |
title_full |
A MACHINE LEARNING APPROACH FOR PORTUGUESE TEXT CHUNKING |
title_fullStr |
A MACHINE LEARNING APPROACH FOR PORTUGUESE TEXT CHUNKING |
title_full_unstemmed |
A MACHINE LEARNING APPROACH FOR PORTUGUESE TEXT CHUNKING |
title_sort |
machine learning approach for portuguese text chunking |
publisher |
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO |
publishDate |
2011 |
url |
http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=29117@1 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=29117@2 |
work_keys_str_mv |
AT guilhermecarlosdenapoliferreira amachinelearningapproachforportuguesetextchunking AT guilhermecarlosdenapoliferreira umaabordagemdeaprendizadodemaquinaparasegmentacaotextualnoportugues AT guilhermecarlosdenapoliferreira machinelearningapproachforportuguesetextchunking |
_version_ |
1718988965215731712 |
spelling |
ndltd-IBICT-oai-MAXWELL.puc-rio.br-291172019-03-01T15:42:49Z A MACHINE LEARNING APPROACH FOR PORTUGUESE TEXT CHUNKING UMA ABORDAGEM DE APRENDIZADO DE MÁQUINA PARA SEGMENTAÇÃO TEXTUAL NO PORTUGUÊS GUILHERME CARLOS DE NAPOLI FERREIRA RUY LUIZ MILIDIU VIOLETA DE SAN TIAGO DANTAS BARBOSA QUENTAL DANIEL SCHWABE RUY LUIZ MILIDIU PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICO A segmentação textual é uma tarefa de Processamento de Linguagem Natural muito relevante, e consiste na divisão de uma sentença em sequências disjuntas de palavras sintaticamente relacionadas. Um dos fatores que contribuem fortemente para sua importância é que seus resultados são usados como significativos dados de entrada para problemas linguísticos mais complexos. Dentre esses problemas estão a análise sintática completa, a identificação de orações, a análise sintática de dependência, a identificação de papéis semânticos e a tradução automática. Em particular, abordagens de Aprendizado de Máquina para estas tarefas beneficiam-se intensamente com o uso de um atributo de segmentos textuais. Um número respeitável de eficazes estratégias de extração de segmentos para o inglês foi apresentado ao longo dos últimos anos. No entanto, até onde podemos determinar, nenhum estudo abrangente foi feito sobre a segmentação textual para o português, de modo a demonstrar seus benefícios. O escopo deste trabalho é a língua portuguesa, e seus objetivos são dois. Primeiramente, analisamos o impacto de diferentes definições de segmentação, utilizando uma heurística para gerar segmentos que depende de uma análise sintática completa previamente anotada. Em seguida, propomos modelos de Aprendizado de Máquina para a extração de segmentos textuais baseados na técnica Aprendizado de Transformações Guiado por Entropia. Fazemos uso do corpus Bosque, do projeto Floresta Sintá(c)tica, nos nossos experimentos. Utilizando os valores determinados diretamente por nossa heurística, um atributo de segmentos textuais aumenta a métrica F beta igual 1 de um sistema de identificação de orações para o português em 6.85 e a acurácia de um sistema de análise sintática de dependência em 1.54. Ademais, nosso melhor extrator de segmentos apresenta um F beta igual 1 de 87.95 usando anotaçoes automáticas de categoria gramatical. As descobertas indicam que, de fato, a informação de segmentação textual derivada por nossa heurística é relevante para tarefas mais elaboradas cujo foco é o português. Além disso, a eficácia de nossos extratores é comparável à dos similares do estado-da-arte para o inglês, tendo em vista que os modelos propostos são razoavelmente simples. Text chunking is a very relevant Natural Language Processing task, and consists in dividing a sentence into disjoint sequences of syntactically correlated words. One of the factors that highly contribute to its importance is that its results are used as a significant input to more complex linguistic problems. Among those problems we have full parsing, clause identification, dependency parsing, semantic role labeling and machine translation. In particular, Machine Learning approaches to these tasks greatly benefit from the use of a chunk feature. A respectable number of effective chunk extraction strategies for the English language has been presented during the last few years. However, as far as we know, no comprehensive study has been done on text chunking for Portuguese, showing its benefits. The scope of this work is the Portuguese language, and its objective is twofold. First, we analyze the impact of different chunk definitions, using a heuristic to generate chunks that relies on previous full parsing annotation. Then, we propose Machine Learning models for chunk extraction based on the Entropy Guided Transformation Learning technique. We employ the Bosque corpus, from the Floresta Sintá(c)tica project, for our experiments. Using golden values determined by our heuristic, a chunk feature improves the F beta equal 1 score of a clause identification system for Portuguese by 6.85 and the accuracy of a dependency parsing system by 1.54. Moreover, our best chunk extractor achieves a F beta equal 1 of 87.95 when automatic part-of-speech tags are applied. The empirical findings indicate that, indeed, chunk information derived by our heuristic is relevant to more elaborate tasks targeted on Portuguese. Furthermore, the effectiveness of our extractors is comparable to the state-of-the-art similars for English, taking into account that our proposed models are reasonably simple. 2011-06-10 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=29117@1 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=29117@2 eng info:eu-repo/semantics/openAccess PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO PPG EM INFORMÁTICA PUC-Rio BR reponame:Repositório Institucional da PUC_RIO instname:Pontifícia Universidade Católica do Rio de Janeiro instacron:PUC_RIO |