A MACHINE LEARNING APPROACH FOR PORTUGUESE TEXT CHUNKING
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO === CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICO === A segmentação textual é uma tarefa de Processamento de Linguagem Natural muito relevante, e consiste na divisão de uma sentença em sequências disjuntas de palavras sintaticamente...
Main Author: | |
---|---|
Other Authors: | |
Language: | English |
Published: |
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO
2011
|
Online Access: | http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=29117@1 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=29117@2 |
Summary: | PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO === CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICO === A segmentação textual é uma tarefa de Processamento de Linguagem Natural
muito relevante, e consiste na divisão de uma sentença em sequências disjuntas
de palavras sintaticamente relacionadas. Um dos fatores que contribuem
fortemente para sua importância é que seus resultados são usados como significativos
dados de entrada para problemas linguísticos mais complexos. Dentre
esses problemas estão a análise sintática completa, a identificação de orações,
a análise sintática de dependência, a identificação de papéis semânticos e a
tradução automática. Em particular, abordagens de Aprendizado de Máquina
para estas tarefas beneficiam-se intensamente com o uso de um atributo de
segmentos textuais. Um número respeitável de eficazes estratégias de extração
de segmentos para o inglês foi apresentado ao longo dos últimos anos. No entanto,
até onde podemos determinar, nenhum estudo abrangente foi feito sobre
a segmentação textual para o português, de modo a demonstrar seus benefícios.
O escopo deste trabalho é a língua portuguesa, e seus objetivos são dois. Primeiramente,
analisamos o impacto de diferentes definições de segmentação,
utilizando uma heurística para gerar segmentos que depende de uma análise
sintática completa previamente anotada. Em seguida, propomos modelos de
Aprendizado de Máquina para a extração de segmentos textuais baseados na
técnica Aprendizado de Transformações Guiado por Entropia. Fazemos uso do
corpus Bosque, do projeto Floresta Sintá(c)tica, nos nossos experimentos. Utilizando
os valores determinados diretamente por nossa heurística, um atributo
de segmentos textuais aumenta a métrica F beta igual 1 de um sistema de identificação
de orações para o português em 6.85 e a acurácia de um sistema de análise
sintática de dependência em 1.54. Ademais, nosso melhor extrator de segmentos
apresenta um F beta igual 1 de 87.95 usando anotaçoes automáticas de categoria
gramatical. As descobertas indicam que, de fato, a informação de segmentação
textual derivada por nossa heurística é relevante para tarefas mais elaboradas
cujo foco é o português. Além disso, a eficácia de nossos extratores é comparável à dos similares do estado-da-arte para o inglês, tendo em vista que os
modelos propostos são razoavelmente simples. === Text chunking is a very relevant Natural Language Processing task, and
consists in dividing a sentence into disjoint sequences of syntactically correlated
words. One of the factors that highly contribute to its importance is that its
results are used as a significant input to more complex linguistic problems.
Among those problems we have full parsing, clause identification, dependency
parsing, semantic role labeling and machine translation. In particular, Machine
Learning approaches to these tasks greatly benefit from the use of a chunk
feature. A respectable number of effective chunk extraction strategies for the
English language has been presented during the last few years. However, as
far as we know, no comprehensive study has been done on text chunking for
Portuguese, showing its benefits. The scope of this work is the Portuguese
language, and its objective is twofold. First, we analyze the impact of different
chunk definitions, using a heuristic to generate chunks that relies on previous
full parsing annotation. Then, we propose Machine Learning models for chunk
extraction based on the Entropy Guided Transformation Learning technique.
We employ the Bosque corpus, from the Floresta Sintá(c)tica project, for our
experiments. Using golden values determined by our heuristic, a chunk feature
improves the F beta equal 1 score of a clause identification system for Portuguese by 6.85
and the accuracy of a dependency parsing system by 1.54. Moreover, our best
chunk extractor achieves a F beta equal 1 of 87.95 when automatic part-of-speech tags
are applied. The empirical findings indicate that, indeed, chunk information
derived by our heuristic is relevant to more elaborate tasks targeted on
Portuguese. Furthermore, the effectiveness of our extractors is comparable to
the state-of-the-art similars for English, taking into account that our proposed
models are reasonably simple. |
---|