[en] A DEPENDENCY TREE ARC FILTER

[pt] A tarefa de Processamento de Linguagem Natural consiste em analisar linguagens naturais de forma computacional, facilitando o desenvolvimento de programas capazes de utilizar dados falados ou escritos. Uma das tarefas mais importantes deste campo é a Análise de Dependência. Tal tarefa consiste...

Full description

Bibliographic Details
Main Author: RENATO SAYAO CRYSTALLINO DA ROCHA
Other Authors: RUY LUIZ MILIDIU
Language:pt
Published: MAXWELL 2018
Subjects:
Online Access:https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=35858@1
https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=35858@2
http://doi.org/10.17771/PUCRio.acad.35858
id ndltd-puc-rio.br-oai-MAXWELL.puc-rio.br-35858
record_format oai_dc
collection NDLTD
language pt
sources NDLTD
topic [pt] CLASSIFICACAO
[en] CLASSIFICATION
[pt] REDES NEURAIS RECORRENTES
[en] RECURRENT NEURAL NETWORKS
[pt] LONG SHORT-TERM MEMORY
[en] LONG SHORT-TERM MEMORY
[pt] ARVORES DE DEPENDENCIA
[en] DEPENDENCY TREES
[pt] CLASSE GRAMATICAL
[en] PART-OF-SPEECH
spellingShingle [pt] CLASSIFICACAO
[en] CLASSIFICATION
[pt] REDES NEURAIS RECORRENTES
[en] RECURRENT NEURAL NETWORKS
[pt] LONG SHORT-TERM MEMORY
[en] LONG SHORT-TERM MEMORY
[pt] ARVORES DE DEPENDENCIA
[en] DEPENDENCY TREES
[pt] CLASSE GRAMATICAL
[en] PART-OF-SPEECH
RENATO SAYAO CRYSTALLINO DA ROCHA
[en] A DEPENDENCY TREE ARC FILTER
description [pt] A tarefa de Processamento de Linguagem Natural consiste em analisar linguagens naturais de forma computacional, facilitando o desenvolvimento de programas capazes de utilizar dados falados ou escritos. Uma das tarefas mais importantes deste campo é a Análise de Dependência. Tal tarefa consiste em analisar a estrutura gramatical de frases visando extrair aprender dados sobre suas relações de dependência. Em uma sentença, essas relações se apresentam em formato de árvore, onde todas as palavras são interdependentes. Devido ao seu uso em uma grande variedade de aplicações como Tradução Automática e Identificação de Papéis Semânticos, diversas pesquisas com diferentes abordagens são feitas nessa área visando melhorar a acurácia das árvores previstas. Uma das abordagens em questão consiste em encarar o problema como uma tarefa de classificação de tokens e dividi-la em três classificadores diferentes, um para cada sub-tarefa, e depois juntar seus resultados de forma incremental. As sub-tarefas consistem em classificar, para cada par de palavras que possuam relação paidependente, a classe gramatical do pai, a posição relativa entre os dois e a distância relativa entre as palavras. Porém, observando pesquisas anteriores nessa abordagem, notamos que o gargalo está na terceira sub-tarefa, a predição da distância entre os tokens. Redes Neurais Recorrentes são modelos que nos permitem trabalhar utilizando sequências de vetores, tornando viáveis problemas de classificação onde tanto a entrada quanto a saída do problema são sequenciais, fazendo delas uma escolha natural para o problema. Esse trabalho utiliza-se de Redes Neurais Recorrentes, em específico Long Short-Term Memory, para realizar a tarefa de predição da distância entre palavras que possuam relações de dependência como um problema de classificação sequence-to-sequence. Para sua avaliação empírica, este trabalho segue a linha de pesquisas anteriores e utiliza os dados do corpus em português disponibilizado pela Conference on Computational Natural Language Learning 2006 Shared Task. O modelo resultante alcança 95.27 por cento de precisão, resultado que é melhor do que o obtido por pesquisas feitas anteriormente para o modelo incremental. === [en] The Natural Language Processing task consists of analyzing the grammatical structure of a sentence written in natural language aiming to learn, identify and extract information related to its dependency structure. This data can be structured like a tree, since every word in a sentence has a head-dependent relation to another word from the same sentence. Since Dependency Parsing is used in many applications like Machine Translation, Semantic Role Labeling and Part-Of-Speech Tagging, researchers aiming to improve the accuracy on their models are approaching this task in many different ways. One of the approaches consists in looking at this task as a token classification problem, using different classifiers for each sub-task and joining them in an incremental way. These sub-tasks consist in classifying, for each head-dependent pair, the Part-Of-Speech tag of the head, the relative position between the two words and the distance between them. However, previous researches using this approach show that the bottleneck lies in the distance classifier. Recurrent Neural Networks are a kind of Neural Network that allows us to work using sequences of vectors, allowing for classification problems where both our input and output are sequences, making them a great choice for the problem at hand. This work studies the use of Recurrent Neural Networks, in specific Long Short-Term Memory networks, for the head-dependent distance classifier sub-task as a sequence-to-sequence classification problem. To evaluate its efficiency, this work follows the line of previous researches and makes use of the Portuguese corpus of the Conference on Computational Natural Language Learning 2006 Shared Task. The resulting model attains 95.27 percent precision, which is better than the previous results obtained using incremental models.
author2 RUY LUIZ MILIDIU
author_facet RUY LUIZ MILIDIU
RENATO SAYAO CRYSTALLINO DA ROCHA
author RENATO SAYAO CRYSTALLINO DA ROCHA
author_sort RENATO SAYAO CRYSTALLINO DA ROCHA
title [en] A DEPENDENCY TREE ARC FILTER
title_short [en] A DEPENDENCY TREE ARC FILTER
title_full [en] A DEPENDENCY TREE ARC FILTER
title_fullStr [en] A DEPENDENCY TREE ARC FILTER
title_full_unstemmed [en] A DEPENDENCY TREE ARC FILTER
title_sort [en] a dependency tree arc filter
publisher MAXWELL
publishDate 2018
url https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=35858@1
https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=35858@2
http://doi.org/10.17771/PUCRio.acad.35858
work_keys_str_mv AT renatosayaocrystallinodarocha enadependencytreearcfilter
AT renatosayaocrystallinodarocha ptumfiltroparaarcosemarvoresdedependencia
_version_ 1718801491820544000
spelling ndltd-puc-rio.br-oai-MAXWELL.puc-rio.br-358582018-12-14T04:18:29Z[en] A DEPENDENCY TREE ARC FILTER [pt] UM FILTRO PARA ARCOS EM ÁRVORES DE DEPENDÊNCIA RENATO SAYAO CRYSTALLINO DA ROCHA[pt] CLASSIFICACAO[en] CLASSIFICATION[pt] REDES NEURAIS RECORRENTES[en] RECURRENT NEURAL NETWORKS[pt] LONG SHORT-TERM MEMORY[en] LONG SHORT-TERM MEMORY[pt] ARVORES DE DEPENDENCIA[en] DEPENDENCY TREES[pt] CLASSE GRAMATICAL[en] PART-OF-SPEECH[pt] A tarefa de Processamento de Linguagem Natural consiste em analisar linguagens naturais de forma computacional, facilitando o desenvolvimento de programas capazes de utilizar dados falados ou escritos. Uma das tarefas mais importantes deste campo é a Análise de Dependência. Tal tarefa consiste em analisar a estrutura gramatical de frases visando extrair aprender dados sobre suas relações de dependência. Em uma sentença, essas relações se apresentam em formato de árvore, onde todas as palavras são interdependentes. Devido ao seu uso em uma grande variedade de aplicações como Tradução Automática e Identificação de Papéis Semânticos, diversas pesquisas com diferentes abordagens são feitas nessa área visando melhorar a acurácia das árvores previstas. Uma das abordagens em questão consiste em encarar o problema como uma tarefa de classificação de tokens e dividi-la em três classificadores diferentes, um para cada sub-tarefa, e depois juntar seus resultados de forma incremental. As sub-tarefas consistem em classificar, para cada par de palavras que possuam relação paidependente, a classe gramatical do pai, a posição relativa entre os dois e a distância relativa entre as palavras. Porém, observando pesquisas anteriores nessa abordagem, notamos que o gargalo está na terceira sub-tarefa, a predição da distância entre os tokens. Redes Neurais Recorrentes são modelos que nos permitem trabalhar utilizando sequências de vetores, tornando viáveis problemas de classificação onde tanto a entrada quanto a saída do problema são sequenciais, fazendo delas uma escolha natural para o problema. Esse trabalho utiliza-se de Redes Neurais Recorrentes, em específico Long Short-Term Memory, para realizar a tarefa de predição da distância entre palavras que possuam relações de dependência como um problema de classificação sequence-to-sequence. Para sua avaliação empírica, este trabalho segue a linha de pesquisas anteriores e utiliza os dados do corpus em português disponibilizado pela Conference on Computational Natural Language Learning 2006 Shared Task. O modelo resultante alcança 95.27 por cento de precisão, resultado que é melhor do que o obtido por pesquisas feitas anteriormente para o modelo incremental.[en] The Natural Language Processing task consists of analyzing the grammatical structure of a sentence written in natural language aiming to learn, identify and extract information related to its dependency structure. This data can be structured like a tree, since every word in a sentence has a head-dependent relation to another word from the same sentence. Since Dependency Parsing is used in many applications like Machine Translation, Semantic Role Labeling and Part-Of-Speech Tagging, researchers aiming to improve the accuracy on their models are approaching this task in many different ways. One of the approaches consists in looking at this task as a token classification problem, using different classifiers for each sub-task and joining them in an incremental way. These sub-tasks consist in classifying, for each head-dependent pair, the Part-Of-Speech tag of the head, the relative position between the two words and the distance between them. However, previous researches using this approach show that the bottleneck lies in the distance classifier. Recurrent Neural Networks are a kind of Neural Network that allows us to work using sequences of vectors, allowing for classification problems where both our input and output are sequences, making them a great choice for the problem at hand. This work studies the use of Recurrent Neural Networks, in specific Long Short-Term Memory networks, for the head-dependent distance classifier sub-task as a sequence-to-sequence classification problem. To evaluate its efficiency, this work follows the line of previous researches and makes use of the Portuguese corpus of the Conference on Computational Natural Language Learning 2006 Shared Task. The resulting model attains 95.27 percent precision, which is better than the previous results obtained using incremental models.MAXWELLRUY LUIZ MILIDIU2018-12-13TEXTOhttps://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=35858@1https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=35858@2http://doi.org/10.17771/PUCRio.acad.35858pt