Geração multi-parametrizada de corpora linguísticos

Fundação de Apoio a Pesquisa e à Inovação Tecnológica do Estado de Sergipe - FAPITEC/SE === Não informado. === O desenvolvimento de software de Processamento de Linguagem Natural (PLN) é altamente dependente da boa qualidade do que chamamos de corpus Linguístico. Um corpus é uma coleção de textos...

Full description

Bibliographic Details
Main Author:	Silva, Nayara Rosy Felix da
Other Authors:	Macedo, Hendrik Teixeira
Format:	Others
Language:	Portuguese
Published:	Universidade Federal de Sergipe 2017
Subjects:	Computação Software (desenvolvimento) Linguística (processamento de dados) Princípios e parâmetros (linguística) Sistemas de recuperação da informação Computing Software development CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Online Access:	https://ri.ufs.br/handle/riufs/3364

id	ndltd-IBICT-oai-ri.ufs.br-riufs-3364
record_format	oai_dc
spelling	ndltd-IBICT-oai-ri.ufs.br-riufs-33642019-01-21T19:33:54Z Geração multi-parametrizada de corpora linguísticos Silva, Nayara Rosy Felix da Macedo, Hendrik Teixeira Computação Software (desenvolvimento) Linguística (processamento de dados) Princípios e parâmetros (linguística) Sistemas de recuperação da informação Computing Software development CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Fundação de Apoio a Pesquisa e à Inovação Tecnológica do Estado de Sergipe - FAPITEC/SE Não informado. O desenvolvimento de software de Processamento de Linguagem Natural (PLN) é altamente dependente da boa qualidade do que chamamos de corpus Linguístico. Um corpus é uma coleção de textos processáveis pelo computador, mas produzidos dentro de um ambiente comunicativo natural. Essa dependência advém do fato de que a maior parte do trabalho realizado com PLN hoje em dia está relacionado ao uso de técnicas de Aprendizado de Máquina para criação de modelos de linguagem. Para sistemas que permitem correção automática e previsão de palavras e sentenças, por exemplo, modelos linguísticos são gerados a partir de um corpus de texto a partir de transcrições usando N-Gram. Infelizmente, corpora linguísticos em português do Brasil não são abundantes e sua confecção não é uma tarefa trivial. Um caminho para a confecção de corpus linguísticos em Português é a confecção de CrawlersWeb. Focused Crawlers, em particular, têm o propósito de coletar páginas da Web que sejam relevantes a um tópico ou interesse específico do usuário. FocusedCrawlers existentes ainda não atendem completamente a necessidades específicas e toda potencialidade de um sistema de PLN. Esta dissertação de mestrado se propõe a contribuir com o Estado da Arte ao propor uma ferramenta para a confecção automática de corpora bem representativos ao objetivo do usuário que possam ser balanceados em respeito a fatores tais como tipo de coleta, domínio, língua, formalidade do discurso e rotulação do texto. A ferramenta permite ainda que etapas de pós-processamento sejam realizadas, como por exemplo limpeza do corpus, construção de um modelo de linguagem e de um modelo de entidades nomeadas. Dois corpora foram criados em duas formas de coleta distintas: por dados da Web (corpus Vaza- Barris) ou por dados do Twitter (corpus Poxim). O corpus VazaBarris possui 86 milhões de palavras e o Poxim possui 3 milhões de palavras. Estes corpora foram avaliados por meio da criação de modelo de linguagem e comparação com dois outros corpora em Português. Os resultados mostram que Poxim alcançou o melhor valor de perplexidade. Poxim também traz maior contribuição quando interpolado com algum outro corpus. Além dos corpora, foi criado um método de coleta automática para streaming de dados, utilizando o algoritmo de Relevance Feedback. Segundo os resultados, utilizar Relevance Feedback para a coleta dos dados melhorou o valor de perplexidade com o corpus coletado inicialmente. Um terceiro corpus foi criado para rotulação de Entidades Nomeadas, o Paramopama. O Paramopama é uma versão estendida PtBR do corpus WikiNer, com inclusão das entidades Pessoa, Localização, Organização e Tempo. Os resultados mostram que o Paramopama apresentou melhoria para as métricas de Precisão, Cobertura e Medida-F na comparação com outros três corpora do Estado da Arte. 2017-09-26T11:34:29Z 2017-09-26T11:34:29Z 2015-08-31 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis SILVA, Nayara Rosy Felix da. Geração multi-parametrizada de corpora linguísticos. 2015. 123 f. Dissertação (Pós-Graduação em Ciência da Computação) - Universidade Federal de Sergipe, São Cristóvão, 2015. https://ri.ufs.br/handle/riufs/3364 por info:eu-repo/semantics/openAccess application/pdf Universidade Federal de Sergipe Pós-Graduação em Ciência da Computação UFS Brasil reponame:Repositório Institucional da UFS instname:Universidade Federal de Sergipe instacron:UFS
collection	NDLTD
language	Portuguese
format	Others
sources	NDLTD
topic	Computação Software (desenvolvimento) Linguística (processamento de dados) Princípios e parâmetros (linguística) Sistemas de recuperação da informação Computing Software development CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
spellingShingle	Computação Software (desenvolvimento) Linguística (processamento de dados) Princípios e parâmetros (linguística) Sistemas de recuperação da informação Computing Software development CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Silva, Nayara Rosy Felix da Geração multi-parametrizada de corpora linguísticos
description	Fundação de Apoio a Pesquisa e à Inovação Tecnológica do Estado de Sergipe - FAPITEC/SE === Não informado. === O desenvolvimento de software de Processamento de Linguagem Natural (PLN) é altamente dependente da boa qualidade do que chamamos de corpus Linguístico. Um corpus é uma coleção de textos processáveis pelo computador, mas produzidos dentro de um ambiente comunicativo natural. Essa dependência advém do fato de que a maior parte do trabalho realizado com PLN hoje em dia está relacionado ao uso de técnicas de Aprendizado de Máquina para criação de modelos de linguagem. Para sistemas que permitem correção automática e previsão de palavras e sentenças, por exemplo, modelos linguísticos são gerados a partir de um corpus de texto a partir de transcrições usando N-Gram. Infelizmente, corpora linguísticos em português do Brasil não são abundantes e sua confecção não é uma tarefa trivial. Um caminho para a confecção de corpus linguísticos em Português é a confecção de CrawlersWeb. Focused Crawlers, em particular, têm o propósito de coletar páginas da Web que sejam relevantes a um tópico ou interesse específico do usuário. FocusedCrawlers existentes ainda não atendem completamente a necessidades específicas e toda potencialidade de um sistema de PLN. Esta dissertação de mestrado se propõe a contribuir com o Estado da Arte ao propor uma ferramenta para a confecção automática de corpora bem representativos ao objetivo do usuário que possam ser balanceados em respeito a fatores tais como tipo de coleta, domínio, língua, formalidade do discurso e rotulação do texto. A ferramenta permite ainda que etapas de pós-processamento sejam realizadas, como por exemplo limpeza do corpus, construção de um modelo de linguagem e de um modelo de entidades nomeadas. Dois corpora foram criados em duas formas de coleta distintas: por dados da Web (corpus Vaza- Barris) ou por dados do Twitter (corpus Poxim). O corpus VazaBarris possui 86 milhões de palavras e o Poxim possui 3 milhões de palavras. Estes corpora foram avaliados por meio da criação de modelo de linguagem e comparação com dois outros corpora em Português. Os resultados mostram que Poxim alcançou o melhor valor de perplexidade. Poxim também traz maior contribuição quando interpolado com algum outro corpus. Além dos corpora, foi criado um método de coleta automática para streaming de dados, utilizando o algoritmo de Relevance Feedback. Segundo os resultados, utilizar Relevance Feedback para a coleta dos dados melhorou o valor de perplexidade com o corpus coletado inicialmente. Um terceiro corpus foi criado para rotulação de Entidades Nomeadas, o Paramopama. O Paramopama é uma versão estendida PtBR do corpus WikiNer, com inclusão das entidades Pessoa, Localização, Organização e Tempo. Os resultados mostram que o Paramopama apresentou melhoria para as métricas de Precisão, Cobertura e Medida-F na comparação com outros três corpora do Estado da Arte.
author2	Macedo, Hendrik Teixeira
author_facet	Macedo, Hendrik Teixeira Silva, Nayara Rosy Felix da
author	Silva, Nayara Rosy Felix da
author_sort	Silva, Nayara Rosy Felix da
title	Geração multi-parametrizada de corpora linguísticos
title_short	Geração multi-parametrizada de corpora linguísticos
title_full	Geração multi-parametrizada de corpora linguísticos
title_fullStr	Geração multi-parametrizada de corpora linguísticos
title_full_unstemmed	Geração multi-parametrizada de corpora linguísticos
title_sort	geração multi-parametrizada de corpora linguísticos
publisher	Universidade Federal de Sergipe
publishDate	2017
url	https://ri.ufs.br/handle/riufs/3364
work_keys_str_mv	AT silvanayararosyfelixda geracaomultiparametrizadadecorporalinguisticos
_version_	1718866439311458304

Geração multi-parametrizada de corpora linguísticos

Similar Items