Summary: | Fundação de Apoio a Pesquisa e à Inovação Tecnológica do Estado de Sergipe - FAPITEC/SE === Não informado. === O desenvolvimento de software de Processamento de Linguagem Natural (PLN) é altamente
dependente da boa qualidade do que chamamos de corpus Linguístico. Um corpus é uma
coleção de textos processáveis pelo computador, mas produzidos dentro de um ambiente
comunicativo natural. Essa dependência advém do fato de que a maior parte do trabalho realizado
com PLN hoje em dia está relacionado ao uso de técnicas de Aprendizado de Máquina
para criação de modelos de linguagem. Para sistemas que permitem correção automática e
previsão de palavras e sentenças, por exemplo, modelos linguísticos são gerados a partir de
um corpus de texto a partir de transcrições usando N-Gram. Infelizmente, corpora linguísticos
em português do Brasil não são abundantes e sua confecção não é uma tarefa trivial.
Um caminho para a confecção de corpus linguísticos em Português é a confecção de CrawlersWeb.
Focused Crawlers, em particular, têm o propósito de coletar páginas da Web que
sejam relevantes a um tópico ou interesse específico do usuário. FocusedCrawlers existentes
ainda não atendem completamente a necessidades específicas e toda potencialidade de um
sistema de PLN. Esta dissertação de mestrado se propõe a contribuir com o Estado da Arte
ao propor uma ferramenta para a confecção automática de corpora bem representativos ao
objetivo do usuário que possam ser balanceados em respeito a fatores tais como tipo de coleta,
domínio, língua, formalidade do discurso e rotulação do texto. A ferramenta permite
ainda que etapas de pós-processamento sejam realizadas, como por exemplo limpeza do corpus,
construção de um modelo de linguagem e de um modelo de entidades nomeadas. Dois
corpora foram criados em duas formas de coleta distintas: por dados da Web (corpus Vaza-
Barris) ou por dados do Twitter (corpus Poxim). O corpus VazaBarris possui 86 milhões de
palavras e o Poxim possui 3 milhões de palavras. Estes corpora foram avaliados por meio
da criação de modelo de linguagem e comparação com dois outros corpora em Português.
Os resultados mostram que Poxim alcançou o melhor valor de perplexidade. Poxim também
traz maior contribuição quando interpolado com algum outro corpus. Além dos corpora, foi
criado um método de coleta automática para streaming de dados, utilizando o algoritmo de
Relevance Feedback. Segundo os resultados, utilizar Relevance Feedback para a coleta dos
dados melhorou o valor de perplexidade com o corpus coletado inicialmente. Um terceiro
corpus foi criado para rotulação de Entidades Nomeadas, o Paramopama. O Paramopama
é uma versão estendida PtBR do corpus WikiNer, com inclusão das entidades Pessoa, Localização,
Organização e Tempo. Os resultados mostram que o Paramopama apresentou
melhoria para as métricas de Precisão, Cobertura e Medida-F na comparação com outros
três corpora do Estado da Arte.
|