Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos

Apresenta metodologia para a extração semiautomática de uma taxonomia de conceitos, utilizando técnicas de mineração de textos, a partir de um corpus textual. A classificação de textos é uma prática natural do ser humano e uma tarefa crucial para se trabalhar com grandes repositórios. A técnica de a...

Full description

Bibliographic Details
Main Author: Fabiane dos Reis Braga
Format: Article
Language:Portuguese
Published: Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT) 2018-02-01
Series:Ciência da Informação
Subjects:
Online Access:http://revista.ibict.br/ciinf/article/view/4056
id doaj-668856c6adab499985222bd23ea45731
record_format Article
spelling doaj-668856c6adab499985222bd23ea457312020-11-25T03:11:34ZporInstituto Brasileiro de Informação em Ciência e Tecnologia (IBICT)Ciência da Informação0100-19651518-83532018-02-014533117Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textosFabiane dos Reis Braga0Comissão Nacional de Energia Nuclear - CNENApresenta metodologia para a extração semiautomática de uma taxonomia de conceitos, utilizando técnicas de mineração de textos, a partir de um corpus textual. A classificação de textos é uma prática natural do ser humano e uma tarefa crucial para se trabalhar com grandes repositórios. A técnica de agrupamento (clustering) de documentos fornece uma estrutura lógica e compreensível que facilita a organização, a navegação e a busca. A maioria dos algoritmos de agrupamento utiliza o modelo de saco de palavras (bag of words) para representar um documento. Este modelo gera alta dimensionalidade dos dados, ignora o fato de que diferentes palavras podem ter o mesmo significado e não considera o relacionamento entre elas, presumindo que as palavras são independentes umas das outras. A metodologia proposta apresenta a combinação de um modelo de representação de documentos por conceitos com um método de agrupamento hierárquico de documentos baseado na frequência da coocorrência dos conceitos e uma técnica de rotulação mais representativa, com o objetivo de produzir uma taxonomia de conceitos que possa refletir uma estrutura do domínio do conhecimento. A metodologia foi avaliada em um corpus textual composto de documentos científicos relacionados à área nuclear extraídos da produção científica da Comissão Nacional de Energia Nuclear (CNEN). Os resultados confirmaram que a mineração de textos serve como poderosa técnica para gerenciar conhecimento encapsulado em grandes coleções de documentos e, assim, apoiar a gestão das atividades de pesquisa da área.http://revista.ibict.br/ciinf/article/view/4056gestão do conhecimentoagrupamento de documentosagrupamento por conjunto de itens frequentes
collection DOAJ
language Portuguese
format Article
sources DOAJ
author Fabiane dos Reis Braga
spellingShingle Fabiane dos Reis Braga
Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos
Ciência da Informação
gestão do conhecimento
agrupamento de documentos
agrupamento por conjunto de itens frequentes
author_facet Fabiane dos Reis Braga
author_sort Fabiane dos Reis Braga
title Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos
title_short Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos
title_full Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos
title_fullStr Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos
title_full_unstemmed Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos
title_sort extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos
publisher Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT)
series Ciência da Informação
issn 0100-1965
1518-8353
publishDate 2018-02-01
description Apresenta metodologia para a extração semiautomática de uma taxonomia de conceitos, utilizando técnicas de mineração de textos, a partir de um corpus textual. A classificação de textos é uma prática natural do ser humano e uma tarefa crucial para se trabalhar com grandes repositórios. A técnica de agrupamento (clustering) de documentos fornece uma estrutura lógica e compreensível que facilita a organização, a navegação e a busca. A maioria dos algoritmos de agrupamento utiliza o modelo de saco de palavras (bag of words) para representar um documento. Este modelo gera alta dimensionalidade dos dados, ignora o fato de que diferentes palavras podem ter o mesmo significado e não considera o relacionamento entre elas, presumindo que as palavras são independentes umas das outras. A metodologia proposta apresenta a combinação de um modelo de representação de documentos por conceitos com um método de agrupamento hierárquico de documentos baseado na frequência da coocorrência dos conceitos e uma técnica de rotulação mais representativa, com o objetivo de produzir uma taxonomia de conceitos que possa refletir uma estrutura do domínio do conhecimento. A metodologia foi avaliada em um corpus textual composto de documentos científicos relacionados à área nuclear extraídos da produção científica da Comissão Nacional de Energia Nuclear (CNEN). Os resultados confirmaram que a mineração de textos serve como poderosa técnica para gerenciar conhecimento encapsulado em grandes coleções de documentos e, assim, apoiar a gestão das atividades de pesquisa da área.
topic gestão do conhecimento
agrupamento de documentos
agrupamento por conjunto de itens frequentes
url http://revista.ibict.br/ciinf/article/view/4056
work_keys_str_mv AT fabianedosreisbraga extracaosemiautomaticadetaxonomiaparadominiosespecializadosusandotecnicasdemineracaodetextos
_version_ 1724653463239917568