Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos
Apresenta metodologia para a extração semiautomática de uma taxonomia de conceitos, utilizando técnicas de mineração de textos, a partir de um corpus textual. A classificação de textos é uma prática natural do ser humano e uma tarefa crucial para se trabalhar com grandes repositórios. A técnica de a...
Main Author: | |
---|---|
Format: | Article |
Language: | Portuguese |
Published: |
Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT)
2018-02-01
|
Series: | Ciência da Informação |
Subjects: | |
Online Access: | http://revista.ibict.br/ciinf/article/view/4056 |
id |
doaj-668856c6adab499985222bd23ea45731 |
---|---|
record_format |
Article |
spelling |
doaj-668856c6adab499985222bd23ea457312020-11-25T03:11:34ZporInstituto Brasileiro de Informação em Ciência e Tecnologia (IBICT)Ciência da Informação0100-19651518-83532018-02-014533117Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textosFabiane dos Reis Braga0Comissão Nacional de Energia Nuclear - CNENApresenta metodologia para a extração semiautomática de uma taxonomia de conceitos, utilizando técnicas de mineração de textos, a partir de um corpus textual. A classificação de textos é uma prática natural do ser humano e uma tarefa crucial para se trabalhar com grandes repositórios. A técnica de agrupamento (clustering) de documentos fornece uma estrutura lógica e compreensível que facilita a organização, a navegação e a busca. A maioria dos algoritmos de agrupamento utiliza o modelo de saco de palavras (bag of words) para representar um documento. Este modelo gera alta dimensionalidade dos dados, ignora o fato de que diferentes palavras podem ter o mesmo significado e não considera o relacionamento entre elas, presumindo que as palavras são independentes umas das outras. A metodologia proposta apresenta a combinação de um modelo de representação de documentos por conceitos com um método de agrupamento hierárquico de documentos baseado na frequência da coocorrência dos conceitos e uma técnica de rotulação mais representativa, com o objetivo de produzir uma taxonomia de conceitos que possa refletir uma estrutura do domínio do conhecimento. A metodologia foi avaliada em um corpus textual composto de documentos científicos relacionados à área nuclear extraídos da produção científica da Comissão Nacional de Energia Nuclear (CNEN). Os resultados confirmaram que a mineração de textos serve como poderosa técnica para gerenciar conhecimento encapsulado em grandes coleções de documentos e, assim, apoiar a gestão das atividades de pesquisa da área.http://revista.ibict.br/ciinf/article/view/4056gestão do conhecimentoagrupamento de documentosagrupamento por conjunto de itens frequentes |
collection |
DOAJ |
language |
Portuguese |
format |
Article |
sources |
DOAJ |
author |
Fabiane dos Reis Braga |
spellingShingle |
Fabiane dos Reis Braga Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos Ciência da Informação gestão do conhecimento agrupamento de documentos agrupamento por conjunto de itens frequentes |
author_facet |
Fabiane dos Reis Braga |
author_sort |
Fabiane dos Reis Braga |
title |
Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos |
title_short |
Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos |
title_full |
Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos |
title_fullStr |
Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos |
title_full_unstemmed |
Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos |
title_sort |
extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos |
publisher |
Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT) |
series |
Ciência da Informação |
issn |
0100-1965 1518-8353 |
publishDate |
2018-02-01 |
description |
Apresenta metodologia para a extração semiautomática de uma taxonomia de conceitos, utilizando técnicas de mineração de textos, a partir de um corpus textual. A classificação de textos é uma prática natural do ser humano e uma tarefa crucial para se trabalhar com grandes repositórios. A técnica de agrupamento (clustering) de documentos fornece uma estrutura lógica e compreensível que facilita a organização, a navegação e a busca. A maioria dos algoritmos de agrupamento utiliza o modelo de saco de palavras (bag of words) para representar um documento. Este modelo gera alta dimensionalidade dos dados, ignora o fato de que diferentes palavras podem ter o mesmo significado e não considera o relacionamento entre elas, presumindo que as palavras são independentes umas das outras. A metodologia proposta apresenta a combinação de um modelo de representação de documentos por conceitos com um método de agrupamento hierárquico de documentos baseado na frequência da coocorrência dos conceitos e uma técnica de rotulação mais representativa, com o objetivo de produzir uma taxonomia de conceitos que possa refletir uma estrutura do domínio do conhecimento. A metodologia foi avaliada em um corpus textual composto de documentos científicos relacionados à área nuclear extraídos da produção científica da Comissão Nacional de Energia Nuclear (CNEN). Os resultados confirmaram que a mineração de textos serve como poderosa técnica para gerenciar conhecimento encapsulado em grandes coleções de documentos e, assim, apoiar a gestão das atividades de pesquisa da área. |
topic |
gestão do conhecimento agrupamento de documentos agrupamento por conjunto de itens frequentes |
url |
http://revista.ibict.br/ciinf/article/view/4056 |
work_keys_str_mv |
AT fabianedosreisbraga extracaosemiautomaticadetaxonomiaparadominiosespecializadosusandotecnicasdemineracaodetextos |
_version_ |
1724653463239917568 |