Comparação do processo de categorização de documentos utilizando palavras-chave e citações em um domínio de conhecimento restrito

Resumo O processo de categorização requer a extração de elementos representativos de um documento de modo que sua essência possa ser utilizada na identificação de similaridades e na geração de categorias. O objetivo deste trabalho é analisar as dificuldades e os resultados encontrados em dois proces...

Full description

Bibliographic Details
Main Authors: Magali Rezende Gouvêa MEIRELES, Beatriz Valadares CENDÓN, Paulo Eduardo Maciel de ALMEIDA
Format: Article
Language:English
Published: Pontificia Universidade Católica de Campinas
Series:Transinformação
Subjects:
Online Access:http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103-37862016000100087&lng=en&tlng=en
id doaj-1b10f936ed1b47de972380803a3288b3
record_format Article
spelling doaj-1b10f936ed1b47de972380803a3288b32020-11-24T23:37:47ZengPontificia Universidade Católica de CampinasTransinformação2318-0889281879610.1590/2318-08892016002800007S0103-37862016000100087Comparação do processo de categorização de documentos utilizando palavras-chave e citações em um domínio de conhecimento restritoMagali Rezende Gouvêa MEIRELESBeatriz Valadares CENDÓNPaulo Eduardo Maciel de ALMEIDAResumo O processo de categorização requer a extração de elementos representativos de um documento de modo que sua essência possa ser utilizada na identificação de similaridades e na geração de categorias. O objetivo deste trabalho é analisar as dificuldades e os resultados encontrados em dois processos diferentes de categorização de documentos de um domínio de conhecimento restrito, o primeiro, baseado no uso de palavras-chave e o segundo, na utilização de citações para representação dos documentos. Para exemplificar a utilização de diferentes atributos na representação dos documentos foram realizados dois experimentos. O pri-meiro utilizou um algoritmo de categorização baseado em palavras-chave. O segundo experimento gerou as categorias, utilizando Redes Neurais Artificiais, a partir das citações dos artigos. Em um domínio de conhecimento restrito, como o utilizado neste trabalho, foi possível evidenciar a dificuldade na formação de grupos que utilizam palavras-chave como atributo do processo de categorização devido à grande similaridade existente entre aquelas utilizadas pelos autores dos artigos. As citações podem ser, como mostrado no segundo experimento, um atributo alternativo e mais eficiente para esse processo. A formação de um grupo de artigos com um expressivo acoplamento bibliográfico e uma forte relação semântica comprovou a validade do método proposto. A presente pesquisa detalha a metodologia utilizada nos experimentos, mostrando a importância de uma criteriosa fase de pré-processamento para a confiabilidade das bases de dados. Este estudo pode contribuir com as pesquisas relacionadas à representação de documentos em processos de categorização e de recuperação de informação.http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103-37862016000100087&lng=en&tlng=enCitation analysisCategoriesArtificial inteligenceInformation retrievalInformation representation
collection DOAJ
language English
format Article
sources DOAJ
author Magali Rezende Gouvêa MEIRELES
Beatriz Valadares CENDÓN
Paulo Eduardo Maciel de ALMEIDA
spellingShingle Magali Rezende Gouvêa MEIRELES
Beatriz Valadares CENDÓN
Paulo Eduardo Maciel de ALMEIDA
Comparação do processo de categorização de documentos utilizando palavras-chave e citações em um domínio de conhecimento restrito
Transinformação
Citation analysis
Categories
Artificial inteligence
Information retrieval
Information representation
author_facet Magali Rezende Gouvêa MEIRELES
Beatriz Valadares CENDÓN
Paulo Eduardo Maciel de ALMEIDA
author_sort Magali Rezende Gouvêa MEIRELES
title Comparação do processo de categorização de documentos utilizando palavras-chave e citações em um domínio de conhecimento restrito
title_short Comparação do processo de categorização de documentos utilizando palavras-chave e citações em um domínio de conhecimento restrito
title_full Comparação do processo de categorização de documentos utilizando palavras-chave e citações em um domínio de conhecimento restrito
title_fullStr Comparação do processo de categorização de documentos utilizando palavras-chave e citações em um domínio de conhecimento restrito
title_full_unstemmed Comparação do processo de categorização de documentos utilizando palavras-chave e citações em um domínio de conhecimento restrito
title_sort comparação do processo de categorização de documentos utilizando palavras-chave e citações em um domínio de conhecimento restrito
publisher Pontificia Universidade Católica de Campinas
series Transinformação
issn 2318-0889
description Resumo O processo de categorização requer a extração de elementos representativos de um documento de modo que sua essência possa ser utilizada na identificação de similaridades e na geração de categorias. O objetivo deste trabalho é analisar as dificuldades e os resultados encontrados em dois processos diferentes de categorização de documentos de um domínio de conhecimento restrito, o primeiro, baseado no uso de palavras-chave e o segundo, na utilização de citações para representação dos documentos. Para exemplificar a utilização de diferentes atributos na representação dos documentos foram realizados dois experimentos. O pri-meiro utilizou um algoritmo de categorização baseado em palavras-chave. O segundo experimento gerou as categorias, utilizando Redes Neurais Artificiais, a partir das citações dos artigos. Em um domínio de conhecimento restrito, como o utilizado neste trabalho, foi possível evidenciar a dificuldade na formação de grupos que utilizam palavras-chave como atributo do processo de categorização devido à grande similaridade existente entre aquelas utilizadas pelos autores dos artigos. As citações podem ser, como mostrado no segundo experimento, um atributo alternativo e mais eficiente para esse processo. A formação de um grupo de artigos com um expressivo acoplamento bibliográfico e uma forte relação semântica comprovou a validade do método proposto. A presente pesquisa detalha a metodologia utilizada nos experimentos, mostrando a importância de uma criteriosa fase de pré-processamento para a confiabilidade das bases de dados. Este estudo pode contribuir com as pesquisas relacionadas à representação de documentos em processos de categorização e de recuperação de informação.
topic Citation analysis
Categories
Artificial inteligence
Information retrieval
Information representation
url http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103-37862016000100087&lng=en&tlng=en
work_keys_str_mv AT magalirezendegouveameireles comparacaodoprocessodecategorizacaodedocumentosutilizandopalavraschaveecitacoesemumdominiodeconhecimentorestrito
AT beatrizvaladarescendon comparacaodoprocessodecategorizacaodedocumentosutilizandopalavraschaveecitacoesemumdominiodeconhecimentorestrito
AT pauloeduardomacieldealmeida comparacaodoprocessodecategorizacaodedocumentosutilizandopalavraschaveecitacoesemumdominiodeconhecimentorestrito
_version_ 1725519167936790528