Comparação do processo de categorização de documentos utilizando palavras-chave e citações em um domínio de conhecimento restrito
Resumo O processo de categorização requer a extração de elementos representativos de um documento de modo que sua essência possa ser utilizada na identificação de similaridades e na geração de categorias. O objetivo deste trabalho é analisar as dificuldades e os resultados encontrados em dois proces...
Main Authors: | , , |
---|---|
Format: | Article |
Language: | English |
Published: |
Pontificia Universidade Católica de Campinas
|
Series: | Transinformação |
Subjects: | |
Online Access: | http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103-37862016000100087&lng=en&tlng=en |
id |
doaj-1b10f936ed1b47de972380803a3288b3 |
---|---|
record_format |
Article |
spelling |
doaj-1b10f936ed1b47de972380803a3288b32020-11-24T23:37:47ZengPontificia Universidade Católica de CampinasTransinformação2318-0889281879610.1590/2318-08892016002800007S0103-37862016000100087Comparação do processo de categorização de documentos utilizando palavras-chave e citações em um domínio de conhecimento restritoMagali Rezende Gouvêa MEIRELESBeatriz Valadares CENDÓNPaulo Eduardo Maciel de ALMEIDAResumo O processo de categorização requer a extração de elementos representativos de um documento de modo que sua essência possa ser utilizada na identificação de similaridades e na geração de categorias. O objetivo deste trabalho é analisar as dificuldades e os resultados encontrados em dois processos diferentes de categorização de documentos de um domínio de conhecimento restrito, o primeiro, baseado no uso de palavras-chave e o segundo, na utilização de citações para representação dos documentos. Para exemplificar a utilização de diferentes atributos na representação dos documentos foram realizados dois experimentos. O pri-meiro utilizou um algoritmo de categorização baseado em palavras-chave. O segundo experimento gerou as categorias, utilizando Redes Neurais Artificiais, a partir das citações dos artigos. Em um domínio de conhecimento restrito, como o utilizado neste trabalho, foi possível evidenciar a dificuldade na formação de grupos que utilizam palavras-chave como atributo do processo de categorização devido à grande similaridade existente entre aquelas utilizadas pelos autores dos artigos. As citações podem ser, como mostrado no segundo experimento, um atributo alternativo e mais eficiente para esse processo. A formação de um grupo de artigos com um expressivo acoplamento bibliográfico e uma forte relação semântica comprovou a validade do método proposto. A presente pesquisa detalha a metodologia utilizada nos experimentos, mostrando a importância de uma criteriosa fase de pré-processamento para a confiabilidade das bases de dados. Este estudo pode contribuir com as pesquisas relacionadas à representação de documentos em processos de categorização e de recuperação de informação.http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103-37862016000100087&lng=en&tlng=enCitation analysisCategoriesArtificial inteligenceInformation retrievalInformation representation |
collection |
DOAJ |
language |
English |
format |
Article |
sources |
DOAJ |
author |
Magali Rezende Gouvêa MEIRELES Beatriz Valadares CENDÓN Paulo Eduardo Maciel de ALMEIDA |
spellingShingle |
Magali Rezende Gouvêa MEIRELES Beatriz Valadares CENDÓN Paulo Eduardo Maciel de ALMEIDA Comparação do processo de categorização de documentos utilizando palavras-chave e citações em um domínio de conhecimento restrito Transinformação Citation analysis Categories Artificial inteligence Information retrieval Information representation |
author_facet |
Magali Rezende Gouvêa MEIRELES Beatriz Valadares CENDÓN Paulo Eduardo Maciel de ALMEIDA |
author_sort |
Magali Rezende Gouvêa MEIRELES |
title |
Comparação do processo de categorização de documentos utilizando palavras-chave e citações em um domínio de conhecimento restrito |
title_short |
Comparação do processo de categorização de documentos utilizando palavras-chave e citações em um domínio de conhecimento restrito |
title_full |
Comparação do processo de categorização de documentos utilizando palavras-chave e citações em um domínio de conhecimento restrito |
title_fullStr |
Comparação do processo de categorização de documentos utilizando palavras-chave e citações em um domínio de conhecimento restrito |
title_full_unstemmed |
Comparação do processo de categorização de documentos utilizando palavras-chave e citações em um domínio de conhecimento restrito |
title_sort |
comparação do processo de categorização de documentos utilizando palavras-chave e citações em um domínio de conhecimento restrito |
publisher |
Pontificia Universidade Católica de Campinas |
series |
Transinformação |
issn |
2318-0889 |
description |
Resumo O processo de categorização requer a extração de elementos representativos de um documento de modo que sua essência possa ser utilizada na identificação de similaridades e na geração de categorias. O objetivo deste trabalho é analisar as dificuldades e os resultados encontrados em dois processos diferentes de categorização de documentos de um domínio de conhecimento restrito, o primeiro, baseado no uso de palavras-chave e o segundo, na utilização de citações para representação dos documentos. Para exemplificar a utilização de diferentes atributos na representação dos documentos foram realizados dois experimentos. O pri-meiro utilizou um algoritmo de categorização baseado em palavras-chave. O segundo experimento gerou as categorias, utilizando Redes Neurais Artificiais, a partir das citações dos artigos. Em um domínio de conhecimento restrito, como o utilizado neste trabalho, foi possível evidenciar a dificuldade na formação de grupos que utilizam palavras-chave como atributo do processo de categorização devido à grande similaridade existente entre aquelas utilizadas pelos autores dos artigos. As citações podem ser, como mostrado no segundo experimento, um atributo alternativo e mais eficiente para esse processo. A formação de um grupo de artigos com um expressivo acoplamento bibliográfico e uma forte relação semântica comprovou a validade do método proposto. A presente pesquisa detalha a metodologia utilizada nos experimentos, mostrando a importância de uma criteriosa fase de pré-processamento para a confiabilidade das bases de dados. Este estudo pode contribuir com as pesquisas relacionadas à representação de documentos em processos de categorização e de recuperação de informação. |
topic |
Citation analysis Categories Artificial inteligence Information retrieval Information representation |
url |
http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103-37862016000100087&lng=en&tlng=en |
work_keys_str_mv |
AT magalirezendegouveameireles comparacaodoprocessodecategorizacaodedocumentosutilizandopalavraschaveecitacoesemumdominiodeconhecimentorestrito AT beatrizvaladarescendon comparacaodoprocessodecategorizacaodedocumentosutilizandopalavraschaveecitacoesemumdominiodeconhecimentorestrito AT pauloeduardomacieldealmeida comparacaodoprocessodecategorizacaodedocumentosutilizandopalavraschaveecitacoesemumdominiodeconhecimentorestrito |
_version_ |
1725519167936790528 |