Modelagem Semântica de Dados Abertos: A Viabilidade de Aplicação de Word Embeddings sobre o Currículo Lattes
Os currículos cadastrados na Plataforma Lattes do CNPq (Conselho Nacional de Desenvolvimento Científico e Tecnológico), são importantes fontes de dados abertos que possibilitam obter informações sobre formação acadêmica, produção científica, projetos de pesquisa e atuação profissional de um conjun...
Main Authors: | , , |
---|---|
Format: | Article |
Language: | Portuguese |
Published: |
Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT)
2020-03-01
|
Series: | Ciência da Informação |
Subjects: | |
Online Access: | http://revista.ibict.br/ciinf/article/view/4922 |
id |
doaj-506b5b527c5a4ab998c5d6b6939e9461 |
---|---|
record_format |
Article |
spelling |
doaj-506b5b527c5a4ab998c5d6b6939e94612020-11-25T03:22:15ZporInstituto Brasileiro de Informação em Ciência e Tecnologia (IBICT)Ciência da Informação0100-19651518-83532020-03-014833651Modelagem Semântica de Dados Abertos: A Viabilidade de Aplicação de Word Embeddings sobre o Currículo LattesFelipe de Paula Oliveira0Thiago Magela Rodrigues Dias1Adilson Luiz Pinto2Programa de Pós-Graduação em Modelagem Matemática e Computacional – CEFET/MG Av. Amazonas 7675 – Nova Gameleira – Belo Horizonte – MG – Brasil - CEP: 30510-000Programa de Pós-Graduação em Modelagem Matemática e Computacional – CEFET/MG Av. Amazonas 7675 – Nova Gameleira – Belo Horizonte – MG – Brasil - CEP: 30510-000Programa de Pós-Graduação em Ciência da Informação da Universidade Federal de Santa Catarina – UFSC Campus Prof. João David Ferreira Lima - Trindade - Florianópolis - Santa Catarina - Brasil - CEP 88.040-900Os currículos cadastrados na Plataforma Lattes do CNPq (Conselho Nacional de Desenvolvimento Científico e Tecnológico), são importantes fontes de dados abertos que possibilitam obter informações sobre formação acadêmica, produção científica, projetos de pesquisa e atuação profissional de um conjunto de indivíduos. O que possibilita a realização de diversos tipos de análises bibliométricas, podendo ser aplicados tanto métodos ou modelos tradicionais, quanto alternativos para a avaliação da ciência. O estudo apresentado, trata de afirmar sobre a viabilidade de aplicação de PLN (Processamento de Linguagem Natural) para a avaliação de similaridade semântica sobre os dados cadastrados no currículo Lattes. Para a realização de análises utilizou-se uma amostra de curículos referentes a doutores e realizado o tratamento em um corpus textual, para a representação semântica vetorial, foi aplicada a ferramenta Word2Vec, sendo possível a realização de inferência dos termos. Como resultados foram apresentados índices de similaridade calculados pelo modelo em palavras contidas em títulos de publicaçõeshttp://revista.ibict.br/ciinf/article/view/4922plataforma lattes. processamento de linguagem natural. similaridade semântica. |
collection |
DOAJ |
language |
Portuguese |
format |
Article |
sources |
DOAJ |
author |
Felipe de Paula Oliveira Thiago Magela Rodrigues Dias Adilson Luiz Pinto |
spellingShingle |
Felipe de Paula Oliveira Thiago Magela Rodrigues Dias Adilson Luiz Pinto Modelagem Semântica de Dados Abertos: A Viabilidade de Aplicação de Word Embeddings sobre o Currículo Lattes Ciência da Informação plataforma lattes. processamento de linguagem natural. similaridade semântica. |
author_facet |
Felipe de Paula Oliveira Thiago Magela Rodrigues Dias Adilson Luiz Pinto |
author_sort |
Felipe de Paula Oliveira |
title |
Modelagem Semântica de Dados Abertos: A Viabilidade de Aplicação de Word Embeddings sobre o Currículo Lattes |
title_short |
Modelagem Semântica de Dados Abertos: A Viabilidade de Aplicação de Word Embeddings sobre o Currículo Lattes |
title_full |
Modelagem Semântica de Dados Abertos: A Viabilidade de Aplicação de Word Embeddings sobre o Currículo Lattes |
title_fullStr |
Modelagem Semântica de Dados Abertos: A Viabilidade de Aplicação de Word Embeddings sobre o Currículo Lattes |
title_full_unstemmed |
Modelagem Semântica de Dados Abertos: A Viabilidade de Aplicação de Word Embeddings sobre o Currículo Lattes |
title_sort |
modelagem semântica de dados abertos: a viabilidade de aplicação de word embeddings sobre o currículo lattes |
publisher |
Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT) |
series |
Ciência da Informação |
issn |
0100-1965 1518-8353 |
publishDate |
2020-03-01 |
description |
Os currículos cadastrados na Plataforma Lattes do CNPq (Conselho Nacional de Desenvolvimento Científico e Tecnológico), são importantes fontes de dados abertos que possibilitam obter informações sobre formação acadêmica, produção científica, projetos de pesquisa e atuação profissional de um conjunto de indivíduos. O que possibilita a realização de diversos tipos de análises bibliométricas, podendo ser aplicados tanto métodos ou modelos tradicionais, quanto alternativos para a avaliação da ciência. O estudo apresentado, trata de afirmar sobre a viabilidade de aplicação de PLN (Processamento de Linguagem Natural) para a avaliação de similaridade semântica sobre os dados cadastrados no currículo Lattes. Para a realização de análises utilizou-se uma amostra de curículos referentes a doutores e realizado o tratamento em um corpus textual, para a representação semântica vetorial, foi aplicada a ferramenta Word2Vec, sendo possível a realização de inferência dos termos. Como resultados foram apresentados índices de similaridade calculados pelo modelo em palavras contidas em títulos de publicações |
topic |
plataforma lattes. processamento de linguagem natural. similaridade semântica. |
url |
http://revista.ibict.br/ciinf/article/view/4922 |
work_keys_str_mv |
AT felipedepaulaoliveira modelagemsemanticadedadosabertosaviabilidadedeaplicacaodewordembeddingssobreocurriculolattes AT thiagomagelarodriguesdias modelagemsemanticadedadosabertosaviabilidadedeaplicacaodewordembeddingssobreocurriculolattes AT adilsonluizpinto modelagemsemanticadedadosabertosaviabilidadedeaplicacaodewordembeddingssobreocurriculolattes |
_version_ |
1724610278263357440 |