Modelagem Semântica de Dados Abertos: A Viabilidade de Aplicação de Word Embeddings sobre o Currículo Lattes

Os currículos cadastrados na Plataforma Lattes do CNPq (Conselho Nacional de Desenvolvimento Científico  e Tecnológico),  são importantes fontes de dados abertos que possibilitam obter informações sobre formação acadêmica, produção científica, projetos de pesquisa e atuação profissional de um conjun...

Full description

Bibliographic Details
Main Authors: Felipe de Paula Oliveira, Thiago Magela Rodrigues Dias, Adilson Luiz Pinto
Format: Article
Language:Portuguese
Published: Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT) 2020-03-01
Series:Ciência da Informação
Subjects:
Online Access:http://revista.ibict.br/ciinf/article/view/4922
id doaj-506b5b527c5a4ab998c5d6b6939e9461
record_format Article
spelling doaj-506b5b527c5a4ab998c5d6b6939e94612020-11-25T03:22:15ZporInstituto Brasileiro de Informação em Ciência e Tecnologia (IBICT)Ciência da Informação0100-19651518-83532020-03-014833651Modelagem Semântica de Dados Abertos: A Viabilidade de Aplicação de Word Embeddings sobre o Currículo LattesFelipe de Paula Oliveira0Thiago Magela Rodrigues Dias1Adilson Luiz Pinto2Programa de Pós-Graduação em Modelagem Matemática e Computacional – CEFET/MG Av. Amazonas 7675 – Nova Gameleira – Belo Horizonte – MG – Brasil - CEP: 30510-000Programa de Pós-Graduação em Modelagem Matemática e Computacional – CEFET/MG Av. Amazonas 7675 – Nova Gameleira – Belo Horizonte – MG – Brasil - CEP: 30510-000Programa de Pós-Graduação em Ciência da Informação da Universidade Federal de Santa Catarina – UFSC Campus Prof. João David Ferreira Lima - Trindade - Florianópolis - Santa Catarina - Brasil - CEP 88.040-900Os currículos cadastrados na Plataforma Lattes do CNPq (Conselho Nacional de Desenvolvimento Científico  e Tecnológico),  são importantes fontes de dados abertos que possibilitam obter informações sobre formação acadêmica, produção científica, projetos de pesquisa e atuação profissional de um conjunto de indivíduos. O que possibilita a realização de diversos tipos de análises bibliométricas, podendo ser aplicados tanto métodos ou modelos tradicionais, quanto alternativos para a avaliação da ciência. O estudo apresentado, trata de afirmar sobre a viabilidade de aplicação de PLN (Processamento de Linguagem Natural) para a avaliação de similaridade semântica sobre os dados cadastrados no currículo Lattes. Para a realização de análises utilizou-se uma amostra de curículos referentes a doutores e realizado o tratamento em um corpus textual, para a representação semântica vetorial, foi aplicada a ferramenta Word2Vec, sendo possível a realização de inferência dos termos. Como resultados foram apresentados índices de similaridade calculados pelo modelo em palavras contidas em títulos de publicaçõeshttp://revista.ibict.br/ciinf/article/view/4922plataforma lattes. processamento de linguagem natural. similaridade semântica.
collection DOAJ
language Portuguese
format Article
sources DOAJ
author Felipe de Paula Oliveira
Thiago Magela Rodrigues Dias
Adilson Luiz Pinto
spellingShingle Felipe de Paula Oliveira
Thiago Magela Rodrigues Dias
Adilson Luiz Pinto
Modelagem Semântica de Dados Abertos: A Viabilidade de Aplicação de Word Embeddings sobre o Currículo Lattes
Ciência da Informação
plataforma lattes. processamento de linguagem natural. similaridade semântica.
author_facet Felipe de Paula Oliveira
Thiago Magela Rodrigues Dias
Adilson Luiz Pinto
author_sort Felipe de Paula Oliveira
title Modelagem Semântica de Dados Abertos: A Viabilidade de Aplicação de Word Embeddings sobre o Currículo Lattes
title_short Modelagem Semântica de Dados Abertos: A Viabilidade de Aplicação de Word Embeddings sobre o Currículo Lattes
title_full Modelagem Semântica de Dados Abertos: A Viabilidade de Aplicação de Word Embeddings sobre o Currículo Lattes
title_fullStr Modelagem Semântica de Dados Abertos: A Viabilidade de Aplicação de Word Embeddings sobre o Currículo Lattes
title_full_unstemmed Modelagem Semântica de Dados Abertos: A Viabilidade de Aplicação de Word Embeddings sobre o Currículo Lattes
title_sort modelagem semântica de dados abertos: a viabilidade de aplicação de word embeddings sobre o currículo lattes
publisher Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT)
series Ciência da Informação
issn 0100-1965
1518-8353
publishDate 2020-03-01
description Os currículos cadastrados na Plataforma Lattes do CNPq (Conselho Nacional de Desenvolvimento Científico  e Tecnológico),  são importantes fontes de dados abertos que possibilitam obter informações sobre formação acadêmica, produção científica, projetos de pesquisa e atuação profissional de um conjunto de indivíduos. O que possibilita a realização de diversos tipos de análises bibliométricas, podendo ser aplicados tanto métodos ou modelos tradicionais, quanto alternativos para a avaliação da ciência. O estudo apresentado, trata de afirmar sobre a viabilidade de aplicação de PLN (Processamento de Linguagem Natural) para a avaliação de similaridade semântica sobre os dados cadastrados no currículo Lattes. Para a realização de análises utilizou-se uma amostra de curículos referentes a doutores e realizado o tratamento em um corpus textual, para a representação semântica vetorial, foi aplicada a ferramenta Word2Vec, sendo possível a realização de inferência dos termos. Como resultados foram apresentados índices de similaridade calculados pelo modelo em palavras contidas em títulos de publicações
topic plataforma lattes. processamento de linguagem natural. similaridade semântica.
url http://revista.ibict.br/ciinf/article/view/4922
work_keys_str_mv AT felipedepaulaoliveira modelagemsemanticadedadosabertosaviabilidadedeaplicacaodewordembeddingssobreocurriculolattes
AT thiagomagelarodriguesdias modelagemsemanticadedadosabertosaviabilidadedeaplicacaodewordembeddingssobreocurriculolattes
AT adilsonluizpinto modelagemsemanticadedadosabertosaviabilidadedeaplicacaodewordembeddingssobreocurriculolattes
_version_ 1724610278263357440