Populando ontologias através de informações em HTML - o caso do currículo lattes

A Plataforma Lattes é, hoje, a principal base de currículos dos pesquisadores brasileiros. Os currículos da Plataforma Lattes armazenam de forma padronizada dados profissionais, acadêmicos, de produções bibliográficas e outras informações dos pesquisadores. Através de uma base de Currículos Lattes,...

Full description

Bibliographic Details
Main Author: Castaño, André Casado
Other Authors: Wassermann, Renata
Format: Others
Language:pt
Published: Biblioteca Digitais de Teses e Dissertações da USP 2008
Subjects:
Online Access:http://www.teses.usp.br/teses/disponiveis/45/45134/tde-12082008-130204/
id ndltd-usp.br-oai-teses.usp.br-tde-12082008-130204
record_format oai_dc
spelling ndltd-usp.br-oai-teses.usp.br-tde-12082008-1302042019-05-09T19:15:52Z Populando ontologias através de informações em HTML - o caso do currículo lattes Populating ontologies using HTML information - the currículo lattes case Castaño, André Casado semantic web ontology Curriculo Lattes OWL SPARQL Coreference web semântica ontologia Currículo Lattes OWL SPARQL Co-referência A Plataforma Lattes é, hoje, a principal base de currículos dos pesquisadores brasileiros. Os currículos da Plataforma Lattes armazenam de forma padronizada dados profissionais, acadêmicos, de produções bibliográficas e outras informações dos pesquisadores. Através de uma base de Currículos Lattes, podem ser gerados vários tipos de relatórios consolidados. As ferramentas existentes da Plataforma Lattes não são capazes de detectar alguns problemas que aparecem na geração dos relatórios consolidados como duplicidades de citações ou produções bibliográficas classificadas de maneiras distintas por cada autor, gerando um número total de publicações errado. Esse problema faz com que os relatórios gerados necessitem ser revistos pelos pesquisadores e essas falhas deste processo são a principal inspiração deste projeto. Neste trabalho, utilizamos como fonte de informações currículos da Plataforma Lattes para popular uma ontologia e utilizá-la principalmente como uma base de dados a ser consultada para geração de relatórios. Analisamos todo o processo de extração de informações a partir de arquivos HTML e seu posterior processamento para inserí-las corretamente dentro da ontologia, de acordo com sua semântica. Com a ontologia corretamente populada, mostramos também algumas consultas que podem ser realizadas e fazemos uma análise dos métodos e abordagens utilizadas em todo processo, comentando seus pontos fracos e fortes, visando detalhar todas as dificuldades existentes no processo de população (instanciação) automática de uma ontologia. Lattes Platform is the main database of Brazilian researchers resumés in use nowadays. It stores in a standardized form professional, academic, bibliographical productions and other data from these researchers. From these Lattes resumés database, several types of reports can be generated. The tools available for Lattes platform are unable to detect some of the problems that emerge when generating consolidated reports, such as citation duplicity or bibliographical productions misclassified by their authors, generating an incorrect number of publications. This problem demands a revision performed by the researcher on the reports generated, and the flaws of this process are the main inspiration for this project. In this work we use the Lattes platform resumés database as the source for populating an ontology that is intended to be used to generate reports. We analyze the whole process of information gathering from HTML files and its post-processing to insert them correctly in the ontology, according to its semantics. With this ontology correctly populated, we show some new reports that can be generated and we perform also an analysis of the methods and approaches used in the whole process, highlighting their strengths and weaknesses, detailing the dificulties faced in the automated populating process (instantiation) of an ontology. Biblioteca Digitais de Teses e Dissertações da USP Wassermann, Renata 2008-05-06 Dissertação de Mestrado application/pdf http://www.teses.usp.br/teses/disponiveis/45/45134/tde-12082008-130204/ pt Liberar o conteúdo para acesso público.
collection NDLTD
language pt
format Others
sources NDLTD
topic semantic web ontology Curriculo Lattes OWL SPARQL Coreference
web semântica ontologia Currículo Lattes OWL SPARQL Co-referência
spellingShingle semantic web ontology Curriculo Lattes OWL SPARQL Coreference
web semântica ontologia Currículo Lattes OWL SPARQL Co-referência
Castaño, André Casado
Populando ontologias através de informações em HTML - o caso do currículo lattes
description A Plataforma Lattes é, hoje, a principal base de currículos dos pesquisadores brasileiros. Os currículos da Plataforma Lattes armazenam de forma padronizada dados profissionais, acadêmicos, de produções bibliográficas e outras informações dos pesquisadores. Através de uma base de Currículos Lattes, podem ser gerados vários tipos de relatórios consolidados. As ferramentas existentes da Plataforma Lattes não são capazes de detectar alguns problemas que aparecem na geração dos relatórios consolidados como duplicidades de citações ou produções bibliográficas classificadas de maneiras distintas por cada autor, gerando um número total de publicações errado. Esse problema faz com que os relatórios gerados necessitem ser revistos pelos pesquisadores e essas falhas deste processo são a principal inspiração deste projeto. Neste trabalho, utilizamos como fonte de informações currículos da Plataforma Lattes para popular uma ontologia e utilizá-la principalmente como uma base de dados a ser consultada para geração de relatórios. Analisamos todo o processo de extração de informações a partir de arquivos HTML e seu posterior processamento para inserí-las corretamente dentro da ontologia, de acordo com sua semântica. Com a ontologia corretamente populada, mostramos também algumas consultas que podem ser realizadas e fazemos uma análise dos métodos e abordagens utilizadas em todo processo, comentando seus pontos fracos e fortes, visando detalhar todas as dificuldades existentes no processo de população (instanciação) automática de uma ontologia. === Lattes Platform is the main database of Brazilian researchers resumés in use nowadays. It stores in a standardized form professional, academic, bibliographical productions and other data from these researchers. From these Lattes resumés database, several types of reports can be generated. The tools available for Lattes platform are unable to detect some of the problems that emerge when generating consolidated reports, such as citation duplicity or bibliographical productions misclassified by their authors, generating an incorrect number of publications. This problem demands a revision performed by the researcher on the reports generated, and the flaws of this process are the main inspiration for this project. In this work we use the Lattes platform resumés database as the source for populating an ontology that is intended to be used to generate reports. We analyze the whole process of information gathering from HTML files and its post-processing to insert them correctly in the ontology, according to its semantics. With this ontology correctly populated, we show some new reports that can be generated and we perform also an analysis of the methods and approaches used in the whole process, highlighting their strengths and weaknesses, detailing the dificulties faced in the automated populating process (instantiation) of an ontology.
author2 Wassermann, Renata
author_facet Wassermann, Renata
Castaño, André Casado
author Castaño, André Casado
author_sort Castaño, André Casado
title Populando ontologias através de informações em HTML - o caso do currículo lattes
title_short Populando ontologias através de informações em HTML - o caso do currículo lattes
title_full Populando ontologias através de informações em HTML - o caso do currículo lattes
title_fullStr Populando ontologias através de informações em HTML - o caso do currículo lattes
title_full_unstemmed Populando ontologias através de informações em HTML - o caso do currículo lattes
title_sort populando ontologias através de informações em html - o caso do currículo lattes
publisher Biblioteca Digitais de Teses e Dissertações da USP
publishDate 2008
url http://www.teses.usp.br/teses/disponiveis/45/45134/tde-12082008-130204/
work_keys_str_mv AT castanoandrecasado populandoontologiasatravesdeinformacoesemhtmlocasodocurriculolattes
AT castanoandrecasado populatingontologiesusinghtmlinformationthecurriculolattescase
_version_ 1719060193277378560