Reconhecimento de entidades nomeadas na ?rea da geologia : bacias sedimentares brasileiras

Submitted by PPG Ci?ncia da Computa??o (ppgcc@pucrs.br) on 2018-05-03T18:01:24Z No. of bitstreams: 1 DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf: 6343384 bytes, checksum: a1d91fe5b12fa5cfdedb20ec1baf5042 (MD5) === Approved for entry into archive by Sheila Dias (sheila.dias@pucrs.br) on 2018-05-14T19...

Full description

Bibliographic Details
Main Author: Amaral, Daniela Oliveira Ferreira do
Other Authors: Vieira, Renata
Format: Others
Language:Portuguese
Published: Pontif?cia Universidade Cat?lica do Rio Grande do Sul 2018
Subjects:
Online Access:http://tede2.pucrs.br/tede2/handle/tede/8035
id ndltd-IBICT-oai-tede2.pucrs.br-tede-8035
record_format oai_dc
collection NDLTD
language Portuguese
format Others
sources NDLTD
topic Reconhecimento de Entidades Nomeadas
Geologia
Bacia Sedimentar Brasileira
Conditional Random Fields
Corpus
Named Entity Recognition
Geology
Brazilian Sedimentary Basin
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
spellingShingle Reconhecimento de Entidades Nomeadas
Geologia
Bacia Sedimentar Brasileira
Conditional Random Fields
Corpus
Named Entity Recognition
Geology
Brazilian Sedimentary Basin
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
Amaral, Daniela Oliveira Ferreira do
Reconhecimento de entidades nomeadas na ?rea da geologia : bacias sedimentares brasileiras
description Submitted by PPG Ci?ncia da Computa??o (ppgcc@pucrs.br) on 2018-05-03T18:01:24Z No. of bitstreams: 1 DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf: 6343384 bytes, checksum: a1d91fe5b12fa5cfdedb20ec1baf5042 (MD5) === Approved for entry into archive by Sheila Dias (sheila.dias@pucrs.br) on 2018-05-14T19:20:24Z (GMT) No. of bitstreams: 1 DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf: 6343384 bytes, checksum: a1d91fe5b12fa5cfdedb20ec1baf5042 (MD5) === Made available in DSpace on 2018-05-14T19:35:09Z (GMT). No. of bitstreams: 1 DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf: 6343384 bytes, checksum: a1d91fe5b12fa5cfdedb20ec1baf5042 (MD5) Previous issue date: 2017-09-14 === The treatment of textual information has been increasingly relevant in many do- mains. One of the first tasks for extracting information from texts is the Named Entities Recognition (NER), which consists of identifying references to certain entities and finding out their classification. There are many NER domains, among them the most usual are medicine and biology. One of the challenging domains in the recognition of Named Entities (NE) is the Geology domain, which is an area lacking computational linguistic resources. This thesis proposes a method for the recognition of relevant NE in the field of Geology, specifically to the subarea of Brazilian Sedimentary Basin, in Portuguese texts. Generic and geological features were defined for the generation of a machine learning model. Among the automatic approaches to NE classification, the most prominent is the Conditional Ran- dom Fields (CRF) probabilistic model. CRF has been effectively used for word processing in natural language. To generate our model, we created GeoCorpus, a reference corpus for Geological NER, annotated by specialists. Experimental evaluations were performed to compare the proposed method with other classifiers. The best results were achieved by CRF, which shows 76,78% of Precision and 54,33% of F-Measure. === O tratamento da informa??o textual torna-se cada vez mais relevante para muitos dom?nios. Nesse sentido, uma das primeira tarefas para Extra??o de Informa??es a partir de textos ? o Reconhecimento de Entidades Nomeadas (REN), que consiste na identifica??o de refer?ncias feitas a determinadas entidades e sua classifica??o. REN compreende muitos dom?nios, entre eles os mais usuais s?o medicina e biologia. Um dos dom?nios desafiadores no reconhecimento de EN ? o de Geologia, sendo essa uma ?rea carente de recursos lingu?sticos computacionais. A presente tese prop?e um m?todo para o reconhecimento de EN relevantes no dom?nio da Geologia, sub?rea Bacia Sedimentar Brasileira, em textos da l?ngua portuguesa. Definiram-se features gen?ricas e geol?gicas para a gera??o do modelo de aprendizado. Entre as abordagens autom?ticas para classifica??o de EN, a mais proeminente ? o modelo probabil?stico Conditional Random Fields (CRF). O CRF tem sido utilizado eficazmente no processamento de textos em linguagem natural. A fim de gerar um modelo de aprendizado foi criado o GeoCorpus, um corpus de refer?ncia para REN Geol?gicas, anotado por especialistas. Avalia??es experimentais foram realizadas com o objetivo de comparar o m?todo proposto com outros classificadores. Destacam-se os melhores resultados para o CRF, o qual alcan?ou 76,78% e 54,33% em Precis?o e Medida-F.
author2 Vieira, Renata
author_facet Vieira, Renata
Amaral, Daniela Oliveira Ferreira do
author Amaral, Daniela Oliveira Ferreira do
author_sort Amaral, Daniela Oliveira Ferreira do
title Reconhecimento de entidades nomeadas na ?rea da geologia : bacias sedimentares brasileiras
title_short Reconhecimento de entidades nomeadas na ?rea da geologia : bacias sedimentares brasileiras
title_full Reconhecimento de entidades nomeadas na ?rea da geologia : bacias sedimentares brasileiras
title_fullStr Reconhecimento de entidades nomeadas na ?rea da geologia : bacias sedimentares brasileiras
title_full_unstemmed Reconhecimento de entidades nomeadas na ?rea da geologia : bacias sedimentares brasileiras
title_sort reconhecimento de entidades nomeadas na ?rea da geologia : bacias sedimentares brasileiras
publisher Pontif?cia Universidade Cat?lica do Rio Grande do Sul
publishDate 2018
url http://tede2.pucrs.br/tede2/handle/tede/8035
work_keys_str_mv AT amaraldanielaoliveiraferreirado reconhecimentodeentidadesnomeadasnareadageologiabaciassedimentaresbrasileiras
_version_ 1718955965413326848
spelling ndltd-IBICT-oai-tede2.pucrs.br-tede-80352019-01-22T02:49:36Z Reconhecimento de entidades nomeadas na ?rea da geologia : bacias sedimentares brasileiras Amaral, Daniela Oliveira Ferreira do Vieira, Renata Reconhecimento de Entidades Nomeadas Geologia Bacia Sedimentar Brasileira Conditional Random Fields Corpus Named Entity Recognition Geology Brazilian Sedimentary Basin CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO Submitted by PPG Ci?ncia da Computa??o (ppgcc@pucrs.br) on 2018-05-03T18:01:24Z No. of bitstreams: 1 DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf: 6343384 bytes, checksum: a1d91fe5b12fa5cfdedb20ec1baf5042 (MD5) Approved for entry into archive by Sheila Dias (sheila.dias@pucrs.br) on 2018-05-14T19:20:24Z (GMT) No. of bitstreams: 1 DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf: 6343384 bytes, checksum: a1d91fe5b12fa5cfdedb20ec1baf5042 (MD5) Made available in DSpace on 2018-05-14T19:35:09Z (GMT). No. of bitstreams: 1 DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf: 6343384 bytes, checksum: a1d91fe5b12fa5cfdedb20ec1baf5042 (MD5) Previous issue date: 2017-09-14 The treatment of textual information has been increasingly relevant in many do- mains. One of the first tasks for extracting information from texts is the Named Entities Recognition (NER), which consists of identifying references to certain entities and finding out their classification. There are many NER domains, among them the most usual are medicine and biology. One of the challenging domains in the recognition of Named Entities (NE) is the Geology domain, which is an area lacking computational linguistic resources. This thesis proposes a method for the recognition of relevant NE in the field of Geology, specifically to the subarea of Brazilian Sedimentary Basin, in Portuguese texts. Generic and geological features were defined for the generation of a machine learning model. Among the automatic approaches to NE classification, the most prominent is the Conditional Ran- dom Fields (CRF) probabilistic model. CRF has been effectively used for word processing in natural language. To generate our model, we created GeoCorpus, a reference corpus for Geological NER, annotated by specialists. Experimental evaluations were performed to compare the proposed method with other classifiers. The best results were achieved by CRF, which shows 76,78% of Precision and 54,33% of F-Measure. O tratamento da informa??o textual torna-se cada vez mais relevante para muitos dom?nios. Nesse sentido, uma das primeira tarefas para Extra??o de Informa??es a partir de textos ? o Reconhecimento de Entidades Nomeadas (REN), que consiste na identifica??o de refer?ncias feitas a determinadas entidades e sua classifica??o. REN compreende muitos dom?nios, entre eles os mais usuais s?o medicina e biologia. Um dos dom?nios desafiadores no reconhecimento de EN ? o de Geologia, sendo essa uma ?rea carente de recursos lingu?sticos computacionais. A presente tese prop?e um m?todo para o reconhecimento de EN relevantes no dom?nio da Geologia, sub?rea Bacia Sedimentar Brasileira, em textos da l?ngua portuguesa. Definiram-se features gen?ricas e geol?gicas para a gera??o do modelo de aprendizado. Entre as abordagens autom?ticas para classifica??o de EN, a mais proeminente ? o modelo probabil?stico Conditional Random Fields (CRF). O CRF tem sido utilizado eficazmente no processamento de textos em linguagem natural. A fim de gerar um modelo de aprendizado foi criado o GeoCorpus, um corpus de refer?ncia para REN Geol?gicas, anotado por especialistas. Avalia??es experimentais foram realizadas com o objetivo de comparar o m?todo proposto com outros classificadores. Destacam-se os melhores resultados para o CRF, o qual alcan?ou 76,78% e 54,33% em Precis?o e Medida-F. 2018-05-14T19:35:09Z 2017-09-14 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis http://tede2.pucrs.br/tede2/handle/tede/8035 por 1974996533081274470 500 500 -862078257083325301 info:eu-repo/semantics/openAccess application/pdf Pontif?cia Universidade Cat?lica do Rio Grande do Sul Programa de P?s-Gradua??o em Ci?ncia da Computa??o PUCRS Brasil Escola Polit?cnica reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul instacron:PUC_RS