Reconhecimento de entidades nomeadas na ?rea da geologia : bacias sedimentares brasileiras
Submitted by PPG Ci?ncia da Computa??o (ppgcc@pucrs.br) on 2018-05-03T18:01:24Z No. of bitstreams: 1 DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf: 6343384 bytes, checksum: a1d91fe5b12fa5cfdedb20ec1baf5042 (MD5) === Approved for entry into archive by Sheila Dias (sheila.dias@pucrs.br) on 2018-05-14T19...
Main Author: | |
---|---|
Other Authors: | |
Format: | Others |
Language: | Portuguese |
Published: |
Pontif?cia Universidade Cat?lica do Rio Grande do Sul
2018
|
Subjects: | |
Online Access: | http://tede2.pucrs.br/tede2/handle/tede/8035 |
id |
ndltd-IBICT-oai-tede2.pucrs.br-tede-8035 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
Portuguese |
format |
Others
|
sources |
NDLTD |
topic |
Reconhecimento de Entidades Nomeadas Geologia Bacia Sedimentar Brasileira Conditional Random Fields Corpus Named Entity Recognition Geology Brazilian Sedimentary Basin CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
spellingShingle |
Reconhecimento de Entidades Nomeadas Geologia Bacia Sedimentar Brasileira Conditional Random Fields Corpus Named Entity Recognition Geology Brazilian Sedimentary Basin CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO Amaral, Daniela Oliveira Ferreira do Reconhecimento de entidades nomeadas na ?rea da geologia : bacias sedimentares brasileiras |
description |
Submitted by PPG Ci?ncia da Computa??o (ppgcc@pucrs.br) on 2018-05-03T18:01:24Z
No. of bitstreams: 1
DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf: 6343384 bytes, checksum: a1d91fe5b12fa5cfdedb20ec1baf5042 (MD5) === Approved for entry into archive by Sheila Dias (sheila.dias@pucrs.br) on 2018-05-14T19:20:24Z (GMT) No. of bitstreams: 1
DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf: 6343384 bytes, checksum: a1d91fe5b12fa5cfdedb20ec1baf5042 (MD5) === Made available in DSpace on 2018-05-14T19:35:09Z (GMT). No. of bitstreams: 1
DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf: 6343384 bytes, checksum: a1d91fe5b12fa5cfdedb20ec1baf5042 (MD5)
Previous issue date: 2017-09-14 === The treatment of textual information has been increasingly relevant in many do- mains. One of the first tasks for extracting information from texts is the Named Entities Recognition (NER), which consists of identifying references to certain entities and finding out their classification. There are many NER domains, among them the most usual are medicine and biology. One of the challenging domains in the recognition of Named Entities (NE) is the Geology domain, which is an area lacking computational linguistic resources. This thesis proposes a method for the recognition of relevant NE in the field of Geology, specifically to the subarea of Brazilian Sedimentary Basin, in Portuguese texts. Generic and geological features were defined for the generation of a machine learning model. Among the automatic approaches to NE classification, the most prominent is the Conditional Ran- dom Fields (CRF) probabilistic model. CRF has been effectively used for word processing in natural language. To generate our model, we created GeoCorpus, a reference corpus for Geological NER, annotated by specialists. Experimental evaluations were performed to compare the proposed method with other classifiers. The best results were achieved by CRF, which shows 76,78% of Precision and 54,33% of F-Measure. === O tratamento da informa??o textual torna-se cada vez mais relevante para muitos dom?nios. Nesse sentido, uma das primeira tarefas para Extra??o de Informa??es a partir de textos ? o Reconhecimento de Entidades Nomeadas (REN), que consiste na identifica??o de refer?ncias feitas a determinadas entidades e sua classifica??o. REN compreende muitos dom?nios, entre eles os mais usuais s?o medicina e biologia. Um dos dom?nios desafiadores no reconhecimento de EN ? o de Geologia, sendo essa uma ?rea carente de recursos lingu?sticos computacionais. A presente tese prop?e um m?todo para o reconhecimento de EN relevantes no dom?nio da Geologia, sub?rea Bacia Sedimentar Brasileira, em textos da l?ngua portuguesa. Definiram-se features gen?ricas e geol?gicas para a gera??o do modelo de aprendizado. Entre as abordagens autom?ticas para classifica??o de EN, a mais proeminente ? o modelo probabil?stico Conditional Random Fields (CRF). O CRF tem sido utilizado eficazmente no processamento de textos em linguagem natural. A fim de gerar um modelo de aprendizado foi criado o GeoCorpus, um corpus de refer?ncia para REN Geol?gicas, anotado por especialistas. Avalia??es experimentais foram realizadas com o objetivo de comparar o m?todo proposto com outros classificadores. Destacam-se os melhores resultados para o CRF, o qual alcan?ou 76,78% e 54,33% em Precis?o e Medida-F. |
author2 |
Vieira, Renata |
author_facet |
Vieira, Renata Amaral, Daniela Oliveira Ferreira do |
author |
Amaral, Daniela Oliveira Ferreira do |
author_sort |
Amaral, Daniela Oliveira Ferreira do |
title |
Reconhecimento de entidades nomeadas na ?rea da geologia : bacias sedimentares brasileiras |
title_short |
Reconhecimento de entidades nomeadas na ?rea da geologia : bacias sedimentares brasileiras |
title_full |
Reconhecimento de entidades nomeadas na ?rea da geologia : bacias sedimentares brasileiras |
title_fullStr |
Reconhecimento de entidades nomeadas na ?rea da geologia : bacias sedimentares brasileiras |
title_full_unstemmed |
Reconhecimento de entidades nomeadas na ?rea da geologia : bacias sedimentares brasileiras |
title_sort |
reconhecimento de entidades nomeadas na ?rea da geologia : bacias sedimentares brasileiras |
publisher |
Pontif?cia Universidade Cat?lica do Rio Grande do Sul |
publishDate |
2018 |
url |
http://tede2.pucrs.br/tede2/handle/tede/8035 |
work_keys_str_mv |
AT amaraldanielaoliveiraferreirado reconhecimentodeentidadesnomeadasnareadageologiabaciassedimentaresbrasileiras |
_version_ |
1718955965413326848 |
spelling |
ndltd-IBICT-oai-tede2.pucrs.br-tede-80352019-01-22T02:49:36Z Reconhecimento de entidades nomeadas na ?rea da geologia : bacias sedimentares brasileiras Amaral, Daniela Oliveira Ferreira do Vieira, Renata Reconhecimento de Entidades Nomeadas Geologia Bacia Sedimentar Brasileira Conditional Random Fields Corpus Named Entity Recognition Geology Brazilian Sedimentary Basin CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO Submitted by PPG Ci?ncia da Computa??o (ppgcc@pucrs.br) on 2018-05-03T18:01:24Z No. of bitstreams: 1 DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf: 6343384 bytes, checksum: a1d91fe5b12fa5cfdedb20ec1baf5042 (MD5) Approved for entry into archive by Sheila Dias (sheila.dias@pucrs.br) on 2018-05-14T19:20:24Z (GMT) No. of bitstreams: 1 DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf: 6343384 bytes, checksum: a1d91fe5b12fa5cfdedb20ec1baf5042 (MD5) Made available in DSpace on 2018-05-14T19:35:09Z (GMT). No. of bitstreams: 1 DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf: 6343384 bytes, checksum: a1d91fe5b12fa5cfdedb20ec1baf5042 (MD5) Previous issue date: 2017-09-14 The treatment of textual information has been increasingly relevant in many do- mains. One of the first tasks for extracting information from texts is the Named Entities Recognition (NER), which consists of identifying references to certain entities and finding out their classification. There are many NER domains, among them the most usual are medicine and biology. One of the challenging domains in the recognition of Named Entities (NE) is the Geology domain, which is an area lacking computational linguistic resources. This thesis proposes a method for the recognition of relevant NE in the field of Geology, specifically to the subarea of Brazilian Sedimentary Basin, in Portuguese texts. Generic and geological features were defined for the generation of a machine learning model. Among the automatic approaches to NE classification, the most prominent is the Conditional Ran- dom Fields (CRF) probabilistic model. CRF has been effectively used for word processing in natural language. To generate our model, we created GeoCorpus, a reference corpus for Geological NER, annotated by specialists. Experimental evaluations were performed to compare the proposed method with other classifiers. The best results were achieved by CRF, which shows 76,78% of Precision and 54,33% of F-Measure. O tratamento da informa??o textual torna-se cada vez mais relevante para muitos dom?nios. Nesse sentido, uma das primeira tarefas para Extra??o de Informa??es a partir de textos ? o Reconhecimento de Entidades Nomeadas (REN), que consiste na identifica??o de refer?ncias feitas a determinadas entidades e sua classifica??o. REN compreende muitos dom?nios, entre eles os mais usuais s?o medicina e biologia. Um dos dom?nios desafiadores no reconhecimento de EN ? o de Geologia, sendo essa uma ?rea carente de recursos lingu?sticos computacionais. A presente tese prop?e um m?todo para o reconhecimento de EN relevantes no dom?nio da Geologia, sub?rea Bacia Sedimentar Brasileira, em textos da l?ngua portuguesa. Definiram-se features gen?ricas e geol?gicas para a gera??o do modelo de aprendizado. Entre as abordagens autom?ticas para classifica??o de EN, a mais proeminente ? o modelo probabil?stico Conditional Random Fields (CRF). O CRF tem sido utilizado eficazmente no processamento de textos em linguagem natural. A fim de gerar um modelo de aprendizado foi criado o GeoCorpus, um corpus de refer?ncia para REN Geol?gicas, anotado por especialistas. Avalia??es experimentais foram realizadas com o objetivo de comparar o m?todo proposto com outros classificadores. Destacam-se os melhores resultados para o CRF, o qual alcan?ou 76,78% e 54,33% em Precis?o e Medida-F. 2018-05-14T19:35:09Z 2017-09-14 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis http://tede2.pucrs.br/tede2/handle/tede/8035 por 1974996533081274470 500 500 -862078257083325301 info:eu-repo/semantics/openAccess application/pdf Pontif?cia Universidade Cat?lica do Rio Grande do Sul Programa de P?s-Gradua??o em Ci?ncia da Computa??o PUCRS Brasil Escola Polit?cnica reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul instacron:PUC_RS |