Uma utilidade para o reconhecimento de topónimos em documentos medievais
Este artigo apresenta o método de construção duma ferramenta para a anotação de entidades geográficas mencionadas em textos medievais. A nova ferramenta foi desenvolvida a partir dos módulos de língua contemporânea do LinguaKit, pacote multilingue de ferramentas de PLN. Uma coleção de corpora anot...
Main Authors: | , , , , , |
---|---|
Format: | Article |
Language: | Catalan |
Published: |
Universidade do Minho & Universidade de Vigo
2019-07-01
|
Series: | Linguamática |
Subjects: | |
Online Access: | https://www.linguamatica.com/index.php/linguamatica/article/view/291 |
id |
doaj-d480d305715c4cfc889a2cafa06fae45 |
---|---|
record_format |
Article |
spelling |
doaj-d480d305715c4cfc889a2cafa06fae452020-11-24T21:50:23ZcatUniversidade do Minho & Universidade de VigoLinguamática1647-08182019-07-0111110.21814/lm.11.1.291Uma utilidade para o reconhecimento de topónimos em documentos medievaisXavier CanosaPablo Gamallo0Xavier VarelaJosé Ángel TaboadaPaulo Martínez LemaMarcos GarciaUniversidade de Santiago de Compostela Este artigo apresenta o método de construção duma ferramenta para a anotação de entidades geográficas mencionadas em textos medievais. A nova ferramenta foi desenvolvida a partir dos módulos de língua contemporânea do LinguaKit, pacote multilingue de ferramentas de PLN. Uma coleção de corpora anotados manualmente serviu de recurso para elaborar uma lista de topónimos medievais (gazetteers) e observar padrões para a melhora e implementação de novas regras de reconhecimento dos nomes de lugar. Depois da lista de entidades geográficas, os ativadores contextuais (triggers) foram o recurso determinante na melhora da abrangência. Para o produto final, fizeram-se também ajustes menores na procura de recolher os elementos mais comuns do léxico e os contextos gramaticais das entidades geográficas mencionadas. Ainda que muito trabalho fica por fazer na elaboração de listas para entidades não geográficas, na construção dum modelo de língua medieval e um lexicon específico, o novo módulo pode ser utilizado para anotar textos e mostra uma melhora significativa a respeito dos módulos previamente existentes. https://www.linguamatica.com/index.php/linguamatica/article/view/291entidades geográficasdeteção de topónimosreconhecimento de entidades mencionadas |
collection |
DOAJ |
language |
Catalan |
format |
Article |
sources |
DOAJ |
author |
Xavier Canosa Pablo Gamallo Xavier Varela José Ángel Taboada Paulo Martínez Lema Marcos Garcia |
spellingShingle |
Xavier Canosa Pablo Gamallo Xavier Varela José Ángel Taboada Paulo Martínez Lema Marcos Garcia Uma utilidade para o reconhecimento de topónimos em documentos medievais Linguamática entidades geográficas deteção de topónimos reconhecimento de entidades mencionadas |
author_facet |
Xavier Canosa Pablo Gamallo Xavier Varela José Ángel Taboada Paulo Martínez Lema Marcos Garcia |
author_sort |
Xavier Canosa |
title |
Uma utilidade para o reconhecimento de topónimos em documentos medievais |
title_short |
Uma utilidade para o reconhecimento de topónimos em documentos medievais |
title_full |
Uma utilidade para o reconhecimento de topónimos em documentos medievais |
title_fullStr |
Uma utilidade para o reconhecimento de topónimos em documentos medievais |
title_full_unstemmed |
Uma utilidade para o reconhecimento de topónimos em documentos medievais |
title_sort |
uma utilidade para o reconhecimento de topónimos em documentos medievais |
publisher |
Universidade do Minho & Universidade de Vigo |
series |
Linguamática |
issn |
1647-0818 |
publishDate |
2019-07-01 |
description |
Este artigo apresenta o método de construção duma ferramenta para a anotação de entidades geográficas mencionadas em textos medievais. A nova ferramenta foi desenvolvida a partir dos módulos de língua
contemporânea do LinguaKit, pacote multilingue de ferramentas de PLN. Uma coleção de corpora anotados manualmente serviu de recurso para elaborar uma lista de topónimos medievais (gazetteers) e
observar padrões para a melhora e implementação de novas regras de reconhecimento dos nomes de lugar. Depois da lista de entidades geográficas, os ativadores contextuais (triggers) foram o recurso determinante na melhora da abrangência. Para o produto final, fizeram-se também ajustes menores na procura de recolher os elementos mais comuns do léxico e os contextos gramaticais das entidades geográficas mencionadas. Ainda que muito trabalho fica por fazer na elaboração de listas para entidades não geográficas, na construção dum modelo de língua medieval e um lexicon específico, o novo módulo pode ser utilizado para anotar textos e mostra uma melhora significativa a respeito dos módulos previamente existentes.
|
topic |
entidades geográficas deteção de topónimos reconhecimento de entidades mencionadas |
url |
https://www.linguamatica.com/index.php/linguamatica/article/view/291 |
work_keys_str_mv |
AT xaviercanosa umautilidadeparaoreconhecimentodetoponimosemdocumentosmedievais AT pablogamallo umautilidadeparaoreconhecimentodetoponimosemdocumentosmedievais AT xaviervarela umautilidadeparaoreconhecimentodetoponimosemdocumentosmedievais AT joseangeltaboada umautilidadeparaoreconhecimentodetoponimosemdocumentosmedievais AT paulomartinezlema umautilidadeparaoreconhecimentodetoponimosemdocumentosmedievais AT marcosgarcia umautilidadeparaoreconhecimentodetoponimosemdocumentosmedievais |
_version_ |
1725884449019658240 |