Uma utilidade para o reconhecimento de topónimos em documentos medievais

Este artigo apresenta o método de construção duma ferramenta para a anotação de entidades geográficas mencionadas em textos medievais. A nova ferramenta foi desenvolvida a partir dos módulos de língua contemporânea do LinguaKit, pacote multilingue de ferramentas de PLN. Uma coleção de corpora anot...

Full description

Bibliographic Details
Main Authors: Xavier Canosa, Pablo Gamallo, Xavier Varela, José Ángel Taboada, Paulo Martínez Lema, Marcos Garcia
Format: Article
Language:Catalan
Published: Universidade do Minho & Universidade de Vigo 2019-07-01
Series:Linguamática
Subjects:
Online Access:https://www.linguamatica.com/index.php/linguamatica/article/view/291
id doaj-d480d305715c4cfc889a2cafa06fae45
record_format Article
spelling doaj-d480d305715c4cfc889a2cafa06fae452020-11-24T21:50:23ZcatUniversidade do Minho & Universidade de VigoLinguamática1647-08182019-07-0111110.21814/lm.11.1.291Uma utilidade para o reconhecimento de topónimos em documentos medievaisXavier CanosaPablo Gamallo0Xavier VarelaJosé Ángel TaboadaPaulo Martínez LemaMarcos GarciaUniversidade de Santiago de Compostela Este artigo apresenta o método de construção duma ferramenta para a anotação de entidades geográficas mencionadas em textos medievais. A nova ferramenta foi desenvolvida a partir dos módulos de língua contemporânea do LinguaKit, pacote multilingue de ferramentas de PLN. Uma coleção de corpora anotados manualmente serviu de recurso para elaborar uma lista de topónimos medievais (gazetteers) e observar padrões para a melhora e implementação de novas regras de reconhecimento dos nomes de lugar. Depois da lista de entidades geográficas, os ativadores contextuais (triggers) foram o recurso determinante na melhora da abrangência. Para o produto final, fizeram-se também ajustes menores na procura de recolher os elementos mais comuns do léxico e os contextos gramaticais das entidades geográficas mencionadas. Ainda que muito trabalho fica por fazer na elaboração de listas para entidades não geográficas, na construção dum modelo de língua medieval e um lexicon específico, o novo módulo pode ser utilizado para anotar textos e mostra uma melhora significativa a respeito dos módulos previamente existentes. https://www.linguamatica.com/index.php/linguamatica/article/view/291entidades geográficasdeteção de topónimosreconhecimento de entidades mencionadas
collection DOAJ
language Catalan
format Article
sources DOAJ
author Xavier Canosa
Pablo Gamallo
Xavier Varela
José Ángel Taboada
Paulo Martínez Lema
Marcos Garcia
spellingShingle Xavier Canosa
Pablo Gamallo
Xavier Varela
José Ángel Taboada
Paulo Martínez Lema
Marcos Garcia
Uma utilidade para o reconhecimento de topónimos em documentos medievais
Linguamática
entidades geográficas
deteção de topónimos
reconhecimento de entidades mencionadas
author_facet Xavier Canosa
Pablo Gamallo
Xavier Varela
José Ángel Taboada
Paulo Martínez Lema
Marcos Garcia
author_sort Xavier Canosa
title Uma utilidade para o reconhecimento de topónimos em documentos medievais
title_short Uma utilidade para o reconhecimento de topónimos em documentos medievais
title_full Uma utilidade para o reconhecimento de topónimos em documentos medievais
title_fullStr Uma utilidade para o reconhecimento de topónimos em documentos medievais
title_full_unstemmed Uma utilidade para o reconhecimento de topónimos em documentos medievais
title_sort uma utilidade para o reconhecimento de topónimos em documentos medievais
publisher Universidade do Minho & Universidade de Vigo
series Linguamática
issn 1647-0818
publishDate 2019-07-01
description Este artigo apresenta o método de construção duma ferramenta para a anotação de entidades geográficas mencionadas em textos medievais. A nova ferramenta foi desenvolvida a partir dos módulos de língua contemporânea do LinguaKit, pacote multilingue de ferramentas de PLN. Uma coleção de corpora anotados manualmente serviu de recurso para elaborar uma lista de topónimos medievais (gazetteers) e observar padrões para a melhora e implementação de novas regras de reconhecimento dos nomes de lugar. Depois da lista de entidades geográficas, os ativadores contextuais (triggers) foram o recurso determinante na melhora da abrangência. Para o produto final, fizeram-se também ajustes menores na procura de recolher os elementos mais comuns do léxico e os contextos gramaticais das entidades geográficas mencionadas. Ainda que muito trabalho fica por fazer na elaboração de listas para entidades não geográficas, na construção dum modelo de língua medieval e um lexicon específico, o novo módulo pode ser utilizado para anotar textos e mostra uma melhora significativa a respeito dos módulos previamente existentes.
topic entidades geográficas
deteção de topónimos
reconhecimento de entidades mencionadas
url https://www.linguamatica.com/index.php/linguamatica/article/view/291
work_keys_str_mv AT xaviercanosa umautilidadeparaoreconhecimentodetoponimosemdocumentosmedievais
AT pablogamallo umautilidadeparaoreconhecimentodetoponimosemdocumentosmedievais
AT xaviervarela umautilidadeparaoreconhecimentodetoponimosemdocumentosmedievais
AT joseangeltaboada umautilidadeparaoreconhecimentodetoponimosemdocumentosmedievais
AT paulomartinezlema umautilidadeparaoreconhecimentodetoponimosemdocumentosmedievais
AT marcosgarcia umautilidadeparaoreconhecimentodetoponimosemdocumentosmedievais
_version_ 1725884449019658240