Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de Linguagem

A maioria dos documentos textuais, produzidos no contexto das mais diversas aplicações, encontra-se relacionado com algum tipo de contexto geográfico. Contudo, os métodos tradicionais para a prospecção de informação em colecções de documentos vêem os textos como conjuntos de termos, ignorando outros...

Full description

Bibliographic Details
Main Authors:	Duarte Dias, Ivo Anastácio, Bruno Martins
Format:	Article
Language:	Catalan
Published:	Universidade do Minho & Universidade de Vigo 2012-12-01
Series:	Linguamática
Subjects:	Processamento de Texto Recuperação de Informação Geográfica Geocodificação de Documentos
Online Access:	http://linguamatica.com/index.php/linguamatica/article/view/139

id	doaj-536d9f5633414f8aaca0e670cb76fd5a
record_format	Article
spelling	doaj-536d9f5633414f8aaca0e670cb76fd5a2020-11-24T21:05:15ZcatUniversidade do Minho & Universidade de VigoLinguamática1647-08182012-12-0142Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de LinguagemDuarte Dias0Ivo Anastácio1Bruno Martins2Instituto Superior TécnicoInstituto Superior TécnicoInstituto Superior TécnicoA maioria dos documentos textuais, produzidos no contexto das mais diversas aplicações, encontra-se relacionado com algum tipo de contexto geográfico. Contudo, os métodos tradicionais para a prospecção de informação em colecções de documentos vêem os textos como conjuntos de termos, ignorando outros aspectos. Mais recentemente, a recuperação de informação com suporte ao contexto geográfico tem capturado a atenção de diversos investigadores em áreas relacionadas com a prospecção de informação e o processamento de linguagem natural, envisionando o suporte para tarefas como a pesquisa e visualização de informação textual, com base em representações cartográficas. Neste trabalho, comparamos experimentalmente diferentes técnicas automáticas, as quais utilizam classificadores baseados em modelos de linguagem, para a atribuição de coordenadas geoespaciais de latitude e longitude a novos documentos, usando apenas o texto dos documentos como evidência de suporte. Medimos os resultados obtidos com modelos de linguagem baseados em n-gramas de caracteres ou de termos, usando colecções de artigos georreferenciados da Wikipédia em três línguas distintas, nomeadamente em Inglês, Espanhol e Português. Experimentamos também diferentes métodos de pós-processamento para atribuir as coordenadas geoespaciais com base nas classificações. O melhor método utiliza modelos de linguagem baseados em n-gramas de caracteres, em conjunto com uma técnica de pós-processamento que utiliza as coordenadas dos knn documentos mais similares, obtendo um erro de previsão médio de 265 Kilómetros, e um erro mediano de apenas 22 Kilómetros, para o caso da colecção da Wikipédia Inglesa. Para as colecções Portuguesa e Espanhola, as quais são significativamente mais pequenas, o mesmo método obteve um erro de previsão médio de 278 e 273 Kilómetros, respectivamente, e um erro de previsão mediano de 28 e de 45 Kilómetros.http://linguamatica.com/index.php/linguamatica/article/view/139Processamento de TextoRecuperação de Informação GeográficaGeocodificação de Documentos
collection	DOAJ
language	Catalan
format	Article
sources	DOAJ
author	Duarte Dias Ivo Anastácio Bruno Martins
spellingShingle	Duarte Dias Ivo Anastácio Bruno Martins Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de Linguagem Linguamática Processamento de Texto Recuperação de Informação Geográfica Geocodificação de Documentos
author_facet	Duarte Dias Ivo Anastácio Bruno Martins
author_sort	Duarte Dias
title	Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de Linguagem
title_short	Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de Linguagem
title_full	Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de Linguagem
title_fullStr	Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de Linguagem
title_full_unstemmed	Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de Linguagem
title_sort	geocodificação de documentos textuais com classificadores hierárquicos baseados em modelos de linguagem
publisher	Universidade do Minho & Universidade de Vigo
series	Linguamática
issn	1647-0818
publishDate	2012-12-01
description	A maioria dos documentos textuais, produzidos no contexto das mais diversas aplicações, encontra-se relacionado com algum tipo de contexto geográfico. Contudo, os métodos tradicionais para a prospecção de informação em colecções de documentos vêem os textos como conjuntos de termos, ignorando outros aspectos. Mais recentemente, a recuperação de informação com suporte ao contexto geográfico tem capturado a atenção de diversos investigadores em áreas relacionadas com a prospecção de informação e o processamento de linguagem natural, envisionando o suporte para tarefas como a pesquisa e visualização de informação textual, com base em representações cartográficas. Neste trabalho, comparamos experimentalmente diferentes técnicas automáticas, as quais utilizam classificadores baseados em modelos de linguagem, para a atribuição de coordenadas geoespaciais de latitude e longitude a novos documentos, usando apenas o texto dos documentos como evidência de suporte. Medimos os resultados obtidos com modelos de linguagem baseados em n-gramas de caracteres ou de termos, usando colecções de artigos georreferenciados da Wikipédia em três línguas distintas, nomeadamente em Inglês, Espanhol e Português. Experimentamos também diferentes métodos de pós-processamento para atribuir as coordenadas geoespaciais com base nas classificações. O melhor método utiliza modelos de linguagem baseados em n-gramas de caracteres, em conjunto com uma técnica de pós-processamento que utiliza as coordenadas dos knn documentos mais similares, obtendo um erro de previsão médio de 265 Kilómetros, e um erro mediano de apenas 22 Kilómetros, para o caso da colecção da Wikipédia Inglesa. Para as colecções Portuguesa e Espanhola, as quais são significativamente mais pequenas, o mesmo método obteve um erro de previsão médio de 278 e 273 Kilómetros, respectivamente, e um erro de previsão mediano de 28 e de 45 Kilómetros.
topic	Processamento de Texto Recuperação de Informação Geográfica Geocodificação de Documentos
url	http://linguamatica.com/index.php/linguamatica/article/view/139
work_keys_str_mv	AT duartedias geocodificacaodedocumentostextuaiscomclassificadoreshierarquicosbaseadosemmodelosdelinguagem AT ivoanastacio geocodificacaodedocumentostextuaiscomclassificadoreshierarquicosbaseadosemmodelosdelinguagem AT brunomartins geocodificacaodedocumentostextuaiscomclassificadoreshierarquicosbaseadosemmodelosdelinguagem
_version_	1716769428150943744

Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de Linguagem

Similar Items