Rotulação de símbolos matemáticos manuscritos via casamento de expressões

O problema de reconhecimento de expressões matemáticas manuscritas envolve três subproblemas importantes: segmentação de símbolos, reconhecimento de símbolos e análise estrutural de expressões. Para avaliar métodos e técnicas de reconhecimento, eles precisam ser testados sobre conjuntos de amostras...

Full description

Bibliographic Details
Main Author: Honda, Willian Yukio
Other Authors: Hirata, Nina Sumiko Tomita
Format: Others
Language:pt
Published: Biblioteca Digitais de Teses e Dissertações da USP 2013
Subjects:
Online Access:http://www.teses.usp.br/teses/disponiveis/45/45134/tde-22022013-120830/
id ndltd-usp.br-oai-teses.usp.br-tde-22022013-120830
record_format oai_dc
collection NDLTD
language pt
format Others
sources NDLTD
topic bipartite graph matching
casamento de expressões matemáticas
emparelhamento de grafos bipartidos
expressões matemáticas manuscritas
handwritten mathematical expressions
mathematical expressions matching
mathematical symbols annotation
mathematical symbols labeling
rotulação de símbolos matemáticos
spellingShingle bipartite graph matching
casamento de expressões matemáticas
emparelhamento de grafos bipartidos
expressões matemáticas manuscritas
handwritten mathematical expressions
mathematical expressions matching
mathematical symbols annotation
mathematical symbols labeling
rotulação de símbolos matemáticos
Honda, Willian Yukio
Rotulação de símbolos matemáticos manuscritos via casamento de expressões
description O problema de reconhecimento de expressões matemáticas manuscritas envolve três subproblemas importantes: segmentação de símbolos, reconhecimento de símbolos e análise estrutural de expressões. Para avaliar métodos e técnicas de reconhecimento, eles precisam ser testados sobre conjuntos de amostras representativos do domínio de aplicação. Uma das preocupações que tem sido apontada ultimamente é a quase inexistência de base de dados pública de expressões matemáticas, o que dificulta o desenvolvimento e comparação de diferentes abordagens. Em geral, os resultados de reconhecimento apresentados na literatura restringem-se a conjuntos de dados pequenos, não disponíveis publicamente, e muitas vezes formados por dados que visam avaliar apenas alguns aspectos específicos do reconhecimento. No caso de expressões online, para treinar e testar reconhecedores de símbolos, as amostras são em geral obtidas solicitando-se que as pessoas escrevam uma série de símbolos individualmente e repetidas vezes. Tal tarefa é monótona e cansativa. Uma abordagem alternativa para obter amostras de símbolos seria solicitar aos usuários a transcrição de expressões modelo previamente definidas. Dessa forma, a escrita dos símbolos seria realizada de forma natural, menos monótona, e várias amostras de símbolos poderiam ser obtidas de uma única expressão. Para evitar o trabalho de anotar manualmente cada símbolo das expressões transcritas, este trabalho propõe um método para casamento de expressões matemáticas manuscritas, no qual símbolos de uma expressão transcrita por um usuário são associados aos correspondentes símbolos (previamente identificados) da expressão modelo. O método proposto é baseado em uma formulação que reduz o problema a um problema de associação simples, no qual os custos são definidos em termos de características dos símbolos e estrutura da expressão. Resultados experimentais utilizando o método proposto mostram taxas médias de associação correta superiores a 99%. === The problem of recognizing handwritten mathematical expressions includes three important subproblems: symbol segmentation, symbol recognition, and structural analysis of expressions. In order to evaluate recognition methods and techniques, they should be tested on representative sample sets of the application domain. One of the concerns that are being repeatedly pointed recently is the almost non-existence of public representative datasets of mathematical expressions, which makes difficult the development and comparison of distinct approaches. In general, recognition results reported in the literature are restricted to small datasets, not publicly available, and often consisting of data aiming only evaluation of some specific aspects of the recognition. In the case of online expressions, to train and test symbol recognizers, samples are in general obtained asking users to write a series of symbols individually and repeatedly. Such task is boring and tiring. An alternative approach for obtaining samples of symbols would be to ask users to transcribe previously defined model expressions. By doing so, writing would be more natural and less boring, and several symbol samples could be obtained from one transcription. To avoid the task of manually labeling the symbols of the transcribed expressions, in this work a method for handwritten expression matching, in which symbols of a transcribed expression are assigned to the corresponding ones in the model expression, is proposed. The proposed method is based on a formulation that reduces the matching problem to a linear assignment problem, where costs are defined based on symbol features and expression structure. Experimental results using the proposed method show that mean correct assignment rate superior to 99% is achieved.
author2 Hirata, Nina Sumiko Tomita
author_facet Hirata, Nina Sumiko Tomita
Honda, Willian Yukio
author Honda, Willian Yukio
author_sort Honda, Willian Yukio
title Rotulação de símbolos matemáticos manuscritos via casamento de expressões
title_short Rotulação de símbolos matemáticos manuscritos via casamento de expressões
title_full Rotulação de símbolos matemáticos manuscritos via casamento de expressões
title_fullStr Rotulação de símbolos matemáticos manuscritos via casamento de expressões
title_full_unstemmed Rotulação de símbolos matemáticos manuscritos via casamento de expressões
title_sort rotulação de símbolos matemáticos manuscritos via casamento de expressões
publisher Biblioteca Digitais de Teses e Dissertações da USP
publishDate 2013
url http://www.teses.usp.br/teses/disponiveis/45/45134/tde-22022013-120830/
work_keys_str_mv AT hondawillianyukio rotulacaodesimbolosmatematicosmanuscritosviacasamentodeexpressoes
AT hondawillianyukio labelingofhandwrittenmathematicalsymbolsviaexpressionmatching
_version_ 1719069956459462656
spelling ndltd-usp.br-oai-teses.usp.br-tde-22022013-1208302019-05-09T20:46:46Z Rotulação de símbolos matemáticos manuscritos via casamento de expressões Labeling of Handwritten Mathematical Symbols via Expression Matching Honda, Willian Yukio bipartite graph matching casamento de expressões matemáticas emparelhamento de grafos bipartidos expressões matemáticas manuscritas handwritten mathematical expressions mathematical expressions matching mathematical symbols annotation mathematical symbols labeling rotulação de símbolos matemáticos O problema de reconhecimento de expressões matemáticas manuscritas envolve três subproblemas importantes: segmentação de símbolos, reconhecimento de símbolos e análise estrutural de expressões. Para avaliar métodos e técnicas de reconhecimento, eles precisam ser testados sobre conjuntos de amostras representativos do domínio de aplicação. Uma das preocupações que tem sido apontada ultimamente é a quase inexistência de base de dados pública de expressões matemáticas, o que dificulta o desenvolvimento e comparação de diferentes abordagens. Em geral, os resultados de reconhecimento apresentados na literatura restringem-se a conjuntos de dados pequenos, não disponíveis publicamente, e muitas vezes formados por dados que visam avaliar apenas alguns aspectos específicos do reconhecimento. No caso de expressões online, para treinar e testar reconhecedores de símbolos, as amostras são em geral obtidas solicitando-se que as pessoas escrevam uma série de símbolos individualmente e repetidas vezes. Tal tarefa é monótona e cansativa. Uma abordagem alternativa para obter amostras de símbolos seria solicitar aos usuários a transcrição de expressões modelo previamente definidas. Dessa forma, a escrita dos símbolos seria realizada de forma natural, menos monótona, e várias amostras de símbolos poderiam ser obtidas de uma única expressão. Para evitar o trabalho de anotar manualmente cada símbolo das expressões transcritas, este trabalho propõe um método para casamento de expressões matemáticas manuscritas, no qual símbolos de uma expressão transcrita por um usuário são associados aos correspondentes símbolos (previamente identificados) da expressão modelo. O método proposto é baseado em uma formulação que reduz o problema a um problema de associação simples, no qual os custos são definidos em termos de características dos símbolos e estrutura da expressão. Resultados experimentais utilizando o método proposto mostram taxas médias de associação correta superiores a 99%. The problem of recognizing handwritten mathematical expressions includes three important subproblems: symbol segmentation, symbol recognition, and structural analysis of expressions. In order to evaluate recognition methods and techniques, they should be tested on representative sample sets of the application domain. One of the concerns that are being repeatedly pointed recently is the almost non-existence of public representative datasets of mathematical expressions, which makes difficult the development and comparison of distinct approaches. In general, recognition results reported in the literature are restricted to small datasets, not publicly available, and often consisting of data aiming only evaluation of some specific aspects of the recognition. In the case of online expressions, to train and test symbol recognizers, samples are in general obtained asking users to write a series of symbols individually and repeatedly. Such task is boring and tiring. An alternative approach for obtaining samples of symbols would be to ask users to transcribe previously defined model expressions. By doing so, writing would be more natural and less boring, and several symbol samples could be obtained from one transcription. To avoid the task of manually labeling the symbols of the transcribed expressions, in this work a method for handwritten expression matching, in which symbols of a transcribed expression are assigned to the corresponding ones in the model expression, is proposed. The proposed method is based on a formulation that reduces the matching problem to a linear assignment problem, where costs are defined based on symbol features and expression structure. Experimental results using the proposed method show that mean correct assignment rate superior to 99% is achieved. Biblioteca Digitais de Teses e Dissertações da USP Hirata, Nina Sumiko Tomita 2013-01-23 Dissertação de Mestrado application/pdf http://www.teses.usp.br/teses/disponiveis/45/45134/tde-22022013-120830/ pt Liberar o conteúdo para acesso público.