Um estudo empírico sobre classificação de símbolos matemáticos manuscritos

Um importante problema na área de reconhecimento de padrões é o reconhecimento de textos manuscritos. O problema de reconhecimento de expressões matemáticas manuscritas é um caso particular, que vem sendo tratado por décadas. Esse problema é considerado desafiador devido à grande quantidade de p...

Full description

Bibliographic Details
Main Author:	Marcelo Valentim de Oliveira
Other Authors:	Nina Sumiko Tomita Hirata
Language:	Portuguese
Published:	Universidade de São Paulo 2014
Subjects:	classicação multi-classe decomposição hierárquica escrita manuscrita grande número de classes símbolos matemáticos hierarquical decomposition large classication problems mathematical symbols multiclass classication on-line handwriting
Online Access:	http://www.teses.usp.br/teses/disponiveis/45/45134/tde-11122014-231522/

id	ndltd-IBICT-oai-teses.usp.br-tde-11122014-231522
record_format	oai_dc
collection	NDLTD
language	Portuguese
sources	NDLTD
topic	classicação multi-classe decomposição hierárquica escrita manuscrita grande número de classes símbolos matemáticos hierarquical decomposition large classication problems mathematical symbols multiclass classication on-line handwriting
spellingShingle	classicação multi-classe decomposição hierárquica escrita manuscrita grande número de classes símbolos matemáticos hierarquical decomposition large classication problems mathematical symbols multiclass classication on-line handwriting Marcelo Valentim de Oliveira Um estudo empírico sobre classificação de símbolos matemáticos manuscritos
description	Um importante problema na área de reconhecimento de padrões é o reconhecimento de textos manuscritos. O problema de reconhecimento de expressões matemáticas manuscritas é um caso particular, que vem sendo tratado por décadas. Esse problema é considerado desafiador devido à grande quantidade de possíveis tipos de símbolos, às variações intrínsecas da escrita, e ao complexo arranjo bidimensional dos símbolos na expressão. Neste trabalho adotamos o problema de reconhecimento de símbolos matemáticos manuscritos para realizar um estudo empírico sobre o comportamento de classificadores multi-classes. Examinamos métodos básicos de aprendizado para classificação multi-classe, especialmente as abordagens um-contra-todos e todos-contra-todos de decomposição de um problema multi-classe em problemas de classificação binária. Para decompor o problema em subproblemas menores, propomos também uma abordagem que utiliza uma árvore de decisão para dividir hierarquicamente o conjunto de dados, de modo que cada subconjunto resultante corresponda a um problema mais simples de classificação. Esses métodos são examinados usando-se como classificador base os modelos de classificação vizinhos-mais-próximos e máquinas de suporte vetorial (usando a abordagem um-contra-todos para combinar os classificadores binários). Para classificação, os símbolos são representados por um conjunto de características conhecido na literatura por HBF49 e que foi proposto recentemente especificamente para problemas de reconhecimento de símbolos on-line. Experimentos foram realizados para avaliar a acurácia dos classificadores, o desempenho dos classificadores para número crescente de classes, tempos de treinamento e teste, e uso de diferentes sub-conjuntos de características. Este trabalho inclui uma descrição dos fundamentos utilizados, detalhes do pré-processamento e extração de características para representação dos símbolos, e uma exposição e discussão sobre o estudo empírico realizado. Os dados adicionais que foram coletados para os experimentos serão publicamente disponibilizados. === An important problem in the eld of Pattern Recognition is handwriting recognition. The problem of handwritten mathematical expression recognition is a particular case that is being studied since decades. This is considered a challenging problem due to the large number of possible mathematical symbols, the intrinsic variation of handwriting, and the complex 2D arrangement of symbols within expressions. In this work we adopt the problem of recognition of online mathematical symbols in order to perform an empirical study on the behavior of multi-class classiers. We examine basic methods for multi-class classification, specially the one-versus-all and all-versus-all approaches for decomposing multi-class problems into a set of binary classification problems. To decompose the problem into smaller ones, we also propose an approach that uses a decision tree to hierarchically divide the whole dataset into subsets, in such a way that each subset corresponds to a simpler classification problem. These methods are examined using the k-nearest-neighbor and, accompanied by the oneversus-all approach, the support vector machine models as base classiers. For classification, symbols are represented through a set of features known in the literature as HBF49 and which has been proposed recently specially for the problem of recognition of online symbols. Experiments were performed in order to evaluate classier accuracy, the performance of the classiers as the number of classes are increased, training and testing time, and the use of dierent subsets of the whole set of features. This work includes a description of the needed background, details of the pre-processing and feature extraction techniques for symbol representation, and an exposition and discussion of the empirical studies performed. The data additionally collected for the experiments will be made publicly available.
author2	Nina Sumiko Tomita Hirata
author_facet	Nina Sumiko Tomita Hirata Marcelo Valentim de Oliveira
author	Marcelo Valentim de Oliveira
author_sort	Marcelo Valentim de Oliveira
title	Um estudo empírico sobre classificação de símbolos matemáticos manuscritos
title_short	Um estudo empírico sobre classificação de símbolos matemáticos manuscritos
title_full	Um estudo empírico sobre classificação de símbolos matemáticos manuscritos
title_fullStr	Um estudo empírico sobre classificação de símbolos matemáticos manuscritos
title_full_unstemmed	Um estudo empírico sobre classificação de símbolos matemáticos manuscritos
title_sort	um estudo empírico sobre classificação de símbolos matemáticos manuscritos
publisher	Universidade de São Paulo
publishDate	2014
url	http://www.teses.usp.br/teses/disponiveis/45/45134/tde-11122014-231522/
work_keys_str_mv	AT marcelovalentimdeoliveira umestudoempiricosobreclassificacaodesimbolosmatematicosmanuscritos AT marcelovalentimdeoliveira anempiricalstudyonhandwrittenmathematicalsymbolclassication
_version_	1718890310511099904
spelling	ndltd-IBICT-oai-teses.usp.br-tde-11122014-2315222019-01-21T22:04:18Z Um estudo empírico sobre classificação de símbolos matemáticos manuscritos An empirical study on handwritten mathematical symbol classication Marcelo Valentim de Oliveira Nina Sumiko Tomita Hirata André Carlos Ponce de Leon Ferreira de Carvalho Flavio Soares Correa da Silva classicação multi-classe decomposição hierárquica escrita manuscrita grande número de classes símbolos matemáticos hierarquical decomposition large classication problems mathematical symbols multiclass classication on-line handwriting Um importante problema na área de reconhecimento de padrões é o reconhecimento de textos manuscritos. O problema de reconhecimento de expressões matemáticas manuscritas é um caso particular, que vem sendo tratado por décadas. Esse problema é considerado desafiador devido à grande quantidade de possíveis tipos de símbolos, às variações intrínsecas da escrita, e ao complexo arranjo bidimensional dos símbolos na expressão. Neste trabalho adotamos o problema de reconhecimento de símbolos matemáticos manuscritos para realizar um estudo empírico sobre o comportamento de classificadores multi-classes. Examinamos métodos básicos de aprendizado para classificação multi-classe, especialmente as abordagens um-contra-todos e todos-contra-todos de decomposição de um problema multi-classe em problemas de classificação binária. Para decompor o problema em subproblemas menores, propomos também uma abordagem que utiliza uma árvore de decisão para dividir hierarquicamente o conjunto de dados, de modo que cada subconjunto resultante corresponda a um problema mais simples de classificação. Esses métodos são examinados usando-se como classificador base os modelos de classificação vizinhos-mais-próximos e máquinas de suporte vetorial (usando a abordagem um-contra-todos para combinar os classificadores binários). Para classificação, os símbolos são representados por um conjunto de características conhecido na literatura por HBF49 e que foi proposto recentemente especificamente para problemas de reconhecimento de símbolos on-line. Experimentos foram realizados para avaliar a acurácia dos classificadores, o desempenho dos classificadores para número crescente de classes, tempos de treinamento e teste, e uso de diferentes sub-conjuntos de características. Este trabalho inclui uma descrição dos fundamentos utilizados, detalhes do pré-processamento e extração de características para representação dos símbolos, e uma exposição e discussão sobre o estudo empírico realizado. Os dados adicionais que foram coletados para os experimentos serão publicamente disponibilizados. An important problem in the eld of Pattern Recognition is handwriting recognition. The problem of handwritten mathematical expression recognition is a particular case that is being studied since decades. This is considered a challenging problem due to the large number of possible mathematical symbols, the intrinsic variation of handwriting, and the complex 2D arrangement of symbols within expressions. In this work we adopt the problem of recognition of online mathematical symbols in order to perform an empirical study on the behavior of multi-class classiers. We examine basic methods for multi-class classification, specially the one-versus-all and all-versus-all approaches for decomposing multi-class problems into a set of binary classification problems. To decompose the problem into smaller ones, we also propose an approach that uses a decision tree to hierarchically divide the whole dataset into subsets, in such a way that each subset corresponds to a simpler classification problem. These methods are examined using the k-nearest-neighbor and, accompanied by the oneversus-all approach, the support vector machine models as base classiers. For classification, symbols are represented through a set of features known in the literature as HBF49 and which has been proposed recently specially for the problem of recognition of online symbols. Experiments were performed in order to evaluate classier accuracy, the performance of the classiers as the number of classes are increased, training and testing time, and the use of dierent subsets of the whole set of features. This work includes a description of the needed background, details of the pre-processing and feature extraction techniques for symbol representation, and an exposition and discussion of the empirical studies performed. The data additionally collected for the experiments will be made publicly available. 2014-08-25 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://www.teses.usp.br/teses/disponiveis/45/45134/tde-11122014-231522/ por info:eu-repo/semantics/openAccess Universidade de São Paulo Ciência da Computação USP BR reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo instacron:USP

Um estudo empírico sobre classificação de símbolos matemáticos manuscritos

Similar Items