Classifica??o com algoritmo AdaBoost.M1 : o mito do limiar de erro de treinamento

Submitted by PPG Ci?ncia da Computa??o (ppgcc@pucrs.br) on 2018-02-16T13:18:07Z No. of bitstreams: 1 Ant?nio_do_Nascimento_Le?es_ Neto_Dis.pdf: 1049012 bytes, checksum: 293046d3be865048cd37706b38494e1a (MD5) === Approved for entry into archive by Caroline Xavier (caroline.xavier@pucrs.br) on 2018-02...

Full description

Bibliographic Details
Main Author:	Le?es Neto, Ant?nio do Nascimento
Other Authors:	Bordini, Rafael Heitor
Format:	Others
Language:	Portuguese
Published:	Pontif?cia Universidade Cat?lica do Rio Grande do Sul 2018
Subjects:	Minera??o de dados Classifica??o Combina??o de classificadores Classification Boosting AdaBoost.M1 Data Mining Ensemble Methods CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Online Access:	http://tede2.pucrs.br/tede2/handle/tede/7854

id	ndltd-IBICT-oai-tede2.pucrs.br-tede-7854
record_format	oai_dc
collection	NDLTD
language	Portuguese
format	Others
sources	NDLTD
topic	Minera??o de dados Classifica??o Combina??o de classificadores Classification Boosting AdaBoost.M1 Data Mining Ensemble Methods CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
spellingShingle	Minera??o de dados Classifica??o Combina??o de classificadores Classification Boosting AdaBoost.M1 Data Mining Ensemble Methods CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Le?es Neto, Ant?nio do Nascimento Classifica??o com algoritmo AdaBoost.M1 : o mito do limiar de erro de treinamento
description	Submitted by PPG Ci?ncia da Computa??o (ppgcc@pucrs.br) on 2018-02-16T13:18:07Z No. of bitstreams: 1 Ant?nio_do_Nascimento_Le?es_ Neto_Dis.pdf: 1049012 bytes, checksum: 293046d3be865048cd37706b38494e1a (MD5) === Approved for entry into archive by Caroline Xavier (caroline.xavier@pucrs.br) on 2018-02-22T16:34:51Z (GMT) No. of bitstreams: 1 Ant?nio_do_Nascimento_Le?es_ Neto_Dis.pdf: 1049012 bytes, checksum: 293046d3be865048cd37706b38494e1a (MD5) === Made available in DSpace on 2018-02-22T16:40:19Z (GMT). No. of bitstreams: 1 Ant?nio_do_Nascimento_Le?es_ Neto_Dis.pdf: 1049012 bytes, checksum: 293046d3be865048cd37706b38494e1a (MD5) Previous issue date: 2017-11-20 === The accelerated growth of data repositories, in the different areas of activity, opens space for research in the area of data mining, in particular, with the methods of classification and combination of classifiers. The Boosting method is one of them, which combines the results of several classifiers in order to obtain better results. The main purpose of this dissertation is the experimentation of alternatives to increase the effectiveness and performance of the algorithm AdaBoost.M1, which is the implementation often employed by the Boosting method. An empirical study was perfered taking into account stochastic aspects trying to shed some light on an obscure internal parameter, in which algorithm creators and other researchers assumed that the training error threshold should be correlated with the number of classes in the target data set and logically, most data sets should use a value of 0.5. In this paper, we present an empirical evidence that this is not a fact, but probably a myth originated by the mistaken application of the theoretical assumption of the joint effect. To achieve this goal, adaptations were proposed for the algorithm, focusing on finding a better suggestion to define this threshold in a general case. === O crescimento acelerado dos reposit?rios de dados, nas diversas ?reas de atua??o, abre espa?o para pesquisas na ?rea da minera??o de dados, em espec?fico, com os m?todos de classifica??o e de combina??o de classificadores. O Boosting ? um desses m?todos, e combina os resultados de diversos classificadores com intuito de obter melhores resultados. O prop?sito central desta disserta??o ? responder a quest?o de pesquisa com a experimenta??o de alternativas para aumentar a efic?cia e o desempenho do algoritmo AdaBoost.M1 que ? a implementa??o frequentemente empregada pelo Boosting. Foi feito um estudo emp?rico levando em considera??o aspectos estoc?sticos tentando lan?ar alguma luz sobre um par?metro interno obscuro em que criadores do algoritmo e outros pesquisadores assumiram que o limiar de erro de treinamento deve ser correlacionado com o n?mero de classes no conjunto de dados de destino e, logicamente, a maioria dos conjuntos de dados deve usar um valor de 0.5. Neste trabalho, apresentamos evid?ncias emp?ricas de que isso n?o ? um fato, mas provavelmente um mito originado pela aplica??o da primeira defini??o do algoritmo. Para alcan?ar esse objetivo, foram propostas adapta??es para o algoritmo, focando em encontrar uma sugest?o melhor para definir esse limiar em um caso geral.
author2	Bordini, Rafael Heitor
author_facet	Bordini, Rafael Heitor Le?es Neto, Ant?nio do Nascimento
author	Le?es Neto, Ant?nio do Nascimento
author_sort	Le?es Neto, Ant?nio do Nascimento
title	Classifica??o com algoritmo AdaBoost.M1 : o mito do limiar de erro de treinamento
title_short	Classifica??o com algoritmo AdaBoost.M1 : o mito do limiar de erro de treinamento
title_full	Classifica??o com algoritmo AdaBoost.M1 : o mito do limiar de erro de treinamento
title_fullStr	Classifica??o com algoritmo AdaBoost.M1 : o mito do limiar de erro de treinamento
title_full_unstemmed	Classifica??o com algoritmo AdaBoost.M1 : o mito do limiar de erro de treinamento
title_sort	classifica??o com algoritmo adaboost.m1 : o mito do limiar de erro de treinamento
publisher	Pontif?cia Universidade Cat?lica do Rio Grande do Sul
publishDate	2018
url	http://tede2.pucrs.br/tede2/handle/tede/7854
work_keys_str_mv	AT leesnetoantniodonascimento classificaocomalgoritmoadaboostm1omitodolimiardeerrodetreinamento
_version_	1718955826284068864
spelling	ndltd-IBICT-oai-tede2.pucrs.br-tede-78542019-01-22T02:48:50Z Classifica??o com algoritmo AdaBoost.M1 : o mito do limiar de erro de treinamento Le?es Neto, Ant?nio do Nascimento Bordini, Rafael Heitor Minera??o de dados Classifica??o Combina??o de classificadores Classification Boosting AdaBoost.M1 Data Mining Ensemble Methods CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Submitted by PPG Ci?ncia da Computa??o (ppgcc@pucrs.br) on 2018-02-16T13:18:07Z No. of bitstreams: 1 Ant?nio_do_Nascimento_Le?es_ Neto_Dis.pdf: 1049012 bytes, checksum: 293046d3be865048cd37706b38494e1a (MD5) Approved for entry into archive by Caroline Xavier (caroline.xavier@pucrs.br) on 2018-02-22T16:34:51Z (GMT) No. of bitstreams: 1 Ant?nio_do_Nascimento_Le?es_ Neto_Dis.pdf: 1049012 bytes, checksum: 293046d3be865048cd37706b38494e1a (MD5) Made available in DSpace on 2018-02-22T16:40:19Z (GMT). No. of bitstreams: 1 Ant?nio_do_Nascimento_Le?es_ Neto_Dis.pdf: 1049012 bytes, checksum: 293046d3be865048cd37706b38494e1a (MD5) Previous issue date: 2017-11-20 The accelerated growth of data repositories, in the different areas of activity, opens space for research in the area of data mining, in particular, with the methods of classification and combination of classifiers. The Boosting method is one of them, which combines the results of several classifiers in order to obtain better results. The main purpose of this dissertation is the experimentation of alternatives to increase the effectiveness and performance of the algorithm AdaBoost.M1, which is the implementation often employed by the Boosting method. An empirical study was perfered taking into account stochastic aspects trying to shed some light on an obscure internal parameter, in which algorithm creators and other researchers assumed that the training error threshold should be correlated with the number of classes in the target data set and logically, most data sets should use a value of 0.5. In this paper, we present an empirical evidence that this is not a fact, but probably a myth originated by the mistaken application of the theoretical assumption of the joint effect. To achieve this goal, adaptations were proposed for the algorithm, focusing on finding a better suggestion to define this threshold in a general case. O crescimento acelerado dos reposit?rios de dados, nas diversas ?reas de atua??o, abre espa?o para pesquisas na ?rea da minera??o de dados, em espec?fico, com os m?todos de classifica??o e de combina??o de classificadores. O Boosting ? um desses m?todos, e combina os resultados de diversos classificadores com intuito de obter melhores resultados. O prop?sito central desta disserta??o ? responder a quest?o de pesquisa com a experimenta??o de alternativas para aumentar a efic?cia e o desempenho do algoritmo AdaBoost.M1 que ? a implementa??o frequentemente empregada pelo Boosting. Foi feito um estudo emp?rico levando em considera??o aspectos estoc?sticos tentando lan?ar alguma luz sobre um par?metro interno obscuro em que criadores do algoritmo e outros pesquisadores assumiram que o limiar de erro de treinamento deve ser correlacionado com o n?mero de classes no conjunto de dados de destino e, logicamente, a maioria dos conjuntos de dados deve usar um valor de 0.5. Neste trabalho, apresentamos evid?ncias emp?ricas de que isso n?o ? um fato, mas provavelmente um mito originado pela aplica??o da primeira defini??o do algoritmo. Para alcan?ar esse objetivo, foram propostas adapta??es para o algoritmo, focando em encontrar uma sugest?o melhor para definir esse limiar em um caso geral. 2018-02-22T16:40:19Z 2017-11-20 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://tede2.pucrs.br/tede2/handle/tede/7854 por 1974996533081274470 500 600 3671711205811204509 info:eu-repo/semantics/openAccess application/pdf Pontif?cia Universidade Cat?lica do Rio Grande do Sul Programa de P?s-Gradua??o em Ci?ncia da Computa??o PUCRS Brasil Escola Polit?cnica reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul instacron:PUC_RS

Classifica??o com algoritmo AdaBoost.M1 : o mito do limiar de erro de treinamento

Similar Items