Sobre la construcción de ensambles de clasificadores diversos en tanto que variación normalizada de información y su vínculo con su precisión

La hipótesis en cuestión afirma que, dado el contexto teórico (i.e., definiciones matemáticas consideradas apropiadas para describir los fenómenos que se pretende estudiar) descrito en el artículo, existe una relación entre diversidad global y precisión de un ensamble de clasificadores. Por lo ta...

Full description

Bibliographic Details
Main Author:	Guinea Ordóñez, Rodrigo José
Other Authors:	Villanueva Talavera, Edwin Rafael
Format:	Dissertation
Language:	English
Published:	Pontificia Universidad Católica del Perú 2021
Subjects:	Aprendizaje automático (Inteligencia artificial) Algoritmos Bioinformática https://purl.org/pe-repo/ocde/ford#1.02.00
Online Access:	http://hdl.handle.net/20.500.12404/20818

id	ndltd-PUCP-oai-tesis.pucp.edu.pe-20.500.12404-20818
record_format	oai_dc
spelling	ndltd-PUCP-oai-tesis.pucp.edu.pe-20.500.12404-208182021-11-08T17:28:58Z Sobre la construcción de ensambles de clasificadores diversos en tanto que variación normalizada de información y su vínculo con su precisión On diverse classifier's ensemble building by normalized variation of information and its link to its accuracy Guinea Ordóñez, Rodrigo José Villanueva Talavera, Edwin Rafael Aprendizaje automático (Inteligencia artificial) Algoritmos Bioinformática https://purl.org/pe-repo/ocde/ford#1.02.00 La hipótesis en cuestión afirma que, dado el contexto teórico (i.e., definiciones matemáticas consideradas apropiadas para describir los fenómenos que se pretende estudiar) descrito en el artículo, existe una relación entre diversidad global y precisión de un ensamble de clasificadores. Por lo tanto, el propósito de esta investigación es estudiar la relación entre la precisión de ensambles y su diversidad dentro de un contexto geométrico y de información. Para lograrlo, interpretamos el problema como uno geométrico introduciendo un espacio métrico, donde los puntos son predicciones de clasificadores; la función de distancia, la métrica Variación de Información Normalizada (NVI, por sus siglas en inglés); y la construcción de un ensamble diverso es reducida a un problema de criba y novedosamente transformado a uno de programación cuadrática. La significancia estadística es asegurada haciendo uso de métodos Monte Carlo sobre 53 conjuntos de datos apropiados. El resultado es un algoritmo basado en una métrica usada en el contexto de teoría de la información, ideal para estudiar conjuntos de datos de alta dimensionalidad e inherentemente ruidosos. Por tanto, es relevante cuando el costo de adquirir muestras es muy alto; y la cantidad de variables, enorme. El marco teórico incluye las definiciones (e.g., definiciones relacionadas al concepto de diversidad o al espacio métrico utilizado), los teoremas (e.g., propiedades de espacios métricos) y algoritmos base (i.e., programación cuadrática) usados para conseguir los resultados. Los resultados muestran que, en promedio, el exceso de precisión de un ensemble diverso respecto de su contraparte aleatoria es función del valor de la diversidad global del mismo. Esto confirma la hipótesis inicial. Además, la metodología introducida para modelar el algoritmo introduce un marco que permite esclarecer la relación entre diversidad y precisión, ya que la representa en términos geométricos. Ensemble models for classification are a Machine Learning approach that have frequently proven useful in generating results with higher performance and robustness tan mono-classifier models. Common advantages include tolerance for input data noise, decreased variance, and bias in predictions. Many studies justify the fact that the diversity of an ensemble is related to accuracy insomeway. However, the correct definition of diversity and the conditions needed for those statements to hold true remain unclear. The present work addresses this issue from a geometrical perspective presenting a method to build diverse ensembles based on the Normalized Variation of Information and explore which conditions correlate to the variability in its accuracy. The knowledge generated from this analysis will make it possible to clarify and bring in sight into how ensemble diversity is related to en semble accuracy. 2021-11-07T18:38:15Z 2021-11-07T18:38:15Z 2021 2021-11-07 info:eu-repo/semantics/masterThesis http://hdl.handle.net/20.500.12404/20818 eng info:eu-repo/semantics/openAccess Atribución 2.5 Perú http://creativecommons.org/licenses/by/2.5/pe/ application/pdf Pontificia Universidad Católica del Perú PE Pontificia Universidad Católica del Perú Repositorio de Tesis - PUCP
collection	NDLTD
language	English
format	Dissertation
sources	NDLTD
topic	Aprendizaje automático (Inteligencia artificial) Algoritmos Bioinformática https://purl.org/pe-repo/ocde/ford#1.02.00
spellingShingle	Aprendizaje automático (Inteligencia artificial) Algoritmos Bioinformática https://purl.org/pe-repo/ocde/ford#1.02.00 Guinea Ordóñez, Rodrigo José Sobre la construcción de ensambles de clasificadores diversos en tanto que variación normalizada de información y su vínculo con su precisión
description	La hipótesis en cuestión afirma que, dado el contexto teórico (i.e., definiciones matemáticas consideradas apropiadas para describir los fenómenos que se pretende estudiar) descrito en el artículo, existe una relación entre diversidad global y precisión de un ensamble de clasificadores. Por lo tanto, el propósito de esta investigación es estudiar la relación entre la precisión de ensambles y su diversidad dentro de un contexto geométrico y de información. Para lograrlo, interpretamos el problema como uno geométrico introduciendo un espacio métrico, donde los puntos son predicciones de clasificadores; la función de distancia, la métrica Variación de Información Normalizada (NVI, por sus siglas en inglés); y la construcción de un ensamble diverso es reducida a un problema de criba y novedosamente transformado a uno de programación cuadrática. La significancia estadística es asegurada haciendo uso de métodos Monte Carlo sobre 53 conjuntos de datos apropiados. El resultado es un algoritmo basado en una métrica usada en el contexto de teoría de la información, ideal para estudiar conjuntos de datos de alta dimensionalidad e inherentemente ruidosos. Por tanto, es relevante cuando el costo de adquirir muestras es muy alto; y la cantidad de variables, enorme. El marco teórico incluye las definiciones (e.g., definiciones relacionadas al concepto de diversidad o al espacio métrico utilizado), los teoremas (e.g., propiedades de espacios métricos) y algoritmos base (i.e., programación cuadrática) usados para conseguir los resultados. Los resultados muestran que, en promedio, el exceso de precisión de un ensemble diverso respecto de su contraparte aleatoria es función del valor de la diversidad global del mismo. Esto confirma la hipótesis inicial. Además, la metodología introducida para modelar el algoritmo introduce un marco que permite esclarecer la relación entre diversidad y precisión, ya que la representa en términos geométricos. === Ensemble models for classification are a Machine Learning approach that have frequently proven useful in generating results with higher performance and robustness tan mono-classifier models. Common advantages include tolerance for input data noise, decreased variance, and bias in predictions. Many studies justify the fact that the diversity of an ensemble is related to accuracy insomeway. However, the correct definition of diversity and the conditions needed for those statements to hold true remain unclear. The present work addresses this issue from a geometrical perspective presenting a method to build diverse ensembles based on the Normalized Variation of Information and explore which conditions correlate to the variability in its accuracy. The knowledge generated from this analysis will make it possible to clarify and bring in sight into how ensemble diversity is related to en semble accuracy.
author2	Villanueva Talavera, Edwin Rafael
author_facet	Villanueva Talavera, Edwin Rafael Guinea Ordóñez, Rodrigo José
author	Guinea Ordóñez, Rodrigo José
author_sort	Guinea Ordóñez, Rodrigo José
title	Sobre la construcción de ensambles de clasificadores diversos en tanto que variación normalizada de información y su vínculo con su precisión
title_short	Sobre la construcción de ensambles de clasificadores diversos en tanto que variación normalizada de información y su vínculo con su precisión
title_full	Sobre la construcción de ensambles de clasificadores diversos en tanto que variación normalizada de información y su vínculo con su precisión
title_fullStr	Sobre la construcción de ensambles de clasificadores diversos en tanto que variación normalizada de información y su vínculo con su precisión
title_full_unstemmed	Sobre la construcción de ensambles de clasificadores diversos en tanto que variación normalizada de información y su vínculo con su precisión
title_sort	sobre la construcción de ensambles de clasificadores diversos en tanto que variación normalizada de información y su vínculo con su precisión
publisher	Pontificia Universidad Católica del Perú
publishDate	2021
url	http://hdl.handle.net/20.500.12404/20818
work_keys_str_mv	AT guineaordonezrodrigojose sobrelaconstrucciondeensamblesdeclasificadoresdiversosentantoquevariacionnormalizadadeinformacionysuvinculoconsuprecision AT guineaordonezrodrigojose ondiverseclassifiersensemblebuildingbynormalizedvariationofinformationanditslinktoitsaccuracy
_version_	1719493009631870976

Sobre la construcción de ensambles de clasificadores diversos en tanto que variación normalizada de información y su vínculo con su precisión

Similar Items