Classificação da doença de Alzheimer usando algoritmos baseados em distância

A doen¸ca de Alzheimer ´e a mais comum das patologias neurodegenerativas afetando principalmente pessoas idosas e causando consider´avel impacto econˆomico em todos os pa´ıses. Atualmente n˜ao h´a cura para cessar seus efeitos na mem´oria fazendo do diagn´ostico precoce fundamental para eventuais in...

Full description

Bibliographic Details
Main Author: Rodrigues, Yuri Elias
Other Authors: Manica, Carolina Cardoso
Format: Others
Language:English
Published: 2017
Subjects:
Online Access:http://hdl.handle.net/10183/156421
id ndltd-IBICT-oai-lume56.ufrgs.br-10183-156421
record_format oai_dc
collection NDLTD
language English
format Others
sources NDLTD
topic Algoritmos
Doença de Alzheimer
Reconhecimento de padrões
Estatística
spellingShingle Algoritmos
Doença de Alzheimer
Reconhecimento de padrões
Estatística
Rodrigues, Yuri Elias
Classificação da doença de Alzheimer usando algoritmos baseados em distância
description A doen¸ca de Alzheimer ´e a mais comum das patologias neurodegenerativas afetando principalmente pessoas idosas e causando consider´avel impacto econˆomico em todos os pa´ıses. Atualmente n˜ao h´a cura para cessar seus efeitos na mem´oria fazendo do diagn´ostico precoce fundamental para eventuais interven¸c˜oes terapˆeuticas. Para tal, t´ecnicas de reconhecimento de padr˜oes podem ser utilizadas para diferenciar indiv´ıduos com o mal Alzheimer de indiv´ıduos saud´aveis. No entanto, aumentando o n´umero de diagn´osticos (classes) que definem est´agios intermedi ´arios da doen¸ca a capacidade de diferenciar classes de tais t´ecnicas ´e comprometida. Isto ocorre devido ao fato de que as medidas biol´ogicas, ou os biomarcadores, n˜ao s˜ao discriminantes o suficiente para lidar com classes al´em do caso extremo, de forma bin´aria, Alzheimer versus controle normal. Outro fator que dificulta o diagn´ostico ´e a distribui¸c˜ao de probabilidade das classes intermedi´arias serem altamente sobrepostas e com probabilidade a priori representando 60% dos dados. Neste trabalho vamos demonstrar a capacidade de melhorar a precis ˜ao do diagn´ostico utilizando classificadores e t´ecnicas de amostragem baseados em fun¸c˜oes de distˆancia. Abordagens bin´arias ou abordagens bin´arias adaptadas a problemas multiclasse s˜ao a regra na literatura de diferencia¸c˜ao das classes da doen¸ca de Alzheimer No presente momento existe apenas um ´unico artigo demonstrando a possibilidade de melhora nas medidas de classifica¸c˜ao com um tratamento de reamostragem das probabilidades a priori das classes de Alzheimer. Diferentemente do artigo citado que trabalha com classifica¸c˜ao bin´aria, aqui vamos usar uma abordagem de classifica¸c˜ao todos-contra-todos na avalia¸c˜ao de um problema multiclasse da doen¸ca de Alzheimer. Demonstramos que a taxa de classifica¸c˜ao do nosso classificador utilizando classes balanceadas e uma fun¸c˜ao de distˆancia apropriada ´e superior a classificadores populares. Este trabalho apresenta tamb´em duas novas estrat´egias de ajuste do desequil´ıbrio tendo como medida de similaridade a distˆancia entre os padr˜oes. A de subamostragem, denominada Nearmiss 4, que obteve maior redu¸c˜ao de sobreposi¸c˜ao entre as classes nas compara¸c˜oes entre algoritmos de amostragem, e outra de sobreamostragem, denominada SMOTE-borderline 3, uma vers˜ao multiclasse para a fam´ılia de algoritmos SMOTE que se destaca por ser naturalmente multiclasse ao contr´ario das abordagens bin´arias adaptadas para multiclasse tratadas neste texto. Finalmente, s˜ao comparadas t´ecnicas de sele¸c˜ao de caracter´ısticas para avaliar o poder discriminativo entre biomarcadores do mal de Alzheimer visando encontrar o subconjunto de biomarcadores que fornece a melhor taxa de classifica¸c˜ao. Usando tal abordagem foi poss´ıvel encontrar o biomarcador com maior capacidade discriminativa em um dado conjunto de biomarcadores. === Alzheimer’s disease is the most common neurodegenerative disorder affecting mainly elderly people and causing considerable economic impact in all countries. Currently, there is no cure to cease its effects in memory making early diagnosis fundamental for any therapeutic interventions. To this end, pattern recognition techniques can be used to differentiate individuals with Alzheimer’s from healthy individuals. However, increasing the number of diagnoses (classes) which define disease’s intermediate stages (e.g. mild cognitive impairment) the classes differentiation for such techniques is compromised. This is due to the fact that biological measures, or biomarkers, are not discriminant enough to deal with classes beyond the binary extreme case, Alzheimer’s versus normal control. Another factor that makes diagnosis difficult is the probability distribution of the intermediate classes being highly overlapping and with a priori probability representing 60 % of the data. In this work, we will demonstrate the ability to improve diagnostic accuracy using classifiers and sampling techniques based on distance functions. Binary approaches or binary approaches adapted to multiclass problems are ubiquitous in the literature of differentiating the classes of Alzheimer’s disease At present, there is only one article demonstrating the possibility of improvement in the classification measures using a sampling treatment to change a priori probabilities of the Alzheimer’s classes. Differently from the cited article working with binary classification, here we will use an all-versus-all classification approach to evaluating an Alzheimer’s disease multiclass problem. Also, is shown that classification rate of our classifier using balanced classes and an appropriate distance function is able to overcome popular classifiers choices. This work also presents two new strategies of imbalance adjustment, taking as a measure of similarity the distance between the patterns. The undersampling, called Nearmiss 4, obtained the greatest reduction in class overlapping comparing the sampling algorithms discussed, and another contribution is an oversampling, called SMOTE-borderline 3, a multiclass version for the family of SMOTE algorithms that stands out for being naturally multiclass unlike the binary approaches adapted for multiclass treated in this text. Finally, feature selection techniques are compared to evaluate the discriminative power between Alzheimer’s disease biomarkers in order to find the subset of biomarkers which provides the best classification rate. Using this approach it was possible to find the biomarker with the highest discriminative capacity in a given set of biomarkers.
author2 Manica, Carolina Cardoso
author_facet Manica, Carolina Cardoso
Rodrigues, Yuri Elias
author Rodrigues, Yuri Elias
author_sort Rodrigues, Yuri Elias
title Classificação da doença de Alzheimer usando algoritmos baseados em distância
title_short Classificação da doença de Alzheimer usando algoritmos baseados em distância
title_full Classificação da doença de Alzheimer usando algoritmos baseados em distância
title_fullStr Classificação da doença de Alzheimer usando algoritmos baseados em distância
title_full_unstemmed Classificação da doença de Alzheimer usando algoritmos baseados em distância
title_sort classificação da doença de alzheimer usando algoritmos baseados em distância
publishDate 2017
url http://hdl.handle.net/10183/156421
work_keys_str_mv AT rodriguesyurielias classificacaodadoencadealzheimerusandoalgoritmosbaseadosemdistancia
AT rodriguesyurielias alzheimersdiseaseclassificationusingdistancebasedalgorithms
_version_ 1718755174508396544
spelling ndltd-IBICT-oai-lume56.ufrgs.br-10183-1564212018-09-30T04:24:31Z Classificação da doença de Alzheimer usando algoritmos baseados em distância Alzheimer's disease classification using distancebased algorithms Rodrigues, Yuri Elias Manica, Carolina Cardoso Manica, Evandro Algoritmos Doença de Alzheimer Reconhecimento de padrões Estatística A doen¸ca de Alzheimer ´e a mais comum das patologias neurodegenerativas afetando principalmente pessoas idosas e causando consider´avel impacto econˆomico em todos os pa´ıses. Atualmente n˜ao h´a cura para cessar seus efeitos na mem´oria fazendo do diagn´ostico precoce fundamental para eventuais interven¸c˜oes terapˆeuticas. Para tal, t´ecnicas de reconhecimento de padr˜oes podem ser utilizadas para diferenciar indiv´ıduos com o mal Alzheimer de indiv´ıduos saud´aveis. No entanto, aumentando o n´umero de diagn´osticos (classes) que definem est´agios intermedi ´arios da doen¸ca a capacidade de diferenciar classes de tais t´ecnicas ´e comprometida. Isto ocorre devido ao fato de que as medidas biol´ogicas, ou os biomarcadores, n˜ao s˜ao discriminantes o suficiente para lidar com classes al´em do caso extremo, de forma bin´aria, Alzheimer versus controle normal. Outro fator que dificulta o diagn´ostico ´e a distribui¸c˜ao de probabilidade das classes intermedi´arias serem altamente sobrepostas e com probabilidade a priori representando 60% dos dados. Neste trabalho vamos demonstrar a capacidade de melhorar a precis ˜ao do diagn´ostico utilizando classificadores e t´ecnicas de amostragem baseados em fun¸c˜oes de distˆancia. Abordagens bin´arias ou abordagens bin´arias adaptadas a problemas multiclasse s˜ao a regra na literatura de diferencia¸c˜ao das classes da doen¸ca de Alzheimer No presente momento existe apenas um ´unico artigo demonstrando a possibilidade de melhora nas medidas de classifica¸c˜ao com um tratamento de reamostragem das probabilidades a priori das classes de Alzheimer. Diferentemente do artigo citado que trabalha com classifica¸c˜ao bin´aria, aqui vamos usar uma abordagem de classifica¸c˜ao todos-contra-todos na avalia¸c˜ao de um problema multiclasse da doen¸ca de Alzheimer. Demonstramos que a taxa de classifica¸c˜ao do nosso classificador utilizando classes balanceadas e uma fun¸c˜ao de distˆancia apropriada ´e superior a classificadores populares. Este trabalho apresenta tamb´em duas novas estrat´egias de ajuste do desequil´ıbrio tendo como medida de similaridade a distˆancia entre os padr˜oes. A de subamostragem, denominada Nearmiss 4, que obteve maior redu¸c˜ao de sobreposi¸c˜ao entre as classes nas compara¸c˜oes entre algoritmos de amostragem, e outra de sobreamostragem, denominada SMOTE-borderline 3, uma vers˜ao multiclasse para a fam´ılia de algoritmos SMOTE que se destaca por ser naturalmente multiclasse ao contr´ario das abordagens bin´arias adaptadas para multiclasse tratadas neste texto. Finalmente, s˜ao comparadas t´ecnicas de sele¸c˜ao de caracter´ısticas para avaliar o poder discriminativo entre biomarcadores do mal de Alzheimer visando encontrar o subconjunto de biomarcadores que fornece a melhor taxa de classifica¸c˜ao. Usando tal abordagem foi poss´ıvel encontrar o biomarcador com maior capacidade discriminativa em um dado conjunto de biomarcadores. Alzheimer’s disease is the most common neurodegenerative disorder affecting mainly elderly people and causing considerable economic impact in all countries. Currently, there is no cure to cease its effects in memory making early diagnosis fundamental for any therapeutic interventions. To this end, pattern recognition techniques can be used to differentiate individuals with Alzheimer’s from healthy individuals. However, increasing the number of diagnoses (classes) which define disease’s intermediate stages (e.g. mild cognitive impairment) the classes differentiation for such techniques is compromised. This is due to the fact that biological measures, or biomarkers, are not discriminant enough to deal with classes beyond the binary extreme case, Alzheimer’s versus normal control. Another factor that makes diagnosis difficult is the probability distribution of the intermediate classes being highly overlapping and with a priori probability representing 60 % of the data. In this work, we will demonstrate the ability to improve diagnostic accuracy using classifiers and sampling techniques based on distance functions. Binary approaches or binary approaches adapted to multiclass problems are ubiquitous in the literature of differentiating the classes of Alzheimer’s disease At present, there is only one article demonstrating the possibility of improvement in the classification measures using a sampling treatment to change a priori probabilities of the Alzheimer’s classes. Differently from the cited article working with binary classification, here we will use an all-versus-all classification approach to evaluating an Alzheimer’s disease multiclass problem. Also, is shown that classification rate of our classifier using balanced classes and an appropriate distance function is able to overcome popular classifiers choices. This work also presents two new strategies of imbalance adjustment, taking as a measure of similarity the distance between the patterns. The undersampling, called Nearmiss 4, obtained the greatest reduction in class overlapping comparing the sampling algorithms discussed, and another contribution is an oversampling, called SMOTE-borderline 3, a multiclass version for the family of SMOTE algorithms that stands out for being naturally multiclass unlike the binary approaches adapted for multiclass treated in this text. Finally, feature selection techniques are compared to evaluate the discriminative power between Alzheimer’s disease biomarkers in order to find the subset of biomarkers which provides the best classification rate. Using this approach it was possible to find the biomarker with the highest discriminative capacity in a given set of biomarkers. 2017-03-29T02:25:25Z 2016 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://hdl.handle.net/10183/156421 001015852 eng info:eu-repo/semantics/openAccess application/pdf reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul instacron:UFRGS