Classificação da doença de Alzheimer usando algoritmos baseados em distância
A doen¸ca de Alzheimer ´e a mais comum das patologias neurodegenerativas afetando principalmente pessoas idosas e causando consider´avel impacto econˆomico em todos os pa´ıses. Atualmente n˜ao h´a cura para cessar seus efeitos na mem´oria fazendo do diagn´ostico precoce fundamental para eventuais in...
Main Author: | |
---|---|
Other Authors: | |
Format: | Others |
Language: | English |
Published: |
2017
|
Subjects: | |
Online Access: | http://hdl.handle.net/10183/156421 |
id |
ndltd-IBICT-oai-lume56.ufrgs.br-10183-156421 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
English |
format |
Others
|
sources |
NDLTD |
topic |
Algoritmos Doença de Alzheimer Reconhecimento de padrões Estatística |
spellingShingle |
Algoritmos Doença de Alzheimer Reconhecimento de padrões Estatística Rodrigues, Yuri Elias Classificação da doença de Alzheimer usando algoritmos baseados em distância |
description |
A doen¸ca de Alzheimer ´e a mais comum das patologias neurodegenerativas afetando principalmente pessoas idosas e causando consider´avel impacto econˆomico em todos os pa´ıses. Atualmente n˜ao h´a cura para cessar seus efeitos na mem´oria fazendo do diagn´ostico precoce fundamental para eventuais interven¸c˜oes terapˆeuticas. Para tal, t´ecnicas de reconhecimento de padr˜oes podem ser utilizadas para diferenciar indiv´ıduos com o mal Alzheimer de indiv´ıduos saud´aveis. No entanto, aumentando o n´umero de diagn´osticos (classes) que definem est´agios intermedi ´arios da doen¸ca a capacidade de diferenciar classes de tais t´ecnicas ´e comprometida. Isto ocorre devido ao fato de que as medidas biol´ogicas, ou os biomarcadores, n˜ao s˜ao discriminantes o suficiente para lidar com classes al´em do caso extremo, de forma bin´aria, Alzheimer versus controle normal. Outro fator que dificulta o diagn´ostico ´e a distribui¸c˜ao de probabilidade das classes intermedi´arias serem altamente sobrepostas e com probabilidade a priori representando 60% dos dados. Neste trabalho vamos demonstrar a capacidade de melhorar a precis ˜ao do diagn´ostico utilizando classificadores e t´ecnicas de amostragem baseados em fun¸c˜oes de distˆancia. Abordagens bin´arias ou abordagens bin´arias adaptadas a problemas multiclasse s˜ao a regra na literatura de diferencia¸c˜ao das classes da doen¸ca de Alzheimer No presente momento existe apenas um ´unico artigo demonstrando a possibilidade de melhora nas medidas de classifica¸c˜ao com um tratamento de reamostragem das probabilidades a priori das classes de Alzheimer. Diferentemente do artigo citado que trabalha com classifica¸c˜ao bin´aria, aqui vamos usar uma abordagem de classifica¸c˜ao todos-contra-todos na avalia¸c˜ao de um problema multiclasse da doen¸ca de Alzheimer. Demonstramos que a taxa de classifica¸c˜ao do nosso classificador utilizando classes balanceadas e uma fun¸c˜ao de distˆancia apropriada ´e superior a classificadores populares. Este trabalho apresenta tamb´em duas novas estrat´egias de ajuste do desequil´ıbrio tendo como medida de similaridade a distˆancia entre os padr˜oes. A de subamostragem, denominada Nearmiss 4, que obteve maior redu¸c˜ao de sobreposi¸c˜ao entre as classes nas compara¸c˜oes entre algoritmos de amostragem, e outra de sobreamostragem, denominada SMOTE-borderline 3, uma vers˜ao multiclasse para a fam´ılia de algoritmos SMOTE que se destaca por ser naturalmente multiclasse ao contr´ario das abordagens bin´arias adaptadas para multiclasse tratadas neste texto. Finalmente, s˜ao comparadas t´ecnicas de sele¸c˜ao de caracter´ısticas para avaliar o poder discriminativo entre biomarcadores do mal de Alzheimer visando encontrar o subconjunto de biomarcadores que fornece a melhor taxa de classifica¸c˜ao. Usando tal abordagem foi poss´ıvel encontrar o biomarcador com maior capacidade discriminativa em um dado conjunto de biomarcadores. === Alzheimer’s disease is the most common neurodegenerative disorder affecting mainly elderly people and causing considerable economic impact in all countries. Currently, there is no cure to cease its effects in memory making early diagnosis fundamental for any therapeutic interventions. To this end, pattern recognition techniques can be used to differentiate individuals with Alzheimer’s from healthy individuals. However, increasing the number of diagnoses (classes) which define disease’s intermediate stages (e.g. mild cognitive impairment) the classes differentiation for such techniques is compromised. This is due to the fact that biological measures, or biomarkers, are not discriminant enough to deal with classes beyond the binary extreme case, Alzheimer’s versus normal control. Another factor that makes diagnosis difficult is the probability distribution of the intermediate classes being highly overlapping and with a priori probability representing 60 % of the data. In this work, we will demonstrate the ability to improve diagnostic accuracy using classifiers and sampling techniques based on distance functions. Binary approaches or binary approaches adapted to multiclass problems are ubiquitous in the literature of differentiating the classes of Alzheimer’s disease At present, there is only one article demonstrating the possibility of improvement in the classification measures using a sampling treatment to change a priori probabilities of the Alzheimer’s classes. Differently from the cited article working with binary classification, here we will use an all-versus-all classification approach to evaluating an Alzheimer’s disease multiclass problem. Also, is shown that classification rate of our classifier using balanced classes and an appropriate distance function is able to overcome popular classifiers choices. This work also presents two new strategies of imbalance adjustment, taking as a measure of similarity the distance between the patterns. The undersampling, called Nearmiss 4, obtained the greatest reduction in class overlapping comparing the sampling algorithms discussed, and another contribution is an oversampling, called SMOTE-borderline 3, a multiclass version for the family of SMOTE algorithms that stands out for being naturally multiclass unlike the binary approaches adapted for multiclass treated in this text. Finally, feature selection techniques are compared to evaluate the discriminative power between Alzheimer’s disease biomarkers in order to find the subset of biomarkers which provides the best classification rate. Using this approach it was possible to find the biomarker with the highest discriminative capacity in a given set of biomarkers. |
author2 |
Manica, Carolina Cardoso |
author_facet |
Manica, Carolina Cardoso Rodrigues, Yuri Elias |
author |
Rodrigues, Yuri Elias |
author_sort |
Rodrigues, Yuri Elias |
title |
Classificação da doença de Alzheimer usando algoritmos baseados em distância |
title_short |
Classificação da doença de Alzheimer usando algoritmos baseados em distância |
title_full |
Classificação da doença de Alzheimer usando algoritmos baseados em distância |
title_fullStr |
Classificação da doença de Alzheimer usando algoritmos baseados em distância |
title_full_unstemmed |
Classificação da doença de Alzheimer usando algoritmos baseados em distância |
title_sort |
classificação da doença de alzheimer usando algoritmos baseados em distância |
publishDate |
2017 |
url |
http://hdl.handle.net/10183/156421 |
work_keys_str_mv |
AT rodriguesyurielias classificacaodadoencadealzheimerusandoalgoritmosbaseadosemdistancia AT rodriguesyurielias alzheimersdiseaseclassificationusingdistancebasedalgorithms |
_version_ |
1718755174508396544 |
spelling |
ndltd-IBICT-oai-lume56.ufrgs.br-10183-1564212018-09-30T04:24:31Z Classificação da doença de Alzheimer usando algoritmos baseados em distância Alzheimer's disease classification using distancebased algorithms Rodrigues, Yuri Elias Manica, Carolina Cardoso Manica, Evandro Algoritmos Doença de Alzheimer Reconhecimento de padrões Estatística A doen¸ca de Alzheimer ´e a mais comum das patologias neurodegenerativas afetando principalmente pessoas idosas e causando consider´avel impacto econˆomico em todos os pa´ıses. Atualmente n˜ao h´a cura para cessar seus efeitos na mem´oria fazendo do diagn´ostico precoce fundamental para eventuais interven¸c˜oes terapˆeuticas. Para tal, t´ecnicas de reconhecimento de padr˜oes podem ser utilizadas para diferenciar indiv´ıduos com o mal Alzheimer de indiv´ıduos saud´aveis. No entanto, aumentando o n´umero de diagn´osticos (classes) que definem est´agios intermedi ´arios da doen¸ca a capacidade de diferenciar classes de tais t´ecnicas ´e comprometida. Isto ocorre devido ao fato de que as medidas biol´ogicas, ou os biomarcadores, n˜ao s˜ao discriminantes o suficiente para lidar com classes al´em do caso extremo, de forma bin´aria, Alzheimer versus controle normal. Outro fator que dificulta o diagn´ostico ´e a distribui¸c˜ao de probabilidade das classes intermedi´arias serem altamente sobrepostas e com probabilidade a priori representando 60% dos dados. Neste trabalho vamos demonstrar a capacidade de melhorar a precis ˜ao do diagn´ostico utilizando classificadores e t´ecnicas de amostragem baseados em fun¸c˜oes de distˆancia. Abordagens bin´arias ou abordagens bin´arias adaptadas a problemas multiclasse s˜ao a regra na literatura de diferencia¸c˜ao das classes da doen¸ca de Alzheimer No presente momento existe apenas um ´unico artigo demonstrando a possibilidade de melhora nas medidas de classifica¸c˜ao com um tratamento de reamostragem das probabilidades a priori das classes de Alzheimer. Diferentemente do artigo citado que trabalha com classifica¸c˜ao bin´aria, aqui vamos usar uma abordagem de classifica¸c˜ao todos-contra-todos na avalia¸c˜ao de um problema multiclasse da doen¸ca de Alzheimer. Demonstramos que a taxa de classifica¸c˜ao do nosso classificador utilizando classes balanceadas e uma fun¸c˜ao de distˆancia apropriada ´e superior a classificadores populares. Este trabalho apresenta tamb´em duas novas estrat´egias de ajuste do desequil´ıbrio tendo como medida de similaridade a distˆancia entre os padr˜oes. A de subamostragem, denominada Nearmiss 4, que obteve maior redu¸c˜ao de sobreposi¸c˜ao entre as classes nas compara¸c˜oes entre algoritmos de amostragem, e outra de sobreamostragem, denominada SMOTE-borderline 3, uma vers˜ao multiclasse para a fam´ılia de algoritmos SMOTE que se destaca por ser naturalmente multiclasse ao contr´ario das abordagens bin´arias adaptadas para multiclasse tratadas neste texto. Finalmente, s˜ao comparadas t´ecnicas de sele¸c˜ao de caracter´ısticas para avaliar o poder discriminativo entre biomarcadores do mal de Alzheimer visando encontrar o subconjunto de biomarcadores que fornece a melhor taxa de classifica¸c˜ao. Usando tal abordagem foi poss´ıvel encontrar o biomarcador com maior capacidade discriminativa em um dado conjunto de biomarcadores. Alzheimer’s disease is the most common neurodegenerative disorder affecting mainly elderly people and causing considerable economic impact in all countries. Currently, there is no cure to cease its effects in memory making early diagnosis fundamental for any therapeutic interventions. To this end, pattern recognition techniques can be used to differentiate individuals with Alzheimer’s from healthy individuals. However, increasing the number of diagnoses (classes) which define disease’s intermediate stages (e.g. mild cognitive impairment) the classes differentiation for such techniques is compromised. This is due to the fact that biological measures, or biomarkers, are not discriminant enough to deal with classes beyond the binary extreme case, Alzheimer’s versus normal control. Another factor that makes diagnosis difficult is the probability distribution of the intermediate classes being highly overlapping and with a priori probability representing 60 % of the data. In this work, we will demonstrate the ability to improve diagnostic accuracy using classifiers and sampling techniques based on distance functions. Binary approaches or binary approaches adapted to multiclass problems are ubiquitous in the literature of differentiating the classes of Alzheimer’s disease At present, there is only one article demonstrating the possibility of improvement in the classification measures using a sampling treatment to change a priori probabilities of the Alzheimer’s classes. Differently from the cited article working with binary classification, here we will use an all-versus-all classification approach to evaluating an Alzheimer’s disease multiclass problem. Also, is shown that classification rate of our classifier using balanced classes and an appropriate distance function is able to overcome popular classifiers choices. This work also presents two new strategies of imbalance adjustment, taking as a measure of similarity the distance between the patterns. The undersampling, called Nearmiss 4, obtained the greatest reduction in class overlapping comparing the sampling algorithms discussed, and another contribution is an oversampling, called SMOTE-borderline 3, a multiclass version for the family of SMOTE algorithms that stands out for being naturally multiclass unlike the binary approaches adapted for multiclass treated in this text. Finally, feature selection techniques are compared to evaluate the discriminative power between Alzheimer’s disease biomarkers in order to find the subset of biomarkers which provides the best classification rate. Using this approach it was possible to find the biomarker with the highest discriminative capacity in a given set of biomarkers. 2017-03-29T02:25:25Z 2016 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://hdl.handle.net/10183/156421 001015852 eng info:eu-repo/semantics/openAccess application/pdf reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul instacron:UFRGS |