Summary: | Recentemente, diversas tecnologias de análise de expressão gênica têm sido introduzidas. Os miroarrays estão entre as mais utilizadas. Dentre suas aplicações mais comuns, pode-se destacar a classificação de amostras de tecido, essencial para a identificação correta do tipo de câncer. Esta classificação é realizada com a ajuda de algoritmos de AMáquina (AM), como as Máquinas de Vetores de Suporte, ou simplesmente SVMs. Uma particularidade dos dados de expressão gênica é que a quantidade de amostras utilizadas pelo algoritmo de aprendizado é, normalmente, muitas vezes inferior à quantidade de características consideradas, o que pode deteriorar o desempenho dos algoritmos de AM e dificultar a compreensão dos dados. Neste contexto, o presente trabalho visa à comparação de diversas técnicas de seleção de características (SC) em SVMs aplicadas a dados microarrays. Além disso, durante a pesquisa, foram desenvolvidas 2 novas técnicas de SC baseadas em algoritmos genéticos. Os experimentos demonstram que a maioria das técnicas testadas é capaz de reduzir sobremaneira a dimensionalidade dos dados de expressão gênica sem prejudicar o desempenho das SVMs.
===
Recently, a lot of large scale gene expression analysis technologies have been introducted. Microarrays are among the most used ones. Among their most common applications, one can highlight the classificaiion of tissue samples, which is essential to the correct identification of the câncer type. This classification is carried out by Machine Learning (ML) algorithms, like the Support Vector Machines (SVMs). Gene expression data are characterized by an disproportionate rate between the number of tissue samples and the dimensionality of the domain, which can hurt the performance of the ML algorithms. In this context, the present work wish to compare several feature selection techniques in SVMs applied to microarray data. Besides, during this research, 2 new techniques based on genetic algorithms for selecting genes were developed. The experiments showed that most of the tested techniques was able to gratefully reduce the dimensionality of the gene expression data without degradation of SVM performance.
|