Uma abordagem evolucionária para aprendizado semi-supervisionado em máquinas de vetores de suporte

=== The Semi-Supervised Learning paradigm is highly adequate for a class of problems with growing relevance in the context of Machine Learning: those in which there is a large unbalance between the training and the test data sets due to, among other things, the high cost of a classifier. In such cl...

Full description

Bibliographic Details
Main Author: Marcelo Mourao Silva
Other Authors: Antonio de Padua Braga
Format: Others
Language:Portuguese
Published: Universidade Federal de Minas Gerais 2008
Online Access:http://hdl.handle.net/1843/BUOS-8D7FF8
Description
Summary:=== The Semi-Supervised Learning paradigm is highly adequate for a class of problems with growing relevance in the context of Machine Learning: those in which there is a large unbalance between the training and the test data sets due to, among other things, the high cost of a classifier. In such class of problems, one cannot ensure that the labeled patterns appropriately represent the system to be learned, limiting the applicability of the Supervised Inductive paradigm. The unlabeled patterns are then used as an additional source of information about the problem being solved, providing increased generalization ability to the achieved solution. The Support Vector Machines (SVMs) are Artificial Neural Networks widely accepted among the Computational Intelligence community. The formulation based on the Statistical Learning Theory and on the separating margin maximization provides the SVMs with extremely high generalization ability. The TSVMs (Transductive Support Vector Machines) extend the SVMs formulation to the context of Semi-Supervised Learning. However, the search for the set of labels that maximize the separating margin between both the training and the test data is therein performed through an exhaustive local search. The non-optimality of such process motivates the development of the GA3SVMs (Genetic Algorithm Semi-Supervised Support Vector Machines), proposed in this piece. An Evolutionary Algorithm is introduced in the search for the optima classifications for the test patterns, inducing a solution with maximum separating margin and high generalization ability. A modified mutation operator, based on the k-Nearest Neighbors transductive method, is also presented, which adds information to the search process and speeds up convergence significantly for the used Genetic Algorithm. Obtained results show the superiority of the proposed approach compared to the traditional TSVMs, for the class of problems studied. === O paradigma de Aprendizado Semi-Supervisionado é bastante adequado a uma classe de problemas de crescente relevância no contexto do Aprendizado de Máquinas: aqueles onde há um grande desbalanceamento entre o conjunto de treinamento e o de teste, devido, entre outras coisas, ao alto custo de um classificador. Nessa classe de problemas, não se pode assegurar que os padrões rotulados representem adequadamente o sistema a ser aprendido, restringindo o uso do paradigma Indutivo Supervisionado. Utilizam-se, então, os padrões não-rotulados como fonte alternativa de informação sobre o problema a ser resolvido, garantindo maior capacidade de generalização à solução obtida. As Máquinas de Vetores de Suporte (SVMs) são Redes Neurais Artificiais de ampla aceitação pela comunidade de Inteligência Computacional. Sua formulação baseada na Teoria do Aprendizado Estatístico e na maximização da margem de separação confere às SVMs altíssima capacidade de generalização. As TSVMs (Transductive Support Vector Machines) ampliam a formulação das SVMs para a aplicação em problemas de aprendizado Semi-Supervisionado. Entretanto, a procura pelo conjunto de classificações que maximiza a margem de separação entre ambos os conjuntos de treinamento e de teste é realizada através de uma busca local exaustiva. A não-otimalidade desse processo motivou o desenvolvimento das GA3SVMs (Genetic Algorithm Semi-Supervised Support Vector Machines), propostas no presente trabalho. Introduz-se, aqui, um Algoritmo Evolucionário na busca pelas classificações ótimas para os padrões de teste, de forma a induzir uma solução de separação máxima e alta capacidade de generalização. Um operador de mutação modificado, inspirado no método transdutivo k-Nearest Neighbors, é também apresentado, o qual adiciona informação ao processo de busca e acelera significativamente a convergência do Algoritmo Genético utilizado. Os resultados obtidos mostram a superioridade da metodologia proposta quando comparada às TSVMs tradicionais, para a classe de problemas estudada.