Summary: | === Inducing models from a dataset is an inverse problem and usually it is ill-posed. To turn this into a well-posed problem, regularization techniques have been used with success, including in Arti cial Neural Networks (ANN). These techniques use a priori information about the problem. This information may be, for example, imposing smoothness to the solution, or using structural information about the dataset. The structural information can be provided by anity matrices - for example, kernel matrices and cosine similarity matrices. In the ANN context, a Single-Layer Feedforward Neural Network (SLFN) training algorithm has been attracting attention of the scienti c community in recent years, especially because of its simplicity and speed of training. Because its training is done in two steps: random projection in a high-dimensional space and calculating the output layer weights using the pseudo-inverse, the ELM algorithm allows to interfere on it in order to insert information obtained by anity matrices. This can be done by combining the ELM projections with the anity matrices. In this thesis, we show that using such structural information in ELM training provides an e ect similar to Tikhonov regularization. Moreover, this change in ELM algorithm enables it to be used in the semi-supervised learning context. This type of learning, in which labels are scarce, usually uses structural information about the data in order to help model construction. Experiments performed with the developed algorithm, which we call Anity Matrix Regularized ELM (AMR-ELM), validate both the regularization e ect in the context of supervised learning and the ability to deal with semi-supervised learning scarcity of labels. Furthermore, if a parameter-free anity matrix is used, like the cosine similarity matrix, regularization is performed without any need for parameter tunning. === O problema de indução de modelos a partir de um conjunto de dados é um problema inverso e, tipicamente, mal condicionado. Para tornar esse problema bem condicionado, técnicas de regularização têm sido utilizadas com sucesso, inclusive nas Redes Neurais Arti ciais (RNAs). Tais técnicas utilizam informação obtida a priori sobre o problema, a qual pode ser, por exemplo, imposição de suavidade da solução, ou ainda, informação estrutural sobre os dados a serem tratados. Essa informação estrutural sobre os dados pode ser provida por matrizes de a nidade - por exemplo, matrizes de Kernel e matrizes de similaridade de cossenos. No contexto das RNAs, um algoritmo para treinamento de Redes Neurais de uma única Camada Alimentadas Adiante - Single- Layer Feedforward Neural Networks (SLFNs), chamado de Máquina de Aprendizado Extremo - Extreme Learning Machine (ELM), tem recebido atenção da comunidade científica nos últimos anos, especialmente por causa da sua simplicidade e rapidez de treinamento. Por ter seu treinamento feito em duas etapas: projeção aleatória em um espaço de alta dimensão e cálculo dos pesos da camada de saída por meio da pseudo inversa, o algoritmo da rede ELM permite intervenções de forma a inserir informações obtidas por meio de matrizes de a nidade em seu treinamento. Isso pode ser feito combinando as projeções obtidas pela rede ELM com as matrizes de a nidade. Neste trabalho, é demonstrado que o uso desse tipo de informação estrutural no treinamento das ELMs possibilita um efeito similar regularização de Tikhonov. Além disso, essa modificação no algoritmo da ELM possibilita que a mesma possa ser utilizada no contexto do aprendizado semissupervisionado. Nesse tipo de aprendizado, no qual os rótulos são escassos, em geral utiliza-se informação estrutural dos dados para auxiliar na construção do modelo. Experimentos realizados com o algoritmo desenvolvido, chamado de ELM Regularizada com Matrizes de A nidade - Affinity Matrix Regularized ELM (AMR-ELM), mostram a validade do método, validando tanto o efeito de regularização obtido no contexto do aprendizado supervisionado quando a capacidade de lidar com a escassez de róotulos própria do aprendizado semissupervisionado. Além disso, o uso de uma matriz de a nidade sem parâmetros, tal como a matriz de similaridade de cossenos, possibilita que a regularização não necessite de ajuste de parâmetros.
|