Summary: | Esta dissertação aborda o problema da utilização de classificadores paramétricos em dados de alta dimensionalidade. As vantagens trazidas pelos dados em alta dimensionalidade são bem conhecidas. Classes que são muito semelhantes podem, não obstante, ser separadas com um alto grau de acurácia desde que a classificação dos dados seja realizada em um espaço de alta dimensionalidade e que as matrizes de covariância das classes difiram significativamente. Sistemas sensores capazes de adquirir dados de imagem em alta dimensionalidade (dados de imagens hiperespectrais) foram, em parte, desenvolvidos para tirar proveito dessa condição. Nas condições do mundo real, no entanto, temos de enfrentar o problema de estimar um grande número de parâmetros, geralmente, com um número limitado de amostras. Amostras de treinamento são geralmente caras e demoradas para adquirir. Diferentes abordagens para resolver ou, pelo menos, atenuar este problema tem sido um tópico de investigação por parte da comunidade internacional em sensoriamento remoto. Entre outras, uma possível abordagem que tem sido proposta na literatura consiste em aumentar o número de amostras pela adição de amostras semi-rotuladas ao processo de estimação dos parâmetros do classificador. A metodologia investigada nesta dissertação segue esta abordagem geral. O foco principal deste estudo consiste em investigar uma abordagem para estimar os pesos a serem associados às amostras semi-rotuladas. A abordagem proposta inclui duas etapas. Na primeira, as estimativas iniciais para os pesos são realizadas de forma interativa, por meio da utilização de informações espectrais somente. Em uma segunda etapa, os pesos estimados são refinados por meio de informações de contexto espacial. A metodologia proposta é avaliada através de experimentos que fazem uso de dados de imagens hiperespectrais AVIRIS. Os resultados são apresentados e discutidos. Sugestões para futuras pesquisas neste tópico também são apresentados. === This dissertation deals with the problem of using parametric classifiers in high dimensional data settings. The advantages brought by high dimensional data are well known. Classes that are very similar can nonetheless be separated with a high degree of accuracy provided that the classification is performed in high dimensional data settings and that the classes’ covariance matrices differ significantly. Sensor system capable of acquiring high dimensional image data (hyperspectral image data) were in part developed to take advantage of this condition. In real world conditions, however, we have to face the problem of estimating a resulting large number of parameters with a generally limited number of samples. Training samples are usually expensive and time consuming to acquire. Different approaches to solve or at least mitigate this problem have been a topic of investigation by the international community in remote sensing. Among others, one possible approach that has been proposed in the literature consists in increasing the number of samples by adding semilabeled samples to the process of estimating the classifier’s parameters. The methodology investigated in this dissertation follows this general approach. The main focus in this study consists in investigating an approach to estimate the weights to be associated with the semilabeled samples. The proposed approach includes two steps. In the first one, initial estimates for the weights are performed in an iterative way, by making use of spectral information only. In a second step, the estimated weights are further adjusted by means of spatial context information. The proposed methodology is evaluated by experiments making use of AVIRIS hyperspectral image data. The results are presented and discussed. Suggestions for further research in this topic are also presented.
|