Summary: | Submitted by Reginaldo Soares de Freitas (reginaldo.freitas@ufv.br) on 2017-03-14T11:45:38Z
No. of bitstreams: 1
texto completo.pdf: 1172199 bytes, checksum: 33710fa298bd2474b7030d1c436c7f20 (MD5) === Made available in DSpace on 2017-03-14T11:45:38Z (GMT). No. of bitstreams: 1
texto completo.pdf: 1172199 bytes, checksum: 33710fa298bd2474b7030d1c436c7f20 (MD5)
Previous issue date: 2016-12-16 === Faculdades Adventistas de Minas Gerais === As observações que se afastam estatisticamente das demais em um conjunto de dados comumente são denominadas de outliers. Tal comportamento faculta o surgimento de hipóteses como por exemplo, a de que os dados pertencem à outra população. Contudo, independentemente das hipóteses que podem surgir, é importante considerar frequentemente a adequabilidade das metodologias existentes aos diversos tipos de variáveis envolvidas em investigações científicas. Na literatura especializada, é comum encontrar na metodologia o uso do Box Plot como principal mecanismo de detecção, e a exclusão dos dados “discrepantes”, detectados por este mecanismo, do conjunto de dados em estudo. Como o Box Plot é um mecanismo que não leva em consideração a posição geográfica dos dados, tem-se como hipótese a não aplicabilidade deste em dados geoespaciais contínuos. Assim, apresenta-se neste trabalho um estudo sobre a importância da proposição de métodos de detecção de outliers que incorporam a localização dos dados, bem como a comparação de seu desempenho com o Box Plot. No primeiro capítulo foi proposto um novo método de detecção de outliers para dados geoespaciais contínuos, em que um conjunto de dados reais, sabidamente com outliers, foi analisado tanto pelo Box Plot quanto pelo método em proposição. No segundo capítulo foi proposto um novo método de detecção de outliers para dados geoespaciais contínuos, cujas variáveis são não-negativas. Um conjunto de dados reais foi analisado usando o Box Plot e usando o novo método proposto. Finalmente, no terceiro capítulo foi proposto um mecanismo metodológico para a decisão de exclusão dos dados com alta probabilidade de discrepância. Neste capítulo foram utilizados quatro conjuntos de dados, sendo três simulados computacionalmente e um conjunto de dados reais. Visando robustecer teoricamente toda a proposição do trabalho, adotou-se como princípios norteadores uma combinação de teoremas da Estatística Clássica e da aplicação da Geoestatística, como principal metodologia de apoio. A Geoestatística foi adotada por incorporar a localização geográfica dos dados no processo analítico, estar baseada em suas características estatisticamente ótimas, ou seja, uma metodologia criada para ser sem tendência e com variância mínima na predição de valores não observados, além de levar em consideração na modelagem e predição a estrutura de dependência espacial das amostras, o que é inerente aos dados geoespaciais. === The observations that differ statistically from the others in a data set commonly are named outliers. Such behavior empowers the emergence of hypothesis such as, the data belong to another population. However, independently from the hypothesis that may arise, it is important to consider frequently the suitability of the existent methodologies to the many types of involved variables in scientific investigations. In the specialized literacy, it is common to find in the suggested methodology the use of the Box Plot as a main mechanism of detection, and the exclusion of "discrepant" data of the data set studied, detected by this mechanism. Since the Box Plot is a mechanism that does not take into consideration the geographic position of the data, there is the hypothesis of the non- suitability of such mechanism in continuous geospatial data. Thus, it is presented in this work a study about the importance of a proposition of methods of outliers detection that incorporate the localization of the data, comparing them to the Box Plot. In the first chapter it was proposed a new method of outliers detection for continuous geospatial data, in which the real data set, with known outliers, was analyzed through the Box Plot and the proposition method. In the second chapter it was proposed a new method of outliers detection for continuous geospatial data, which variables are nonnegatives. A real data set, was analyzed using the Box Plot and using the new proposed method. Finally, in the third chapter it was proposed a methodological mechanism for the decision of exclusion of the data with high probability of discrepancy. In this chapter there were utilized four data sets, being one a real data set and three simulated computationally. Aiming to theoretically strengthen in all of the work's proposition, it was adopted as guiding principles a combination of theorems of Classic Statistics and of the application of Geostatistics, as main support methodology. The Geostatistics was adopted for incorporating a geographic localization of the data in the analytical process, being based in its statistically great characteristics, meaning that, a created methodology to be without trend and with minimum variance in the prediction of non observed values, besides taking into consideration in the modeling and prediction the structure of the spatial dependence of the samples, with is inherent to the geospatial data.
|