Transformações em dados composicionais para a aplicação da análise de componentes principais

A análise de dados composicionais está sendo amplamente utilizada nas diversas áreas do conhecimento como por exemplo na análise de sedimentos rochosos, na comparação de diferentes células e até na análise criminalística na comparação de evidências de crimes. Durante a história da análise deste tipo...

Full description

Bibliographic Details
Main Author: Messias, Ricardo Matioli
Other Authors: Barroso, Lucia Pereira
Format: Others
Language:pt
Published: Biblioteca Digitais de Teses e Dissertações da USP 2016
Subjects:
Online Access:http://www.teses.usp.br/teses/disponiveis/45/45133/tde-12072016-211056/
id ndltd-usp.br-oai-teses.usp.br-tde-12072016-211056
record_format oai_dc
collection NDLTD
language pt
format Others
sources NDLTD
topic Additive log-ratio
Additive log-ratio
Center log-ratio
Center log-ratio
Componentes principais
Compositional data
Dados composionais
Log transformation
Principal component analysis
Spherical transformation
Transformação esférica
Transformação log
spellingShingle Additive log-ratio
Additive log-ratio
Center log-ratio
Center log-ratio
Componentes principais
Compositional data
Dados composionais
Log transformation
Principal component analysis
Spherical transformation
Transformação esférica
Transformação log
Messias, Ricardo Matioli
Transformações em dados composicionais para a aplicação da análise de componentes principais
description A análise de dados composicionais está sendo amplamente utilizada nas diversas áreas do conhecimento como por exemplo na análise de sedimentos rochosos, na comparação de diferentes células e até na análise criminalística na comparação de evidências de crimes. Durante a história da análise deste tipo de dados existiram muitos tipos de ajustes utilizados para contornar o problema da soma constante das variáveis e ainda hoje não temos um consenso de qual a melhor solução a ser utilizada. Neste trabalho, temos como objetivo a enunciação das 7 transformações que mais foram utilizadas ao longo do tempo e suas vantagens e desvantagens. A análise de componentes principais foi escolhida para o comparativo destas transformações. Fizemos a aplicação destas transformações em três bancos de dados reais com características diferentes entre si, comparamos os resultados e analisamos qual das transformações apresentou o melhor desempenho em cada base de dados. Os critérios de comparação foram o percentual da variância explicada, as variáveis que foram mais importantes para a primeira componente principal, cargas das variáveis nas componentes principais mais importantes assim como suas correlações com as variáveis. Também, simulamos quatro estruturas de bases de dados composicionais para avaliar o desempenho das transformações. Para essas comparações e simulações, foram desenvolvidas algumas funções, utilizando o \\textit estatístico R, que visam facilitar a comparação entre as sete transformações, assim auxiliando na escolha de qual das transformações melhor se adapta aos dados. Pelos resultados obtidos notamos que: nas bases de dados reais, os resultados das explicações da variância das transformações são similares e as transformações Ref e Alr mostram melhores desempenhos que as demais; nas quatro estruturas simuladas as transformações Ref e Alr também possuem os melhores resultados na explicação da variância e a interpretação de suas componentes principais são parecidas, assim como as transformações Trad, Log e Clr. Com isso notamos que independentemente da aplicação do logaritmo nas transformações Alr e Log elas apresentaram resultados muitos similares às transformações Ref e Trad, respectivamente, tanto na explicação da variância como na interpretação das componentes principais. === The compositional data analysis is being widely used in several areas of knowledge such as the analysis of rocky sediments, to compare different biological cells and even in forensic analysis to compare crimes evidences. During the history of the analysis of such data, to circumvent the problem of variable\'s constant sum were used many types of adjustments. Until now, we do not have a consensus in which is the best solution to be used in this cases. In this paper, we aim to enunciate seven transformations that most were used over time and their advantages and disadvantages. The principal component analysis was chosen for the comparison of these transformations. We applied this transformations in three real databases with different characteristics, we hope to compare the results and analyze which transformation have the best performance in each database. The comparison criteria were the percentage of explained variance, the variables that were most important to the first principal component,variable\'s loads in the most important principal components as well their correlation with the variables. We also simulated four compositional data bases structures to evaluate the performance of the transformations. For these comparisons and simulations were developed some functions, using the statistical software R, to facilitate comparison between the seven transformations, thus assisting in choosing which of the best transformation fits to the data. From the results we note that: for the real databases, the results of the variance explanation of all transformations are similar, thus Ref and Alr transformations show better performances than the others; in the four simulated structures the Ref and Alr transformations also have the best results in the variance explanation and interpretation of its main components are similar, as well as the transformations Trad, Log and Clr. Thus we note that independently of applying logarithm in and Log and Alr transformations they present very similar results as Ref and Trad transformations, respectively, both in variance explanation and in the interpretation of the principal components.
author2 Barroso, Lucia Pereira
author_facet Barroso, Lucia Pereira
Messias, Ricardo Matioli
author Messias, Ricardo Matioli
author_sort Messias, Ricardo Matioli
title Transformações em dados composicionais para a aplicação da análise de componentes principais
title_short Transformações em dados composicionais para a aplicação da análise de componentes principais
title_full Transformações em dados composicionais para a aplicação da análise de componentes principais
title_fullStr Transformações em dados composicionais para a aplicação da análise de componentes principais
title_full_unstemmed Transformações em dados composicionais para a aplicação da análise de componentes principais
title_sort transformações em dados composicionais para a aplicação da análise de componentes principais
publisher Biblioteca Digitais de Teses e Dissertações da USP
publishDate 2016
url http://www.teses.usp.br/teses/disponiveis/45/45133/tde-12072016-211056/
work_keys_str_mv AT messiasricardomatioli transformacoesemdadoscomposicionaisparaaaplicacaodaanalisedecomponentesprincipais
AT messiasricardomatioli transformationsincompositionaldataforapplicationofprincipalcomponentsanalysis
_version_ 1719060164440489984
spelling ndltd-usp.br-oai-teses.usp.br-tde-12072016-2110562019-05-09T19:15:28Z Transformações em dados composicionais para a aplicação da análise de componentes principais Transformations in compositional data for application of principal components analysis Messias, Ricardo Matioli Additive log-ratio Additive log-ratio Center log-ratio Center log-ratio Componentes principais Compositional data Dados composionais Log transformation Principal component analysis Spherical transformation Transformação esférica Transformação log A análise de dados composicionais está sendo amplamente utilizada nas diversas áreas do conhecimento como por exemplo na análise de sedimentos rochosos, na comparação de diferentes células e até na análise criminalística na comparação de evidências de crimes. Durante a história da análise deste tipo de dados existiram muitos tipos de ajustes utilizados para contornar o problema da soma constante das variáveis e ainda hoje não temos um consenso de qual a melhor solução a ser utilizada. Neste trabalho, temos como objetivo a enunciação das 7 transformações que mais foram utilizadas ao longo do tempo e suas vantagens e desvantagens. A análise de componentes principais foi escolhida para o comparativo destas transformações. Fizemos a aplicação destas transformações em três bancos de dados reais com características diferentes entre si, comparamos os resultados e analisamos qual das transformações apresentou o melhor desempenho em cada base de dados. Os critérios de comparação foram o percentual da variância explicada, as variáveis que foram mais importantes para a primeira componente principal, cargas das variáveis nas componentes principais mais importantes assim como suas correlações com as variáveis. Também, simulamos quatro estruturas de bases de dados composicionais para avaliar o desempenho das transformações. Para essas comparações e simulações, foram desenvolvidas algumas funções, utilizando o \\textit estatístico R, que visam facilitar a comparação entre as sete transformações, assim auxiliando na escolha de qual das transformações melhor se adapta aos dados. Pelos resultados obtidos notamos que: nas bases de dados reais, os resultados das explicações da variância das transformações são similares e as transformações Ref e Alr mostram melhores desempenhos que as demais; nas quatro estruturas simuladas as transformações Ref e Alr também possuem os melhores resultados na explicação da variância e a interpretação de suas componentes principais são parecidas, assim como as transformações Trad, Log e Clr. Com isso notamos que independentemente da aplicação do logaritmo nas transformações Alr e Log elas apresentaram resultados muitos similares às transformações Ref e Trad, respectivamente, tanto na explicação da variância como na interpretação das componentes principais. The compositional data analysis is being widely used in several areas of knowledge such as the analysis of rocky sediments, to compare different biological cells and even in forensic analysis to compare crimes evidences. During the history of the analysis of such data, to circumvent the problem of variable\'s constant sum were used many types of adjustments. Until now, we do not have a consensus in which is the best solution to be used in this cases. In this paper, we aim to enunciate seven transformations that most were used over time and their advantages and disadvantages. The principal component analysis was chosen for the comparison of these transformations. We applied this transformations in three real databases with different characteristics, we hope to compare the results and analyze which transformation have the best performance in each database. The comparison criteria were the percentage of explained variance, the variables that were most important to the first principal component,variable\'s loads in the most important principal components as well their correlation with the variables. We also simulated four compositional data bases structures to evaluate the performance of the transformations. For these comparisons and simulations were developed some functions, using the statistical software R, to facilitate comparison between the seven transformations, thus assisting in choosing which of the best transformation fits to the data. From the results we note that: for the real databases, the results of the variance explanation of all transformations are similar, thus Ref and Alr transformations show better performances than the others; in the four simulated structures the Ref and Alr transformations also have the best results in the variance explanation and interpretation of its main components are similar, as well as the transformations Trad, Log and Clr. Thus we note that independently of applying logarithm in and Log and Alr transformations they present very similar results as Ref and Trad transformations, respectively, both in variance explanation and in the interpretation of the principal components. Biblioteca Digitais de Teses e Dissertações da USP Barroso, Lucia Pereira 2016-04-29 Dissertação de Mestrado application/pdf http://www.teses.usp.br/teses/disponiveis/45/45133/tde-12072016-211056/ pt Liberar o conteúdo para acesso público.