Métodos de imputação múltipla para GEE em estudos longitudinais

=== Missing data is a major challenge for longitudinal data analysis.This dissertation shows how missing data may have a great impact on the estimation of quantities of interest when one chooses to use the GEE model. This approach - flexible in the sense that the joint distribution of a subjects re...

Full description

Bibliographic Details
Main Author: Jose Luiz Padilha da Silva
Other Authors: Enrico Antonio Colosimo
Format: Others
Language:Portuguese
Published: Universidade Federal de Minas Gerais 2011
Online Access:http://hdl.handle.net/1843/BUOS-8GHJRP
id ndltd-IBICT-oai-bibliotecadigital.ufmg.br-MTD2BR-BUOS-8GHJRP
record_format oai_dc
spelling ndltd-IBICT-oai-bibliotecadigital.ufmg.br-MTD2BR-BUOS-8GHJRP2019-01-21T18:03:14Z Métodos de imputação múltipla para GEE em estudos longitudinais Jose Luiz Padilha da Silva Enrico Antonio Colosimo Suely Ruiz Giolo Antonio Luiz Pinho Ribeiro Missing data is a major challenge for longitudinal data analysis.This dissertation shows how missing data may have a great impact on the estimation of quantities of interest when one chooses to use the GEE model. This approach - flexible in the sense that the joint distribution of a subjects response vector does not need to be specified - yield valid estimates of the regression coefficients only with data missingcompletely at random (MCAR). Because this assumption is rarely true in practice, we explored another missing data mechanism. In order to correct the bias in regression coefficient estimates, we focus on multiple imputation, a technique proposed by Little & Rubin (1987) that has received great attention in the literature. It consists of predicting missing values in order to obtain complete data sets that can be analyzed using standard methods. We discuss five methods for imputing missing data, three of which consider a regression model and two use some form of matching. Besides the simulation results, in which we compared the performance of these imputation methods, among them one proposed, we present an application with real data. The results show that multiple imputation is an appropriate tool to remove the bias of the estimates in the GEE model, the largest gain obtained with regression-based models. Em estudos longitudinais, dados ausentes constituem um grande desafio para analise. A presente dissertação mostra como dados ausentes podem apresentar grande impacto na estimação de quantidades de interesse quando se opta pelo modelo GEE como método de analise. Esse método flexível por não requerer a especificação da distribuição da variável resposta do indivíduo apresenta estimativas válidas dos coeficientes de regressão apenas na situação MCAR, isto é, quando a perda ocorre completamente ao acaso. Como essa suposição é raramente encontrada na pratica, exploramos outro mecanismo de perda de dados. A fim de corrigir o vício nas estimativas dos coeficientes de regressão, focamos na imputação múltipla, técnica proposta por Little & Rubin (1987) e que tem recebido grande destaque na literatura. Consiste em predizer os valores ausentes de forma a obter conjuntos de dados completos que podem ser analisados por meio de métodos padrão de análise.Abordamos cinco métodos de imputação de dados: três dos quais consideram um modelo de regressão e dois utilizam alguma forma de pareamento. Além dos resultados de simulação, em que comparamos os desempenhos desses diferentes métodos de imputação, entre eles um proposto, apresentamos também uma aplicação com dados reais. Os resultados indicam que a imputação de dados é uma ferramenta adequada para remover o vício das estimativas no modelo GEE, sendo o maior ganho obtido com métodosbaseados em regressão. 2011-02-22 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://hdl.handle.net/1843/BUOS-8GHJRP por info:eu-repo/semantics/openAccess text/html Universidade Federal de Minas Gerais 32001010053P7 - ESTATÍSTICA32001010053P7 - ESTATÍSTICA UFMG BR reponame:Biblioteca Digital de Teses e Dissertações da UFMG instname:Universidade Federal de Minas Gerais instacron:UFMG
collection NDLTD
language Portuguese
format Others
sources NDLTD
description === Missing data is a major challenge for longitudinal data analysis.This dissertation shows how missing data may have a great impact on the estimation of quantities of interest when one chooses to use the GEE model. This approach - flexible in the sense that the joint distribution of a subjects response vector does not need to be specified - yield valid estimates of the regression coefficients only with data missingcompletely at random (MCAR). Because this assumption is rarely true in practice, we explored another missing data mechanism. In order to correct the bias in regression coefficient estimates, we focus on multiple imputation, a technique proposed by Little & Rubin (1987) that has received great attention in the literature. It consists of predicting missing values in order to obtain complete data sets that can be analyzed using standard methods. We discuss five methods for imputing missing data, three of which consider a regression model and two use some form of matching. Besides the simulation results, in which we compared the performance of these imputation methods, among them one proposed, we present an application with real data. The results show that multiple imputation is an appropriate tool to remove the bias of the estimates in the GEE model, the largest gain obtained with regression-based models. === Em estudos longitudinais, dados ausentes constituem um grande desafio para analise. A presente dissertação mostra como dados ausentes podem apresentar grande impacto na estimação de quantidades de interesse quando se opta pelo modelo GEE como método de analise. Esse método flexível por não requerer a especificação da distribuição da variável resposta do indivíduo apresenta estimativas válidas dos coeficientes de regressão apenas na situação MCAR, isto é, quando a perda ocorre completamente ao acaso. Como essa suposição é raramente encontrada na pratica, exploramos outro mecanismo de perda de dados. A fim de corrigir o vício nas estimativas dos coeficientes de regressão, focamos na imputação múltipla, técnica proposta por Little & Rubin (1987) e que tem recebido grande destaque na literatura. Consiste em predizer os valores ausentes de forma a obter conjuntos de dados completos que podem ser analisados por meio de métodos padrão de análise.Abordamos cinco métodos de imputação de dados: três dos quais consideram um modelo de regressão e dois utilizam alguma forma de pareamento. Além dos resultados de simulação, em que comparamos os desempenhos desses diferentes métodos de imputação, entre eles um proposto, apresentamos também uma aplicação com dados reais. Os resultados indicam que a imputação de dados é uma ferramenta adequada para remover o vício das estimativas no modelo GEE, sendo o maior ganho obtido com métodosbaseados em regressão.
author2 Enrico Antonio Colosimo
author_facet Enrico Antonio Colosimo
Jose Luiz Padilha da Silva
author Jose Luiz Padilha da Silva
spellingShingle Jose Luiz Padilha da Silva
Métodos de imputação múltipla para GEE em estudos longitudinais
author_sort Jose Luiz Padilha da Silva
title Métodos de imputação múltipla para GEE em estudos longitudinais
title_short Métodos de imputação múltipla para GEE em estudos longitudinais
title_full Métodos de imputação múltipla para GEE em estudos longitudinais
title_fullStr Métodos de imputação múltipla para GEE em estudos longitudinais
title_full_unstemmed Métodos de imputação múltipla para GEE em estudos longitudinais
title_sort métodos de imputação múltipla para gee em estudos longitudinais
publisher Universidade Federal de Minas Gerais
publishDate 2011
url http://hdl.handle.net/1843/BUOS-8GHJRP
work_keys_str_mv AT joseluizpadilhadasilva metodosdeimputacaomultiplaparageeemestudoslongitudinais
_version_ 1718845915360395264