Effects of sparse follow-up on marginal structural models for time-to-event data
Background: Survival time is a common parameter of interest that can be estimated by using Cox Proportional Hazards models when measured continuously. An alternative way to estimate hazard ratios is to cut up time into equal-lengthed intervals and consider the by-interval outcome to be 0 if the pers...
Main Author: | |
---|---|
Other Authors: | |
Format: | Others |
Language: | en |
Published: |
McGill University
2012
|
Subjects: | |
Online Access: | http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=110690 |
id |
ndltd-LACETR-oai-collectionscanada.gc.ca-QMM.110690 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
en |
format |
Others
|
sources |
NDLTD |
topic |
Biology - Biostatistics |
spellingShingle |
Biology - Biostatistics Mojaverian, Nassim Effects of sparse follow-up on marginal structural models for time-to-event data |
description |
Background: Survival time is a common parameter of interest that can be estimated by using Cox Proportional Hazards models when measured continuously. An alternative way to estimate hazard ratios is to cut up time into equal-lengthed intervals and consider the by-interval outcome to be 0 if the person is alive during this interval and 1 otherwise. In this discrete-time approximation, instead of using a Cox model, one should perform pooled logistic regression to get unbiased estimate of survival time under the assumption of low death rate per interval. This fact is satisfied when shorter intervals is used in order to have fewer events in each time, however, by doing this, problems such as missing values can arise because the actual visits occur less frequently in a survival setting and one must therefore account for the missing values. Objective: We investigate the effect of two methods of filling in missing data, Last Observation Carried Forward (LOCF) and Multiple Imputation (MI), as well as Available Case Study. We compare these three different approaches to complete data analysis. Methods: Weighted pooled logistic regression is used to estimate the causal marginal treatment effect. Complete data were generated using Young's algorithm to obtain monthly information for all individuals, and from the complete data, observed data were selected by assuming follow-up visits occurred every six or three months. Thus, to analyze the observed data at a monthly level, we performed LOCF and MI to fill in the missing values and compared the results to those from a completely-observed data analysis. We also included an analysis of the observed-data without any imputation. We then applied these methods to the Canadian Co-infection Cohort to estimate the impact of alcohol consumption on liver fibrosis.Results: In most simulations, MI produced the least biased and least variant estimators, even outperforming analyses based on completely-observed data. In the presence of stronger confounding, MI-based estimators were more biased but nevertheless less variant than the estimators based on completely-observed data.Conclusion: Multiple Imputation is superior to last-observation carried forward and observed-data analysis when marginal structural models are used to adjust for time-varying exposure and variables in the context of survival analysis and data are missing or infrequently measured. === Contexte : Le temps de survie est un paramètre d'intérêt commun qui peut être évalué en faisant appel aux modèles à risques proportionnels de Cox lorsqu'il mesuré en continu. Un autre moyen d'estimer des risques relatifs est de diviser le temps en intervalles égaux et d'assigner une valeur de 0 ou de 1 à chaque intervalle selon que l'individu y est vivant ou non. Dans cette approximation à temps discret, on doit avoir recours à une régression logistique regroupée plutôt qu'à un modèle de Cox pour obtenir une estimation sans biais du temps de survie sous l'hypothèse que le taux de décès par intervalle est bas. Cette hypothèse est raisonnable lorsque les intervalles sont suffisamment courts pour éviter les événements multiples mais ce faisant, des problèmes de valeurs manquantes ou autres peuvent subvenir car les visites effectives ont lieu moins fréquemment dans un contexte de survie et la possibilité que des valeurs soient manquantes est bien réelle.Objectif : Nous examinons l'effet de deux méthodes d'imputation de valeurs manquantes, à savoir la reconduction de la dernière observation (RDO) et l'imputation multiple (IM), de même que la technique d'études des cas disponibles. Nous comparons ces trois approches en prenant comme point de référence l'analyse des cas complets.Méthodes : La régression logistique regroupée pondérée est utilisée afin d'estimer l'effet de traitement causal marginal. Des données complètes ont été générées au moyen de l'algorithme de Young afin d'obtenir des informations mensuelles au sujet de tous les individus ; des observations ont ensuite été sélectionnées à partir des données complètes en supposant que des visites de suivi aient lieu tous les trois ou six mois. Ainsi, en vue d'analyser les données observées sur une base mensuelle, on a effectué la reconduction de la dernière observation (RDO) et l'imputation multiple (IM) pour remplacer les données manquantes et comparer les résultats à ceux d'une analyse de données entièrement observables. On a également effectué une analyse des données observées avant imputation. On a ensuite appliqué ces techniques à la cohorte de co-infection canadienne afin d'évaluer l'impact de la consommation d'alcool sur la fibrose du foie. Résultats: Dans la plupart des simulations, les estimations fondées sur l'imputation multiple se sont avérées moins biaisées et moins variables que les autres, surpassant même celles fondées sur l'observation de données complètes. En présence d'effets confondants, les estimations fondées sur l'imputation multiple ont présenté un biais accru mais ont été moins variables que celles fondées sur les données entièrement observables.Conclusion : L'imputation multiple est supérieure à la reconduction de la dernière observation et à l'analyse des données brutes lorsque des modèles structuraux marginaux sont utilisés pour ajuster l'exposition temporelle et les variables dans un contexte d'analyses de survie où les données sont mesurées à basse fréquence ou incomplètes. |
author2 |
Erica Moodie (Internal/Supervisor) |
author_facet |
Erica Moodie (Internal/Supervisor) Mojaverian, Nassim |
author |
Mojaverian, Nassim |
author_sort |
Mojaverian, Nassim |
title |
Effects of sparse follow-up on marginal structural models for time-to-event data |
title_short |
Effects of sparse follow-up on marginal structural models for time-to-event data |
title_full |
Effects of sparse follow-up on marginal structural models for time-to-event data |
title_fullStr |
Effects of sparse follow-up on marginal structural models for time-to-event data |
title_full_unstemmed |
Effects of sparse follow-up on marginal structural models for time-to-event data |
title_sort |
effects of sparse follow-up on marginal structural models for time-to-event data |
publisher |
McGill University |
publishDate |
2012 |
url |
http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=110690 |
work_keys_str_mv |
AT mojaveriannassim effectsofsparsefollowuponmarginalstructuralmodelsfortimetoeventdata |
_version_ |
1716638395943354368 |
spelling |
ndltd-LACETR-oai-collectionscanada.gc.ca-QMM.1106902014-02-13T03:45:49ZEffects of sparse follow-up on marginal structural models for time-to-event dataMojaverian, NassimBiology - BiostatisticsBackground: Survival time is a common parameter of interest that can be estimated by using Cox Proportional Hazards models when measured continuously. An alternative way to estimate hazard ratios is to cut up time into equal-lengthed intervals and consider the by-interval outcome to be 0 if the person is alive during this interval and 1 otherwise. In this discrete-time approximation, instead of using a Cox model, one should perform pooled logistic regression to get unbiased estimate of survival time under the assumption of low death rate per interval. This fact is satisfied when shorter intervals is used in order to have fewer events in each time, however, by doing this, problems such as missing values can arise because the actual visits occur less frequently in a survival setting and one must therefore account for the missing values. Objective: We investigate the effect of two methods of filling in missing data, Last Observation Carried Forward (LOCF) and Multiple Imputation (MI), as well as Available Case Study. We compare these three different approaches to complete data analysis. Methods: Weighted pooled logistic regression is used to estimate the causal marginal treatment effect. Complete data were generated using Young's algorithm to obtain monthly information for all individuals, and from the complete data, observed data were selected by assuming follow-up visits occurred every six or three months. Thus, to analyze the observed data at a monthly level, we performed LOCF and MI to fill in the missing values and compared the results to those from a completely-observed data analysis. We also included an analysis of the observed-data without any imputation. We then applied these methods to the Canadian Co-infection Cohort to estimate the impact of alcohol consumption on liver fibrosis.Results: In most simulations, MI produced the least biased and least variant estimators, even outperforming analyses based on completely-observed data. In the presence of stronger confounding, MI-based estimators were more biased but nevertheless less variant than the estimators based on completely-observed data.Conclusion: Multiple Imputation is superior to last-observation carried forward and observed-data analysis when marginal structural models are used to adjust for time-varying exposure and variables in the context of survival analysis and data are missing or infrequently measured. Contexte : Le temps de survie est un paramètre d'intérêt commun qui peut être évalué en faisant appel aux modèles à risques proportionnels de Cox lorsqu'il mesuré en continu. Un autre moyen d'estimer des risques relatifs est de diviser le temps en intervalles égaux et d'assigner une valeur de 0 ou de 1 à chaque intervalle selon que l'individu y est vivant ou non. Dans cette approximation à temps discret, on doit avoir recours à une régression logistique regroupée plutôt qu'à un modèle de Cox pour obtenir une estimation sans biais du temps de survie sous l'hypothèse que le taux de décès par intervalle est bas. Cette hypothèse est raisonnable lorsque les intervalles sont suffisamment courts pour éviter les événements multiples mais ce faisant, des problèmes de valeurs manquantes ou autres peuvent subvenir car les visites effectives ont lieu moins fréquemment dans un contexte de survie et la possibilité que des valeurs soient manquantes est bien réelle.Objectif : Nous examinons l'effet de deux méthodes d'imputation de valeurs manquantes, à savoir la reconduction de la dernière observation (RDO) et l'imputation multiple (IM), de même que la technique d'études des cas disponibles. Nous comparons ces trois approches en prenant comme point de référence l'analyse des cas complets.Méthodes : La régression logistique regroupée pondérée est utilisée afin d'estimer l'effet de traitement causal marginal. Des données complètes ont été générées au moyen de l'algorithme de Young afin d'obtenir des informations mensuelles au sujet de tous les individus ; des observations ont ensuite été sélectionnées à partir des données complètes en supposant que des visites de suivi aient lieu tous les trois ou six mois. Ainsi, en vue d'analyser les données observées sur une base mensuelle, on a effectué la reconduction de la dernière observation (RDO) et l'imputation multiple (IM) pour remplacer les données manquantes et comparer les résultats à ceux d'une analyse de données entièrement observables. On a également effectué une analyse des données observées avant imputation. On a ensuite appliqué ces techniques à la cohorte de co-infection canadienne afin d'évaluer l'impact de la consommation d'alcool sur la fibrose du foie. Résultats: Dans la plupart des simulations, les estimations fondées sur l'imputation multiple se sont avérées moins biaisées et moins variables que les autres, surpassant même celles fondées sur l'observation de données complètes. En présence d'effets confondants, les estimations fondées sur l'imputation multiple ont présenté un biais accru mais ont été moins variables que celles fondées sur les données entièrement observables.Conclusion : L'imputation multiple est supérieure à la reconduction de la dernière observation et à l'analyse des données brutes lorsque des modèles structuraux marginaux sont utilisés pour ajuster l'exposition temporelle et les variables dans un contexte d'analyses de survie où les données sont mesurées à basse fréquence ou incomplètes.McGill UniversityErica Moodie (Internal/Supervisor)2012Electronic Thesis or Dissertationapplication/pdfenElectronically-submitted theses.All items in eScholarship@McGill are protected by copyright with all rights reserved unless otherwise indicated.Master of Science (Department of Epidemiology & Biostatistics) http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=110690 |