A comparison of methods for longitudinal data with nonignorable dropout with an application in systemic sclerosis

Longitudinal studies in the medical field often experience data loss resulting from subject dropout. The general practice is still dominated by the use of unproven ad-hoc techniques. Modeling methods for longitudinal data with absent values exist and are valid under different missingness as...

Full description

Bibliographic Details
Main Author: Schnitzer, Mireille
Other Authors: Russell Steele (Internal/Supervisor)
Format: Others
Language:en
Published: McGill University 2009
Subjects:
Online Access:http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=66862
Description
Summary:Longitudinal studies in the medical field often experience data loss resulting from subject dropout. The general practice is still dominated by the use of unproven ad-hoc techniques. Modeling methods for longitudinal data with absent values exist and are valid under different missingness assumptions. A simulation study was performed that compared the linear mixed model, a pattern-mixture model using multiple imputations, Schafer's multiple imputation PAN model, and two fully Bayesian selection models. The models were contrasted in terms of their ability to estimate the slope of the response over time, and variability of the slope estimates and confidence bounds they produced. The success of each of these models varied under different missing data mechanisms, with the mixed model and the selection model (with a low amount of dependence between the probability of missingness and response values) outstanding in the MCAR and MAR cases, and the selection model (with a higher amount of probability of missingness/response dependence) alone doing very well for NMAR data. The pattern-mixture model also had good coverage for MCAR and MAR cases, but the PAN model did the poorest under all three missing data conditions. The modeling methods were then applied to longitudinal disability scores from the Canadian Scleroderma Research Group registry. Almost all were able to identify an increase in disability over time for patients, but with varying magnitudes. This example allowed for insight into the benefits of the models that were simpler to implement (the mixed model and PAN) and the pitfalls of using the pattern-mixture model in certain irregular settings. === Lors d'études statistiques dans le domaine médical où l'on mesure les variables au fil du temps, il arrive souvent que certains participants abandonnent l'étude. En général, on néglige l'importance de traiter ces manques de données avec des méthodes statistiques valides. Néanmoins, plusieurs méthodes existent pour traiter ces lacunes, sous différentes hypothèses de manque de données. Une étude de simulation a été effectuée afin de comparer différents modèles : mixte linéaire, mélange de configurations à redressements répétés, PAN à redressements répétés (introduit par Schafer), et deux modèles de sélection de Bayes. Les modèles ont été comparés en fonction de leur capacité à estimer la pente de la réaction au fil du temps, ainsi que la variabilité de l'approximation de la pente et des intervalles de confiance. En fait, la performance des modèles diffère en fonction de la façon dont les données manquantes ont été produites : MCAR, MAR, et NMAR. Le modèle mixte et un des modèles de sélection (celui avec le moins de dépendance entre la probabilité d'obtenir une donné manquante et la valeur de la réaction) ont bien performé dans les cas MCAR et MAR, tandis que le second modèle de sélection a mieux performé dans le cas NMAR. De plus, le modèle à mélange de configurations a produit des intervalles de confiance qui ont bien couvert la véritable pente, tandis que le modèle PAN, dans tous les cas, n'a pas produit de bons résultats. Ces méthodes ont ensuite été appliquées aux données longitudinales d'handicap physique du Groupe de recherche canadien sur la sclérodermie. Les modèles ont presque tous été capables d'identifier une augmentation de l'handicap au fil du temps. D'ailleurs, l'exemple sur la sclérodermie nous a permis d'identifier les avantages des modèles plus faciles à utiliser, ainsi que les désavantages du modèle à mélang