Generalized linear mixed models for binary outcome data with a low proportion of occurrences

Many studies in epidemiology and other fields such as econometrics and social sciences give rise to correlated outcome data (e.g., longitudinal studies, meta-analyses, and multi-centre studies). Parameter estimation of generalized linear mixed models (GLMMs), which are frequently used to perform inf...

Full description

Bibliographic Details
Main Author: Beauchamp, Marie-Eve
Other Authors: James Anthony Hanley (Supervisor2)
Format: Others
Language:en
Published: McGill University 2010
Subjects:
Online Access:http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=86709
Description
Summary:Many studies in epidemiology and other fields such as econometrics and social sciences give rise to correlated outcome data (e.g., longitudinal studies, meta-analyses, and multi-centre studies). Parameter estimation of generalized linear mixed models (GLMMs), which are frequently used to perform inference on correlated binary outcomes, is complicated by intractable integrals in the marginal likelihood. Penalized quasi-likelihood (PQL) and maximum likelihood estimation in conjunction with numerical integration via adaptive Gauss-Hermite quadrature (AGHQ) are estimation methods that are commonly used in practice. However, the assessment of the performance of these estimation methods in settings found in practice is incomplete, particularly for binary outcome data with a low proportion of occurrences. === To begin with, I considered graphical representations of the distributions of cluster-specific log odds of outcome ensuing from random intercepts logistic models (RILMs) converted to the probability scale with the inverse logit transformation. RILMs are special cases of GLMMs. These representations are helpful to comprehend the implications of RILM parameter values for the distributions of cluster-specific probabilities of outcome. The correspondence of these distributions with beta distributions, also used for random effects models for binary outcomes, was graphically assessed and a generally good agreement was found. === Afterwards, I evaluated via a simulation study the performance of the PQL and AGHQ methods in several realistic settings of binary outcome data with a low proportion of occurrences. Different features determining the number of occurrences were considered (number of clusters, cluster size, and probabilities of outcome). The AGHQ method produced nearly unbiased fixed effects estimates, even in challenging settings with low proportions of occurrences or a small sample size, but mean square errors tended to be larger than with PQL for small datasets. Both methods produced biased variance component estimates when the number of clusters was moderate, especially with rarer occurrences. === Finally, through further analysis of the simulation results, I assessed if a number of indicators quantifying different aspects of the rarity of the events in a dataset, all measurable in practice, could explain patterns of bias in the parameter estimates. The selected rarity indicators quantify the overall number of events and their distribution across the clusters. === Plusieurs études en épidémiologie et autres domaines, tels que les sciences sociales, donnent lieu à des données de réponse corrélées (par exemple, les études longitudinales et multi-centres). L'estimation des paramètres des modèles linéaires généralisés mixtes (MLGM), souvent utilisés pour les données de réponse corrélées, est compliquée par des intégrales sans solution analytique dans la fonction de vraisemblance marginale. La méthode de quasi-vraisemblance pénalisée (QVP) et l'estimation par la maximisation de la vraisemblance conjointement avec la technique d'intégration numérique de quadrature Gauss-Hermite adaptée (QGHA) sont souvent utilisées. Cependant, l'évaluation de la performance de ces méthodes en pratique est incomplète, en particulier pour les données de réponse binaires avec faible proportion d'événements. === Dans un premier temps, j'ai considéré la représentation graphique de distributions du logarithme de la cote spécifique à chaque groupe résultant de modèles logistiques avec intercepts aléatoires (MLIA) transformées à l'échelle des probabilités avec la transformation logit inversée. Les MLIA sont des cas particuliers des MLGM. Ces représentations sont utiles pour comprendre les implications des valeurs des paramètres sur la distribution de la probabilité de réponse spécifique à chaque groupe. La correspondance avec la loi bêta a été évaluée graphiquement et une bonne concordance fut observée. === Par la suite, j'ai évalué avec une étude de simulations la performance des méthodes QVP et QGHA pour plusieurs cas réalistes de données de réponse binaires avec faible proportion d'événements. Différentes caractéristiques déterminant le nombre d'événements furent considérées (nombre et taille des groupes et probabilités d'événement). La méthode QGHA a produit des valeurs estimées presque sans biais, même dans des situations avec faible proportion d'événements ou petite taille d'échantillon, mais les erreurs quadratiques moyennes étaient souvent plus élevées qu'avec la méthode QVP pour les petits échantillons. Les deux méthodes ont produit des valeurs estimées biaisées pour la composante de variance lorsque le nombre de groupes était modéré, particulièrement lorsque les événements étaient rares. === Finalement, j'ai évalué si un nombre d'indicateurs de rareté des événements, tous mesurables en pratique pour un jeu de données, pouvaient expliquer le biais dans les valeurs estimées des paramètres. Les indicateurs sélectionnés quantifient le nombre total d'événements et leur distribution dans les groupes.