Summary: | Ce mémoire s’intéresse à l’étude du critère de validation croisée pour le choix des modèles relatifs aux petits domaines. L’étude est limitée aux modèles de petits domaines au niveau des unités. Le modèle de base des petits domaines est introduit par Battese, Harter et Fuller en 1988. C’est un modèle de régression linéaire mixte avec une ordonnée à l’origine aléatoire. Il se compose d’un certain nombre de paramètres : le paramètre β de la partie fixe, la composante aléatoire et les variances relatives à l’erreur résiduelle. Le modèle de Battese et al. est utilisé pour prédire, lors d’une enquête, la moyenne d’une variable d’intérêt y dans chaque petit domaine en utilisant une variable auxiliaire administrative x connue sur toute la population. La méthode d’estimation consiste à utiliser une distribution normale, pour modéliser la composante résiduelle du modèle. La considération d’une dépendance résiduelle générale, c’est-à-dire autre que la loi normale donne une méthodologie plus flexible. Cette généralisation conduit à une nouvelle classe de modèles échangeables. En effet, la généralisation se situe au niveau de la modélisation de la dépendance résiduelle qui peut être soit normale (c’est le cas du modèle de Battese et al.) ou non-normale. L’objectif est de déterminer les paramètres propres aux petits domaines avec le plus de précision possible. Cet enjeu est lié au choix de la bonne dépendance résiduelle à utiliser dans le modèle. Le critère de validation croisée sera étudié à cet effet. === This thesis focuses on the study of a cross-validation criterion for the choice of models for small areas. The study is limited to models of small areas at the unit level. The standard model for this problem has been introduced by Battese, Harter and Fuller in 1988. It is a mixed linear regression model with random intercepts. Its consists of a number of parameters: β a regression parameter for the fixed part, the random component and the variances for the residual error. The model of Battese et al. is used to predict in the average of a study variable y in each small area using an administrative auxiliary variable x known throughout the population. The standard estimation method consists of using a normal distribution for modelling the experimental errors. The consideration of a non normal dependence gives more accurate estimates. This new model might lead to better prediction of the mean of y within small areas. Indeed, the generalization lies in modelling the residual dependency with a non normal exchangeable model. The model selection is an issue and this work investigates crossvalidationas a method to choose a model.
|