Contrôle des fausses découvertes lors de la sélection de variables en grande dimension

Dans le cadre de la régression, de nombreuses études s’intéressent au problème dit de la grande dimension, où le nombre de variables explicatives mesurées sur chaque échantillon est beaucoup plus grand que le nombre d’échantillons. Si la sélection de variables est une question classique, les méthode...

Full description

Bibliographic Details
Main Author: Bécu, Jean-Michel
Other Authors: Compiègne
Language:fr
en
Published: 2016
Subjects:
Online Access:http://www.theses.fr/2016COMP2264/document
id ndltd-theses.fr-2016COMP2264
record_format oai_dc
spelling ndltd-theses.fr-2016COMP22642017-07-08T04:39:48Z Contrôle des fausses découvertes lors de la sélection de variables en grande dimension Control of false discoveries in high-dimensional variable selection Sélection de variables Grande dimension Taux de fausses découvertes Régression linéaire Régression Lasso Méthodes à deux étapes Variable selection High-dimension False discovery rate Linear model Ridge regression (Statistics) Lasso Two-step approaches Dans le cadre de la régression, de nombreuses études s’intéressent au problème dit de la grande dimension, où le nombre de variables explicatives mesurées sur chaque échantillon est beaucoup plus grand que le nombre d’échantillons. Si la sélection de variables est une question classique, les méthodes usuelles ne s’appliquent pas dans le cadre de la grande dimension. Ainsi, dans ce manuscrit, nous présentons la transposition de tests statistiques classiques à la grande dimension. Ces tests sont construits sur des estimateurs des coefficients de régression produits par des approches de régressions linéaires pénalisées, applicables dans le cadre de la grande dimension. L’objectif principal des tests que nous proposons consiste à contrôler le taux de fausses découvertes. La première contribution de ce manuscrit répond à un problème de quantification de l’incertitude sur les coefficients de régression réalisée sur la base de la régression Ridge, qui pénalise les coefficients de régression par leur norme l2, dans le cadre de la grande dimension. Nous y proposons un test statistique basé sur le rééchantillonage. La seconde contribution porte sur une approche de sélection en deux étapes : une première étape de criblage des variables, basée sur la régression parcimonieuse Lasso précède l’étape de sélection proprement dite, où la pertinence des variables pré-sélectionnées est testée. Les tests sont construits sur l’estimateur de la régression Ridge adaptive, dont la pénalité est construite à partir des coefficients de régression du Lasso. Une dernière contribution consiste à transposer cette approche à la sélection de groupes de variables. In the regression framework, many studies are focused on the high-dimensional problem where the number of measured explanatory variables is very large compared to the sample size. If variable selection is a classical question, usual methods are not applicable in the high-dimensional case. So, in this manuscript, we develop the transposition of statistical tests to the high dimension. These tests operate on estimates of regression coefficients obtained by penalized linear regression, which is applicable in high-dimension. The main objective of these tests is the false discovery control. The first contribution of this manuscript provides a quantification of the uncertainty for regression coefficients estimated by ridge regression in high dimension. The Ridge regression penalizes the coefficients on their l2 norm. To do this, we devise a statistical test based on permutations. The second contribution is based on a two-step selection approach. A first step is dedicated to the screening of variables, based on parsimonious regression Lasso. The second step consists in cleaning the resulting set by testing the relevance of pre-selected variables. These tests are made on adaptive-ridge estimates, where the penalty is constructed on Lasso estimates learned during the screening step. A last contribution consists to the transposition of this approach to group-variables selection. Electronic Thesis or Dissertation Text fr en http://www.theses.fr/2016COMP2264/document Bécu, Jean-Michel 2016-03-10 Compiègne Ambroise, Christophe Grandvalet, Yves
collection NDLTD
language fr
en
sources NDLTD
topic Sélection de variables
Grande dimension
Taux de fausses découvertes
Régression linéaire
Régression Lasso
Méthodes à deux étapes
Variable selection
High-dimension
False discovery rate
Linear model
Ridge regression (Statistics)
Lasso
Two-step approaches

spellingShingle Sélection de variables
Grande dimension
Taux de fausses découvertes
Régression linéaire
Régression Lasso
Méthodes à deux étapes
Variable selection
High-dimension
False discovery rate
Linear model
Ridge regression (Statistics)
Lasso
Two-step approaches

Bécu, Jean-Michel
Contrôle des fausses découvertes lors de la sélection de variables en grande dimension
description Dans le cadre de la régression, de nombreuses études s’intéressent au problème dit de la grande dimension, où le nombre de variables explicatives mesurées sur chaque échantillon est beaucoup plus grand que le nombre d’échantillons. Si la sélection de variables est une question classique, les méthodes usuelles ne s’appliquent pas dans le cadre de la grande dimension. Ainsi, dans ce manuscrit, nous présentons la transposition de tests statistiques classiques à la grande dimension. Ces tests sont construits sur des estimateurs des coefficients de régression produits par des approches de régressions linéaires pénalisées, applicables dans le cadre de la grande dimension. L’objectif principal des tests que nous proposons consiste à contrôler le taux de fausses découvertes. La première contribution de ce manuscrit répond à un problème de quantification de l’incertitude sur les coefficients de régression réalisée sur la base de la régression Ridge, qui pénalise les coefficients de régression par leur norme l2, dans le cadre de la grande dimension. Nous y proposons un test statistique basé sur le rééchantillonage. La seconde contribution porte sur une approche de sélection en deux étapes : une première étape de criblage des variables, basée sur la régression parcimonieuse Lasso précède l’étape de sélection proprement dite, où la pertinence des variables pré-sélectionnées est testée. Les tests sont construits sur l’estimateur de la régression Ridge adaptive, dont la pénalité est construite à partir des coefficients de régression du Lasso. Une dernière contribution consiste à transposer cette approche à la sélection de groupes de variables. === In the regression framework, many studies are focused on the high-dimensional problem where the number of measured explanatory variables is very large compared to the sample size. If variable selection is a classical question, usual methods are not applicable in the high-dimensional case. So, in this manuscript, we develop the transposition of statistical tests to the high dimension. These tests operate on estimates of regression coefficients obtained by penalized linear regression, which is applicable in high-dimension. The main objective of these tests is the false discovery control. The first contribution of this manuscript provides a quantification of the uncertainty for regression coefficients estimated by ridge regression in high dimension. The Ridge regression penalizes the coefficients on their l2 norm. To do this, we devise a statistical test based on permutations. The second contribution is based on a two-step selection approach. A first step is dedicated to the screening of variables, based on parsimonious regression Lasso. The second step consists in cleaning the resulting set by testing the relevance of pre-selected variables. These tests are made on adaptive-ridge estimates, where the penalty is constructed on Lasso estimates learned during the screening step. A last contribution consists to the transposition of this approach to group-variables selection.
author2 Compiègne
author_facet Compiègne
Bécu, Jean-Michel
author Bécu, Jean-Michel
author_sort Bécu, Jean-Michel
title Contrôle des fausses découvertes lors de la sélection de variables en grande dimension
title_short Contrôle des fausses découvertes lors de la sélection de variables en grande dimension
title_full Contrôle des fausses découvertes lors de la sélection de variables en grande dimension
title_fullStr Contrôle des fausses découvertes lors de la sélection de variables en grande dimension
title_full_unstemmed Contrôle des fausses découvertes lors de la sélection de variables en grande dimension
title_sort contrôle des fausses découvertes lors de la sélection de variables en grande dimension
publishDate 2016
url http://www.theses.fr/2016COMP2264/document
work_keys_str_mv AT becujeanmichel controledesfaussesdecouverteslorsdelaselectiondevariablesengrandedimension
AT becujeanmichel controloffalsediscoveriesinhighdimensionalvariableselection
_version_ 1718493582238679040