Contrôle des fausses découvertes lors de la sélection de variables en grande dimension
Dans le cadre de la régression, de nombreuses études s’intéressent au problème dit de la grande dimension, où le nombre de variables explicatives mesurées sur chaque échantillon est beaucoup plus grand que le nombre d’échantillons. Si la sélection de variables est une question classique, les méthode...
Main Author: | |
---|---|
Other Authors: | |
Language: | fr en |
Published: |
2016
|
Subjects: | |
Online Access: | http://www.theses.fr/2016COMP2264/document |
id |
ndltd-theses.fr-2016COMP2264 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-theses.fr-2016COMP22642017-07-08T04:39:48Z Contrôle des fausses découvertes lors de la sélection de variables en grande dimension Control of false discoveries in high-dimensional variable selection Sélection de variables Grande dimension Taux de fausses découvertes Régression linéaire Régression Lasso Méthodes à deux étapes Variable selection High-dimension False discovery rate Linear model Ridge regression (Statistics) Lasso Two-step approaches Dans le cadre de la régression, de nombreuses études s’intéressent au problème dit de la grande dimension, où le nombre de variables explicatives mesurées sur chaque échantillon est beaucoup plus grand que le nombre d’échantillons. Si la sélection de variables est une question classique, les méthodes usuelles ne s’appliquent pas dans le cadre de la grande dimension. Ainsi, dans ce manuscrit, nous présentons la transposition de tests statistiques classiques à la grande dimension. Ces tests sont construits sur des estimateurs des coefficients de régression produits par des approches de régressions linéaires pénalisées, applicables dans le cadre de la grande dimension. L’objectif principal des tests que nous proposons consiste à contrôler le taux de fausses découvertes. La première contribution de ce manuscrit répond à un problème de quantification de l’incertitude sur les coefficients de régression réalisée sur la base de la régression Ridge, qui pénalise les coefficients de régression par leur norme l2, dans le cadre de la grande dimension. Nous y proposons un test statistique basé sur le rééchantillonage. La seconde contribution porte sur une approche de sélection en deux étapes : une première étape de criblage des variables, basée sur la régression parcimonieuse Lasso précède l’étape de sélection proprement dite, où la pertinence des variables pré-sélectionnées est testée. Les tests sont construits sur l’estimateur de la régression Ridge adaptive, dont la pénalité est construite à partir des coefficients de régression du Lasso. Une dernière contribution consiste à transposer cette approche à la sélection de groupes de variables. In the regression framework, many studies are focused on the high-dimensional problem where the number of measured explanatory variables is very large compared to the sample size. If variable selection is a classical question, usual methods are not applicable in the high-dimensional case. So, in this manuscript, we develop the transposition of statistical tests to the high dimension. These tests operate on estimates of regression coefficients obtained by penalized linear regression, which is applicable in high-dimension. The main objective of these tests is the false discovery control. The first contribution of this manuscript provides a quantification of the uncertainty for regression coefficients estimated by ridge regression in high dimension. The Ridge regression penalizes the coefficients on their l2 norm. To do this, we devise a statistical test based on permutations. The second contribution is based on a two-step selection approach. A first step is dedicated to the screening of variables, based on parsimonious regression Lasso. The second step consists in cleaning the resulting set by testing the relevance of pre-selected variables. These tests are made on adaptive-ridge estimates, where the penalty is constructed on Lasso estimates learned during the screening step. A last contribution consists to the transposition of this approach to group-variables selection. Electronic Thesis or Dissertation Text fr en http://www.theses.fr/2016COMP2264/document Bécu, Jean-Michel 2016-03-10 Compiègne Ambroise, Christophe Grandvalet, Yves |
collection |
NDLTD |
language |
fr en |
sources |
NDLTD |
topic |
Sélection de variables Grande dimension Taux de fausses découvertes Régression linéaire Régression Lasso Méthodes à deux étapes Variable selection High-dimension False discovery rate Linear model Ridge regression (Statistics) Lasso Two-step approaches |
spellingShingle |
Sélection de variables Grande dimension Taux de fausses découvertes Régression linéaire Régression Lasso Méthodes à deux étapes Variable selection High-dimension False discovery rate Linear model Ridge regression (Statistics) Lasso Two-step approaches Bécu, Jean-Michel Contrôle des fausses découvertes lors de la sélection de variables en grande dimension |
description |
Dans le cadre de la régression, de nombreuses études s’intéressent au problème dit de la grande dimension, où le nombre de variables explicatives mesurées sur chaque échantillon est beaucoup plus grand que le nombre d’échantillons. Si la sélection de variables est une question classique, les méthodes usuelles ne s’appliquent pas dans le cadre de la grande dimension. Ainsi, dans ce manuscrit, nous présentons la transposition de tests statistiques classiques à la grande dimension. Ces tests sont construits sur des estimateurs des coefficients de régression produits par des approches de régressions linéaires pénalisées, applicables dans le cadre de la grande dimension. L’objectif principal des tests que nous proposons consiste à contrôler le taux de fausses découvertes. La première contribution de ce manuscrit répond à un problème de quantification de l’incertitude sur les coefficients de régression réalisée sur la base de la régression Ridge, qui pénalise les coefficients de régression par leur norme l2, dans le cadre de la grande dimension. Nous y proposons un test statistique basé sur le rééchantillonage. La seconde contribution porte sur une approche de sélection en deux étapes : une première étape de criblage des variables, basée sur la régression parcimonieuse Lasso précède l’étape de sélection proprement dite, où la pertinence des variables pré-sélectionnées est testée. Les tests sont construits sur l’estimateur de la régression Ridge adaptive, dont la pénalité est construite à partir des coefficients de régression du Lasso. Une dernière contribution consiste à transposer cette approche à la sélection de groupes de variables. === In the regression framework, many studies are focused on the high-dimensional problem where the number of measured explanatory variables is very large compared to the sample size. If variable selection is a classical question, usual methods are not applicable in the high-dimensional case. So, in this manuscript, we develop the transposition of statistical tests to the high dimension. These tests operate on estimates of regression coefficients obtained by penalized linear regression, which is applicable in high-dimension. The main objective of these tests is the false discovery control. The first contribution of this manuscript provides a quantification of the uncertainty for regression coefficients estimated by ridge regression in high dimension. The Ridge regression penalizes the coefficients on their l2 norm. To do this, we devise a statistical test based on permutations. The second contribution is based on a two-step selection approach. A first step is dedicated to the screening of variables, based on parsimonious regression Lasso. The second step consists in cleaning the resulting set by testing the relevance of pre-selected variables. These tests are made on adaptive-ridge estimates, where the penalty is constructed on Lasso estimates learned during the screening step. A last contribution consists to the transposition of this approach to group-variables selection. |
author2 |
Compiègne |
author_facet |
Compiègne Bécu, Jean-Michel |
author |
Bécu, Jean-Michel |
author_sort |
Bécu, Jean-Michel |
title |
Contrôle des fausses découvertes lors de la sélection de variables en grande dimension |
title_short |
Contrôle des fausses découvertes lors de la sélection de variables en grande dimension |
title_full |
Contrôle des fausses découvertes lors de la sélection de variables en grande dimension |
title_fullStr |
Contrôle des fausses découvertes lors de la sélection de variables en grande dimension |
title_full_unstemmed |
Contrôle des fausses découvertes lors de la sélection de variables en grande dimension |
title_sort |
contrôle des fausses découvertes lors de la sélection de variables en grande dimension |
publishDate |
2016 |
url |
http://www.theses.fr/2016COMP2264/document |
work_keys_str_mv |
AT becujeanmichel controledesfaussesdecouverteslorsdelaselectiondevariablesengrandedimension AT becujeanmichel controloffalsediscoveriesinhighdimensionalvariableselection |
_version_ |
1718493582238679040 |