Contrôle des fausses découvertes lors de la sélection de variables en grande dimension

Dans le cadre de la régression, de nombreuses études s’intéressent au problème dit de la grande dimension, où le nombre de variables explicatives mesurées sur chaque échantillon est beaucoup plus grand que le nombre d’échantillons. Si la sélection de variables est une question classique, les méthode...

Full description

Bibliographic Details
Main Author:	Bécu, Jean-Michel
Other Authors:	Compiègne
Language:	fr en
Published:	2016
Subjects:	Sélection de variables Grande dimension Taux de fausses découvertes Régression linéaire Régression Lasso Méthodes à deux étapes Variable selection High-dimension False discovery rate Linear model Ridge regression (Statistics) Lasso Two-step approaches
Online Access:	http://www.theses.fr/2016COMP2264/document

id	ndltd-theses.fr-2016COMP2264
record_format	oai_dc
spelling	ndltd-theses.fr-2016COMP22642017-07-08T04:39:48Z Contrôle des fausses découvertes lors de la sélection de variables en grande dimension Control of false discoveries in high-dimensional variable selection Sélection de variables Grande dimension Taux de fausses découvertes Régression linéaire Régression Lasso Méthodes à deux étapes Variable selection High-dimension False discovery rate Linear model Ridge regression (Statistics) Lasso Two-step approaches Dans le cadre de la régression, de nombreuses études s’intéressent au problème dit de la grande dimension, où le nombre de variables explicatives mesurées sur chaque échantillon est beaucoup plus grand que le nombre d’échantillons. Si la sélection de variables est une question classique, les méthodes usuelles ne s’appliquent pas dans le cadre de la grande dimension. Ainsi, dans ce manuscrit, nous présentons la transposition de tests statistiques classiques à la grande dimension. Ces tests sont construits sur des estimateurs des coefficients de régression produits par des approches de régressions linéaires pénalisées, applicables dans le cadre de la grande dimension. L’objectif principal des tests que nous proposons consiste à contrôler le taux de fausses découvertes. La première contribution de ce manuscrit répond à un problème de quantification de l’incertitude sur les coefficients de régression réalisée sur la base de la régression Ridge, qui pénalise les coefficients de régression par leur norme l2, dans le cadre de la grande dimension. Nous y proposons un test statistique basé sur le rééchantillonage. La seconde contribution porte sur une approche de sélection en deux étapes : une première étape de criblage des variables, basée sur la régression parcimonieuse Lasso précède l’étape de sélection proprement dite, où la pertinence des variables pré-sélectionnées est testée. Les tests sont construits sur l’estimateur de la régression Ridge adaptive, dont la pénalité est construite à partir des coefficients de régression du Lasso. Une dernière contribution consiste à transposer cette approche à la sélection de groupes de variables. In the regression framework, many studies are focused on the high-dimensional problem where the number of measured explanatory variables is very large compared to the sample size. If variable selection is a classical question, usual methods are not applicable in the high-dimensional case. So, in this manuscript, we develop the transposition of statistical tests to the high dimension. These tests operate on estimates of regression coefficients obtained by penalized linear regression, which is applicable in high-dimension. The main objective of these tests is the false discovery control. The first contribution of this manuscript provides a quantification of the uncertainty for regression coefficients estimated by ridge regression in high dimension. The Ridge regression penalizes the coefficients on their l2 norm. To do this, we devise a statistical test based on permutations. The second contribution is based on a two-step selection approach. A first step is dedicated to the screening of variables, based on parsimonious regression Lasso. The second step consists in cleaning the resulting set by testing the relevance of pre-selected variables. These tests are made on adaptive-ridge estimates, where the penalty is constructed on Lasso estimates learned during the screening step. A last contribution consists to the transposition of this approach to group-variables selection. Electronic Thesis or Dissertation Text fr en http://www.theses.fr/2016COMP2264/document Bécu, Jean-Michel 2016-03-10 Compiègne Ambroise, Christophe Grandvalet, Yves
collection	NDLTD
language	fr en
sources	NDLTD
topic	Sélection de variables Grande dimension Taux de fausses découvertes Régression linéaire Régression Lasso Méthodes à deux étapes Variable selection High-dimension False discovery rate Linear model Ridge regression (Statistics) Lasso Two-step approaches
spellingShingle	Sélection de variables Grande dimension Taux de fausses découvertes Régression linéaire Régression Lasso Méthodes à deux étapes Variable selection High-dimension False discovery rate Linear model Ridge regression (Statistics) Lasso Two-step approaches Bécu, Jean-Michel Contrôle des fausses découvertes lors de la sélection de variables en grande dimension
description	Dans le cadre de la régression, de nombreuses études s’intéressent au problème dit de la grande dimension, où le nombre de variables explicatives mesurées sur chaque échantillon est beaucoup plus grand que le nombre d’échantillons. Si la sélection de variables est une question classique, les méthodes usuelles ne s’appliquent pas dans le cadre de la grande dimension. Ainsi, dans ce manuscrit, nous présentons la transposition de tests statistiques classiques à la grande dimension. Ces tests sont construits sur des estimateurs des coefficients de régression produits par des approches de régressions linéaires pénalisées, applicables dans le cadre de la grande dimension. L’objectif principal des tests que nous proposons consiste à contrôler le taux de fausses découvertes. La première contribution de ce manuscrit répond à un problème de quantification de l’incertitude sur les coefficients de régression réalisée sur la base de la régression Ridge, qui pénalise les coefficients de régression par leur norme l2, dans le cadre de la grande dimension. Nous y proposons un test statistique basé sur le rééchantillonage. La seconde contribution porte sur une approche de sélection en deux étapes : une première étape de criblage des variables, basée sur la régression parcimonieuse Lasso précède l’étape de sélection proprement dite, où la pertinence des variables pré-sélectionnées est testée. Les tests sont construits sur l’estimateur de la régression Ridge adaptive, dont la pénalité est construite à partir des coefficients de régression du Lasso. Une dernière contribution consiste à transposer cette approche à la sélection de groupes de variables. === In the regression framework, many studies are focused on the high-dimensional problem where the number of measured explanatory variables is very large compared to the sample size. If variable selection is a classical question, usual methods are not applicable in the high-dimensional case. So, in this manuscript, we develop the transposition of statistical tests to the high dimension. These tests operate on estimates of regression coefficients obtained by penalized linear regression, which is applicable in high-dimension. The main objective of these tests is the false discovery control. The first contribution of this manuscript provides a quantification of the uncertainty for regression coefficients estimated by ridge regression in high dimension. The Ridge regression penalizes the coefficients on their l2 norm. To do this, we devise a statistical test based on permutations. The second contribution is based on a two-step selection approach. A first step is dedicated to the screening of variables, based on parsimonious regression Lasso. The second step consists in cleaning the resulting set by testing the relevance of pre-selected variables. These tests are made on adaptive-ridge estimates, where the penalty is constructed on Lasso estimates learned during the screening step. A last contribution consists to the transposition of this approach to group-variables selection.
author2	Compiègne
author_facet	Compiègne Bécu, Jean-Michel
author	Bécu, Jean-Michel
author_sort	Bécu, Jean-Michel
title	Contrôle des fausses découvertes lors de la sélection de variables en grande dimension
title_short	Contrôle des fausses découvertes lors de la sélection de variables en grande dimension
title_full	Contrôle des fausses découvertes lors de la sélection de variables en grande dimension
title_fullStr	Contrôle des fausses découvertes lors de la sélection de variables en grande dimension
title_full_unstemmed	Contrôle des fausses découvertes lors de la sélection de variables en grande dimension
title_sort	contrôle des fausses découvertes lors de la sélection de variables en grande dimension
publishDate	2016
url	http://www.theses.fr/2016COMP2264/document
work_keys_str_mv	AT becujeanmichel controledesfaussesdecouverteslorsdelaselectiondevariablesengrandedimension AT becujeanmichel controloffalsediscoveriesinhighdimensionalvariableselection
_version_	1718493582238679040

Contrôle des fausses découvertes lors de la sélection de variables en grande dimension

Similar Items