Graphical lasso for covariance structure learning in the high dimensional setting
This thesis considers the estimation of undirected Gaussian graphical models especially in the high dimensional setting where the true observations are assumed to be non-Gaussian distributed. The first aim is to present and compare the performances of existing Gaussian graphical model estimation meth...
Main Author: | |
---|---|
Format: | Others |
Language: | English |
Published: |
KTH, Matematisk statistik
2015
|
Online Access: | http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-176485 |
id |
ndltd-UPSALLA1-oai-DiVA.org-kth-176485 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-UPSALLA1-oai-DiVA.org-kth-1764852015-11-13T05:06:20ZGraphical lasso for covariance structure learning in the high dimensional settingengGraphical lasso för kovariansstrukturs inlärning i högdimensionell miljöFransson, ViktorKTH, Matematisk statistik2015This thesis considers the estimation of undirected Gaussian graphical models especially in the high dimensional setting where the true observations are assumed to be non-Gaussian distributed. The first aim is to present and compare the performances of existing Gaussian graphical model estimation methods. Furthermore since the models rely heavily on the normality assumption, various methods for relaxing the normal assumption are presented. In addition to the existing methods, a modified version of the joint graphical lasso method is introduced which monetizes on the strengths of the community Bayes method. The community Bayes method is used to partition the features (or variables) of datasets consisting of several classes into several communities which are estimated to be mutually independent within each class which allows the calculations when performing the joint graphical lasso method, to be split into several smaller parts. The method is also inspired by the cluster graphical lasso and is applicable to both Gaussian and non-Gaussian data, assuming that the normal assumption is relaxed. Results show that the introduced cluster joint graphical lasso method outperforms com-peting methods, producing graphical models which are easier to comprehend due to the added information obtained from the clustering step of the method. The cluster joint graphical lasso is applied to a real dataset consisting of p = 12582 features which resulted in computation gain of a factor 35 when comparing to the competing method which is very significant when analysing large datasets. The method also allows for parallelization where computations can be spread across several computers greatly increasing the computational efficiency. Denna rapport behandlar uppskattningen av oriktade Gaussiska grafiska modeller speciellt i högdimensionell miljö där dom verkliga observationerna antas vara icke-Gaussiska fördelade. Det första målet är att presentera och jämföra prestandan av befintliga metoder för uppskattning av Gaussiska grafiska modeller. Eftersom modellerna är starkt beroende av normalantagandet, så kommer flertalet metoder för att relaxa normalantagandet att presenteras. Utöver dom befintliga metoderna, kommer en modifierad version av joint graphical lasso att introduceras som bygger på styrkan av community Bayes metod. Community Bayes metod används för att partitionera variabler från datamängder som består av flera klasser i flera samhällen (eller communities) som antas vara oberoende av varandra i varje klass. Detta innebär att beräkningarna av joint graphical lasso kan delas upp i flera mindre problem. Metoden är också inspirerad av cluster graphical lasso och applicerbar för både Gaussisk och icke-gaussisk data, förutsatt att det normala antagandet är relaxed. Resultaten visar att den introducerade cluster joint graphical lasso metoden utklassar konkurrerande metoder, som producerar grafiska modeller som är lättare att förstå på grund av den extra information som erhålls från klustringssteget av metoden. Joint graphical lasso appliceras även på en verklig datauppsättning bestående av p = 12582 variabler som resulterade i minskad beräkningstid av en faktor 35 vid jämförelse av konkurrerande metoder. Detta är mycket betydande när man analyserar stora datamängder. Metoden möjliggör också parallellisering där beräkningar kan spridas över flera datorer vilket ytterligare kraftigt ökar beräkningseffektiviteten. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-176485TRITA-MAT-E ; 2015:76application/pdfinfo:eu-repo/semantics/openAccess |
collection |
NDLTD |
language |
English |
format |
Others
|
sources |
NDLTD |
description |
This thesis considers the estimation of undirected Gaussian graphical models especially in the high dimensional setting where the true observations are assumed to be non-Gaussian distributed. The first aim is to present and compare the performances of existing Gaussian graphical model estimation methods. Furthermore since the models rely heavily on the normality assumption, various methods for relaxing the normal assumption are presented. In addition to the existing methods, a modified version of the joint graphical lasso method is introduced which monetizes on the strengths of the community Bayes method. The community Bayes method is used to partition the features (or variables) of datasets consisting of several classes into several communities which are estimated to be mutually independent within each class which allows the calculations when performing the joint graphical lasso method, to be split into several smaller parts. The method is also inspired by the cluster graphical lasso and is applicable to both Gaussian and non-Gaussian data, assuming that the normal assumption is relaxed. Results show that the introduced cluster joint graphical lasso method outperforms com-peting methods, producing graphical models which are easier to comprehend due to the added information obtained from the clustering step of the method. The cluster joint graphical lasso is applied to a real dataset consisting of p = 12582 features which resulted in computation gain of a factor 35 when comparing to the competing method which is very significant when analysing large datasets. The method also allows for parallelization where computations can be spread across several computers greatly increasing the computational efficiency. === Denna rapport behandlar uppskattningen av oriktade Gaussiska grafiska modeller speciellt i högdimensionell miljö där dom verkliga observationerna antas vara icke-Gaussiska fördelade. Det första målet är att presentera och jämföra prestandan av befintliga metoder för uppskattning av Gaussiska grafiska modeller. Eftersom modellerna är starkt beroende av normalantagandet, så kommer flertalet metoder för att relaxa normalantagandet att presenteras. Utöver dom befintliga metoderna, kommer en modifierad version av joint graphical lasso att introduceras som bygger på styrkan av community Bayes metod. Community Bayes metod används för att partitionera variabler från datamängder som består av flera klasser i flera samhällen (eller communities) som antas vara oberoende av varandra i varje klass. Detta innebär att beräkningarna av joint graphical lasso kan delas upp i flera mindre problem. Metoden är också inspirerad av cluster graphical lasso och applicerbar för både Gaussisk och icke-gaussisk data, förutsatt att det normala antagandet är relaxed. Resultaten visar att den introducerade cluster joint graphical lasso metoden utklassar konkurrerande metoder, som producerar grafiska modeller som är lättare att förstå på grund av den extra information som erhålls från klustringssteget av metoden. Joint graphical lasso appliceras även på en verklig datauppsättning bestående av p = 12582 variabler som resulterade i minskad beräkningstid av en faktor 35 vid jämförelse av konkurrerande metoder. Detta är mycket betydande när man analyserar stora datamängder. Metoden möjliggör också parallellisering där beräkningar kan spridas över flera datorer vilket ytterligare kraftigt ökar beräkningseffektiviteten. |
author |
Fransson, Viktor |
spellingShingle |
Fransson, Viktor Graphical lasso for covariance structure learning in the high dimensional setting |
author_facet |
Fransson, Viktor |
author_sort |
Fransson, Viktor |
title |
Graphical lasso for covariance structure learning in the high dimensional setting |
title_short |
Graphical lasso for covariance structure learning in the high dimensional setting |
title_full |
Graphical lasso for covariance structure learning in the high dimensional setting |
title_fullStr |
Graphical lasso for covariance structure learning in the high dimensional setting |
title_full_unstemmed |
Graphical lasso for covariance structure learning in the high dimensional setting |
title_sort |
graphical lasso for covariance structure learning in the high dimensional setting |
publisher |
KTH, Matematisk statistik |
publishDate |
2015 |
url |
http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-176485 |
work_keys_str_mv |
AT franssonviktor graphicallassoforcovariancestructurelearninginthehighdimensionalsetting AT franssonviktor graphicallassoforkovariansstruktursinlarningihogdimensionellmiljo |
_version_ |
1718130876767797248 |