A data-driven solution for root cause analysis in cloud computing environments.

The failure analysis and resolution in cloud-computing environments are a a highly important issue, being their primary motivation the mitigation of the impact of such failures on applications hosted in these environments. Although there are advances in the case of immediate detection of failures, t...

Full description

Bibliographic Details
Main Author: Pereira, Rosangela de Fátima
Other Authors: Carvalho, Tereza Cristina Melo de Brito
Format: Others
Language:en
Published: Biblioteca Digitais de Teses e Dissertações da USP 2016
Subjects:
Online Access:http://www.teses.usp.br/teses/disponiveis/3/3141/tde-03032017-082237/
id ndltd-usp.br-oai-teses.usp.br-tde-03032017-082237
record_format oai_dc
collection NDLTD
language en
format Others
sources NDLTD
topic Análise de Causa Raiz
Bayesian networks
Cloud computing
Computação em nuvem
Redes Bayesianas
Root cause analysis
spellingShingle Análise de Causa Raiz
Bayesian networks
Cloud computing
Computação em nuvem
Redes Bayesianas
Root cause analysis
Pereira, Rosangela de Fátima
A data-driven solution for root cause analysis in cloud computing environments.
description The failure analysis and resolution in cloud-computing environments are a a highly important issue, being their primary motivation the mitigation of the impact of such failures on applications hosted in these environments. Although there are advances in the case of immediate detection of failures, there is a lack of research in root cause analysis of failures in cloud computing. In this process, failures are tracked to analyze their causal factor. This practice allows cloud operators to act on a more effective process in preventing failures, resulting in the number of recurring failures reduction. Although this practice is commonly performed through human intervention, based on the expertise of professionals, the complexity of cloud-computing environments, coupled with the large volume of data generated from log records generated in these environments and the wide interdependence between system components, has turned manual analysis impractical. Therefore, scalable solutions are needed to automate the root cause analysis process in cloud computing environments, allowing the analysis of large data sets with satisfactory performance. Based on these requirements, this thesis presents a data-driven solution for root cause analysis in cloud-computing environments. The proposed solution includes the required functionalities for the collection, processing and analysis of data, as well as a method based on Bayesian Networks for the automatic identification of root causes. The validation of the proposal is accomplished through a proof of concept using OpenStack, a framework for cloud-computing infrastructure, and Hadoop, a framework for distributed processing of large data volumes. The tests presented satisfactory performance, and the developed model correctly classified the root causes with low rate of false positives. === A análise e reparação de falhas em ambientes de computação em nuvem é uma questão amplamente pesquisada, tendo como principal motivação minimizar o impacto que tais falhas podem causar nas aplicações hospedadas nesses ambientes. Embora exista um avanço na área de detecção imediata de falhas, ainda há percalços para realizar a análise de sua causa raiz. Nesse processo, as falhas são rastreadas a fim de analisar o seu fator causal ou seus fatores causais. Essa prática permite que operadores da nuvem possam atuar de modo mais efetivo na prevenção de falhas, reduzindo-se o número de falhas recorrentes. Embora essa prática seja comumente realizada por meio de intervenção humana, com base no expertise dos profissionais, a complexidade dos ambientes de computação em nuvem, somada ao grande volume de dados oriundos de registros de log gerados nesses ambientes e à ampla inter-dependência entre os componentes do sistema tem tornado a análise manual inviável. Por esse motivo, torna-se necessário soluções que permitam automatizar o processo de análise de causa raiz de uma falha ou conjunto de falhas em ambientes de computação em nuvem, e que sejam escaláveis, viabilizando a análise de grande volume de dados com desempenho satisfatório. Com base em tais necessidades, essa dissertação apresenta uma solução guiada por dados para análise de causa raiz em ambientes de computação em nuvem. A solução proposta contempla as funcionalidades necessárias para a aquisição, processamento e análise de dados no diagnóstico de falhas, bem como um método baseado em Redes Bayesianas para a identificação automática de causas raiz de falhas. A validação da proposta é realizada por meio de uma prova de conceito utilizando o OpenStack, um arcabouço para infraestrutura de computação em nuvem, e o Hadoop, um arcabouço para processamento distribuído de grande volume de dados. Os testes apresentaram desempenhos satisfatórios da arquitetura proposta, e o modelo desenvolvido classificou corretamente com baixo número de falsos positivos.
author2 Carvalho, Tereza Cristina Melo de Brito
author_facet Carvalho, Tereza Cristina Melo de Brito
Pereira, Rosangela de Fátima
author Pereira, Rosangela de Fátima
author_sort Pereira, Rosangela de Fátima
title A data-driven solution for root cause analysis in cloud computing environments.
title_short A data-driven solution for root cause analysis in cloud computing environments.
title_full A data-driven solution for root cause analysis in cloud computing environments.
title_fullStr A data-driven solution for root cause analysis in cloud computing environments.
title_full_unstemmed A data-driven solution for root cause analysis in cloud computing environments.
title_sort data-driven solution for root cause analysis in cloud computing environments.
publisher Biblioteca Digitais de Teses e Dissertações da USP
publishDate 2016
url http://www.teses.usp.br/teses/disponiveis/3/3141/tde-03032017-082237/
work_keys_str_mv AT pereirarosangeladefatima adatadrivensolutionforrootcauseanalysisincloudcomputingenvironments
AT pereirarosangeladefatima umasolucaoguiadapordadosdeanalisedecausaraizemambientedecomputacaoemnuvem
AT pereirarosangeladefatima datadrivensolutionforrootcauseanalysisincloudcomputingenvironments
_version_ 1719050031462350848
spelling ndltd-usp.br-oai-teses.usp.br-tde-03032017-0822372019-05-09T17:42:55Z A data-driven solution for root cause analysis in cloud computing environments. Uma solução guiada por dados de análise de causa raiz em ambiente de computação em nuvem. Pereira, Rosangela de Fátima Análise de Causa Raiz Bayesian networks Cloud computing Computação em nuvem Redes Bayesianas Root cause analysis The failure analysis and resolution in cloud-computing environments are a a highly important issue, being their primary motivation the mitigation of the impact of such failures on applications hosted in these environments. Although there are advances in the case of immediate detection of failures, there is a lack of research in root cause analysis of failures in cloud computing. In this process, failures are tracked to analyze their causal factor. This practice allows cloud operators to act on a more effective process in preventing failures, resulting in the number of recurring failures reduction. Although this practice is commonly performed through human intervention, based on the expertise of professionals, the complexity of cloud-computing environments, coupled with the large volume of data generated from log records generated in these environments and the wide interdependence between system components, has turned manual analysis impractical. Therefore, scalable solutions are needed to automate the root cause analysis process in cloud computing environments, allowing the analysis of large data sets with satisfactory performance. Based on these requirements, this thesis presents a data-driven solution for root cause analysis in cloud-computing environments. The proposed solution includes the required functionalities for the collection, processing and analysis of data, as well as a method based on Bayesian Networks for the automatic identification of root causes. The validation of the proposal is accomplished through a proof of concept using OpenStack, a framework for cloud-computing infrastructure, and Hadoop, a framework for distributed processing of large data volumes. The tests presented satisfactory performance, and the developed model correctly classified the root causes with low rate of false positives. A análise e reparação de falhas em ambientes de computação em nuvem é uma questão amplamente pesquisada, tendo como principal motivação minimizar o impacto que tais falhas podem causar nas aplicações hospedadas nesses ambientes. Embora exista um avanço na área de detecção imediata de falhas, ainda há percalços para realizar a análise de sua causa raiz. Nesse processo, as falhas são rastreadas a fim de analisar o seu fator causal ou seus fatores causais. Essa prática permite que operadores da nuvem possam atuar de modo mais efetivo na prevenção de falhas, reduzindo-se o número de falhas recorrentes. Embora essa prática seja comumente realizada por meio de intervenção humana, com base no expertise dos profissionais, a complexidade dos ambientes de computação em nuvem, somada ao grande volume de dados oriundos de registros de log gerados nesses ambientes e à ampla inter-dependência entre os componentes do sistema tem tornado a análise manual inviável. Por esse motivo, torna-se necessário soluções que permitam automatizar o processo de análise de causa raiz de uma falha ou conjunto de falhas em ambientes de computação em nuvem, e que sejam escaláveis, viabilizando a análise de grande volume de dados com desempenho satisfatório. Com base em tais necessidades, essa dissertação apresenta uma solução guiada por dados para análise de causa raiz em ambientes de computação em nuvem. A solução proposta contempla as funcionalidades necessárias para a aquisição, processamento e análise de dados no diagnóstico de falhas, bem como um método baseado em Redes Bayesianas para a identificação automática de causas raiz de falhas. A validação da proposta é realizada por meio de uma prova de conceito utilizando o OpenStack, um arcabouço para infraestrutura de computação em nuvem, e o Hadoop, um arcabouço para processamento distribuído de grande volume de dados. Os testes apresentaram desempenhos satisfatórios da arquitetura proposta, e o modelo desenvolvido classificou corretamente com baixo número de falsos positivos. Biblioteca Digitais de Teses e Dissertações da USP Carvalho, Tereza Cristina Melo de Brito 2016-12-05 Dissertação de Mestrado application/pdf http://www.teses.usp.br/teses/disponiveis/3/3141/tde-03032017-082237/ en Liberar o conteúdo para acesso público.