Identifying New Fault Types Using Transformer Embeddings

Continuous integration/delivery and deployment consist of many automated tests, some of which may fail leading to faulty software. Similar faults may occur in different stages of the software production lifecycle and it is necessary to identify similar faults and cluster them into fault types in ord...

Full description

Bibliographic Details
Main Author: Karlsson, Mikael
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2021
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-303009
id ndltd-UPSALLA1-oai-DiVA.org-kth-303009
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-3030092021-10-07T05:24:20ZIdentifying New Fault Types Using Transformer EmbeddingsengKarlsson, MikaelKTH, Skolan för elektroteknik och datavetenskap (EECS)2021Transformer ModelsClusteringEmbeddingsDeep LearningFault IdentificationTransformatorbaserade modellerKlusteringDjupinlärningFelidentifieringComputer SciencesDatavetenskap (datalogi)Continuous integration/delivery and deployment consist of many automated tests, some of which may fail leading to faulty software. Similar faults may occur in different stages of the software production lifecycle and it is necessary to identify similar faults and cluster them into fault types in order to minimize troubleshooting time. Pretrained transformer based language models have been proven to achieve state of the art results in many natural language processing tasks like measuring semantic textual similarity. This thesis aims to investigate whether it is possible to cluster and identify new fault types by using a transformer based model to create context aware vector representations of fault records, which consists of numerical data and logs with domain specific technical terms. The clusters created were compared against the clusters created by an existing system, where log files are grouped by manual specified filters. Relying on already existing fault types with associated log data, this thesis shows that it is possible to finetune a transformer based model for a classification task in order to improve the quality of text embeddings. The embeddings are clustered by using density based and hierarchical clustering algorithms with cosine distance. The results show that it is possible to cluster log data and get comparable results to the existing manual system, where the cluster similarity was assessed with V-measure and Adjusted Rand Index.  Kontinuerlig integration består automatiserade tester där det finns risk för att några misslyckas vilket kan leda till felaktig programvara. Liknande fel kan uppstå under olika faser av en programvarans livscykel och det är viktigt att identifiera och gruppera olika feltyper för att optimera felsökningsprocessen. Det har bevisats att språkmodeller baserade på transformatorarkitekturen kan uppnå höga resultat i många uppgifter inom språkteknologi, inklusive att mäta semantisk likhet mellan två texter. Detta arbete undersöker om det är möjligt att gruppera och identifiera nya feltyper genom att använda en transformatorbaserad språkmodell för att skapa numeriska vektorer av loggtext, som består av domänspecifika tekniska termer och numerisk data. Klustren jämförs mot redan existerande grupperingar som skapats av ett befintligt system där feltyper identifieras med manuellt skrivna filter. Det här arbetet visar att det går att förbättra vektorrepresenationerna skapade av en språkmodell baserad på transformatorarkitekturen genom att tilläggsträna modellen för en klassificeringsuppgift. Vektorerna grupperas med hjälp av densitetsbaserade och hierarkiska klusteralgoritmer. Resultaten visar att det är möjligt att skapa vektorer av logg-texter med hjälp av en transformatorbaserad språkmodell och få jämförbara resultat som ett befintligt manuellt system, när klustren evaluerades med V-måttet och Adjusted Rand Index. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-303009TRITA-EECS-EX ; 2021:508application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language English
format Others
sources NDLTD
topic Transformer Models
Clustering
Embeddings
Deep Learning
Fault Identification
Transformatorbaserade modeller
Klustering
Djupinlärning
Felidentifiering
Computer Sciences
Datavetenskap (datalogi)
spellingShingle Transformer Models
Clustering
Embeddings
Deep Learning
Fault Identification
Transformatorbaserade modeller
Klustering
Djupinlärning
Felidentifiering
Computer Sciences
Datavetenskap (datalogi)
Karlsson, Mikael
Identifying New Fault Types Using Transformer Embeddings
description Continuous integration/delivery and deployment consist of many automated tests, some of which may fail leading to faulty software. Similar faults may occur in different stages of the software production lifecycle and it is necessary to identify similar faults and cluster them into fault types in order to minimize troubleshooting time. Pretrained transformer based language models have been proven to achieve state of the art results in many natural language processing tasks like measuring semantic textual similarity. This thesis aims to investigate whether it is possible to cluster and identify new fault types by using a transformer based model to create context aware vector representations of fault records, which consists of numerical data and logs with domain specific technical terms. The clusters created were compared against the clusters created by an existing system, where log files are grouped by manual specified filters. Relying on already existing fault types with associated log data, this thesis shows that it is possible to finetune a transformer based model for a classification task in order to improve the quality of text embeddings. The embeddings are clustered by using density based and hierarchical clustering algorithms with cosine distance. The results show that it is possible to cluster log data and get comparable results to the existing manual system, where the cluster similarity was assessed with V-measure and Adjusted Rand Index.  === Kontinuerlig integration består automatiserade tester där det finns risk för att några misslyckas vilket kan leda till felaktig programvara. Liknande fel kan uppstå under olika faser av en programvarans livscykel och det är viktigt att identifiera och gruppera olika feltyper för att optimera felsökningsprocessen. Det har bevisats att språkmodeller baserade på transformatorarkitekturen kan uppnå höga resultat i många uppgifter inom språkteknologi, inklusive att mäta semantisk likhet mellan två texter. Detta arbete undersöker om det är möjligt att gruppera och identifiera nya feltyper genom att använda en transformatorbaserad språkmodell för att skapa numeriska vektorer av loggtext, som består av domänspecifika tekniska termer och numerisk data. Klustren jämförs mot redan existerande grupperingar som skapats av ett befintligt system där feltyper identifieras med manuellt skrivna filter. Det här arbetet visar att det går att förbättra vektorrepresenationerna skapade av en språkmodell baserad på transformatorarkitekturen genom att tilläggsträna modellen för en klassificeringsuppgift. Vektorerna grupperas med hjälp av densitetsbaserade och hierarkiska klusteralgoritmer. Resultaten visar att det är möjligt att skapa vektorer av logg-texter med hjälp av en transformatorbaserad språkmodell och få jämförbara resultat som ett befintligt manuellt system, när klustren evaluerades med V-måttet och Adjusted Rand Index.
author Karlsson, Mikael
author_facet Karlsson, Mikael
author_sort Karlsson, Mikael
title Identifying New Fault Types Using Transformer Embeddings
title_short Identifying New Fault Types Using Transformer Embeddings
title_full Identifying New Fault Types Using Transformer Embeddings
title_fullStr Identifying New Fault Types Using Transformer Embeddings
title_full_unstemmed Identifying New Fault Types Using Transformer Embeddings
title_sort identifying new fault types using transformer embeddings
publisher KTH, Skolan för elektroteknik och datavetenskap (EECS)
publishDate 2021
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-303009
work_keys_str_mv AT karlssonmikael identifyingnewfaulttypesusingtransformerembeddings
_version_ 1719487778077540352