Exploiting Redundancy and Asynchrony in Forward Exact Recoveries for Iterative Solvers

This report presents a method to recover from faults detected by hardware in numerical iterative solvers. By exploiting redundancy inherent to an iterative solver instead of adding redundancy, we can interpolate lost data and thus devise an exact recovery scheme, which does not compromise mathematic...

Full description

Bibliographic Details
Main Author: Jaulmes, Luc
Format: Others
Language:English
Published: KTH, Skolan för informations- och kommunikationsteknik (ICT) 2014
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-177387
id ndltd-UPSALLA1-oai-DiVA.org-kth-177387
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-1773872018-01-11T05:12:38ZExploiting Redundancy and Asynchrony in Forward Exact Recoveries for Iterative SolversengJaulmes, LucKTH, Skolan för informations- och kommunikationsteknik (ICT)2014Computer and Information SciencesData- och informationsvetenskapThis report presents a method to recover from faults detected by hardware in numerical iterative solvers. By exploiting redundancy inherent to an iterative solver instead of adding redundancy, we can interpolate lost data and thus devise an exact recovery scheme, which does not compromise mathematical convergence properties of the solver as methods based on restart would do. We rely on a task-based programming model to overlap the furthering of normal computation and recovery. Results show a low overhead with no fault injection, that could be reduced even more with better lower-level support for application level resilience, and exceptional performance when faults are injected, even under with extremely high fault injection rates. This is a huge improvement on checkpoint-based recovery methods, and progress towards the goal of resilient and asynchronous HPC methods for exascale computing. Den här rapporten presenterar en metod för återhämtning från fel detekterad av maskinvara, i numeriska iterativa lösare. Genom att utnyttja den redundans som finns i dessa lösare i stället för att lägga till redundans, kan vi interpolera förlorad data och därmed utforma ett exakt återvinningssystem utan checkpoints-kostnader. Exakta återvinningssystem äventyrar inte lösarnas matematiska konvergensegenskaper, vilket metoder baserade på återstart skulle göra. Vi användar en task-baserad programmeringsmodell för att överlappa framsteg av normala beräkninger och återhämtning. Resultaten uppvisar en låg kostnad utan förekomst av fel, vilka kan minskas ännu mer med bättre stöd från lägre nivåer för applikationsnivå-feltolerans, och exceptionell prestanda när fel injiceras, även under extremt höga felinjiceringsfrekvenser. Detta är en enorm förbättring jämförd med checkpoint-baserade återhämtningsmetoder, och ett framsteg mot målet för motståndskraftiga och asynkrona HPC metoder för exascale. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-177387TRITA-ICT-EX ; 2014:156application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language English
format Others
sources NDLTD
topic Computer and Information Sciences
Data- och informationsvetenskap
spellingShingle Computer and Information Sciences
Data- och informationsvetenskap
Jaulmes, Luc
Exploiting Redundancy and Asynchrony in Forward Exact Recoveries for Iterative Solvers
description This report presents a method to recover from faults detected by hardware in numerical iterative solvers. By exploiting redundancy inherent to an iterative solver instead of adding redundancy, we can interpolate lost data and thus devise an exact recovery scheme, which does not compromise mathematical convergence properties of the solver as methods based on restart would do. We rely on a task-based programming model to overlap the furthering of normal computation and recovery. Results show a low overhead with no fault injection, that could be reduced even more with better lower-level support for application level resilience, and exceptional performance when faults are injected, even under with extremely high fault injection rates. This is a huge improvement on checkpoint-based recovery methods, and progress towards the goal of resilient and asynchronous HPC methods for exascale computing. === Den här rapporten presenterar en metod för återhämtning från fel detekterad av maskinvara, i numeriska iterativa lösare. Genom att utnyttja den redundans som finns i dessa lösare i stället för att lägga till redundans, kan vi interpolera förlorad data och därmed utforma ett exakt återvinningssystem utan checkpoints-kostnader. Exakta återvinningssystem äventyrar inte lösarnas matematiska konvergensegenskaper, vilket metoder baserade på återstart skulle göra. Vi användar en task-baserad programmeringsmodell för att överlappa framsteg av normala beräkninger och återhämtning. Resultaten uppvisar en låg kostnad utan förekomst av fel, vilka kan minskas ännu mer med bättre stöd från lägre nivåer för applikationsnivå-feltolerans, och exceptionell prestanda när fel injiceras, även under extremt höga felinjiceringsfrekvenser. Detta är en enorm förbättring jämförd med checkpoint-baserade återhämtningsmetoder, och ett framsteg mot målet för motståndskraftiga och asynkrona HPC metoder för exascale.
author Jaulmes, Luc
author_facet Jaulmes, Luc
author_sort Jaulmes, Luc
title Exploiting Redundancy and Asynchrony in Forward Exact Recoveries for Iterative Solvers
title_short Exploiting Redundancy and Asynchrony in Forward Exact Recoveries for Iterative Solvers
title_full Exploiting Redundancy and Asynchrony in Forward Exact Recoveries for Iterative Solvers
title_fullStr Exploiting Redundancy and Asynchrony in Forward Exact Recoveries for Iterative Solvers
title_full_unstemmed Exploiting Redundancy and Asynchrony in Forward Exact Recoveries for Iterative Solvers
title_sort exploiting redundancy and asynchrony in forward exact recoveries for iterative solvers
publisher KTH, Skolan för informations- och kommunikationsteknik (ICT)
publishDate 2014
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-177387
work_keys_str_mv AT jaulmesluc exploitingredundancyandasynchronyinforwardexactrecoveriesforiterativesolvers
_version_ 1718604814453047296