Exploiting Redundancy and Asynchrony in Forward Exact Recoveries for Iterative Solvers
This report presents a method to recover from faults detected by hardware in numerical iterative solvers. By exploiting redundancy inherent to an iterative solver instead of adding redundancy, we can interpolate lost data and thus devise an exact recovery scheme, which does not compromise mathematic...
Main Author: | |
---|---|
Format: | Others |
Language: | English |
Published: |
KTH, Skolan för informations- och kommunikationsteknik (ICT)
2014
|
Subjects: | |
Online Access: | http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-177387 |
id |
ndltd-UPSALLA1-oai-DiVA.org-kth-177387 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-UPSALLA1-oai-DiVA.org-kth-1773872018-01-11T05:12:38ZExploiting Redundancy and Asynchrony in Forward Exact Recoveries for Iterative SolversengJaulmes, LucKTH, Skolan för informations- och kommunikationsteknik (ICT)2014Computer and Information SciencesData- och informationsvetenskapThis report presents a method to recover from faults detected by hardware in numerical iterative solvers. By exploiting redundancy inherent to an iterative solver instead of adding redundancy, we can interpolate lost data and thus devise an exact recovery scheme, which does not compromise mathematical convergence properties of the solver as methods based on restart would do. We rely on a task-based programming model to overlap the furthering of normal computation and recovery. Results show a low overhead with no fault injection, that could be reduced even more with better lower-level support for application level resilience, and exceptional performance when faults are injected, even under with extremely high fault injection rates. This is a huge improvement on checkpoint-based recovery methods, and progress towards the goal of resilient and asynchronous HPC methods for exascale computing. Den här rapporten presenterar en metod för återhämtning från fel detekterad av maskinvara, i numeriska iterativa lösare. Genom att utnyttja den redundans som finns i dessa lösare i stället för att lägga till redundans, kan vi interpolera förlorad data och därmed utforma ett exakt återvinningssystem utan checkpoints-kostnader. Exakta återvinningssystem äventyrar inte lösarnas matematiska konvergensegenskaper, vilket metoder baserade på återstart skulle göra. Vi användar en task-baserad programmeringsmodell för att överlappa framsteg av normala beräkninger och återhämtning. Resultaten uppvisar en låg kostnad utan förekomst av fel, vilka kan minskas ännu mer med bättre stöd från lägre nivåer för applikationsnivå-feltolerans, och exceptionell prestanda när fel injiceras, även under extremt höga felinjiceringsfrekvenser. Detta är en enorm förbättring jämförd med checkpoint-baserade återhämtningsmetoder, och ett framsteg mot målet för motståndskraftiga och asynkrona HPC metoder för exascale. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-177387TRITA-ICT-EX ; 2014:156application/pdfinfo:eu-repo/semantics/openAccess |
collection |
NDLTD |
language |
English |
format |
Others
|
sources |
NDLTD |
topic |
Computer and Information Sciences Data- och informationsvetenskap |
spellingShingle |
Computer and Information Sciences Data- och informationsvetenskap Jaulmes, Luc Exploiting Redundancy and Asynchrony in Forward Exact Recoveries for Iterative Solvers |
description |
This report presents a method to recover from faults detected by hardware in numerical iterative solvers. By exploiting redundancy inherent to an iterative solver instead of adding redundancy, we can interpolate lost data and thus devise an exact recovery scheme, which does not compromise mathematical convergence properties of the solver as methods based on restart would do. We rely on a task-based programming model to overlap the furthering of normal computation and recovery. Results show a low overhead with no fault injection, that could be reduced even more with better lower-level support for application level resilience, and exceptional performance when faults are injected, even under with extremely high fault injection rates. This is a huge improvement on checkpoint-based recovery methods, and progress towards the goal of resilient and asynchronous HPC methods for exascale computing. === Den här rapporten presenterar en metod för återhämtning från fel detekterad av maskinvara, i numeriska iterativa lösare. Genom att utnyttja den redundans som finns i dessa lösare i stället för att lägga till redundans, kan vi interpolera förlorad data och därmed utforma ett exakt återvinningssystem utan checkpoints-kostnader. Exakta återvinningssystem äventyrar inte lösarnas matematiska konvergensegenskaper, vilket metoder baserade på återstart skulle göra. Vi användar en task-baserad programmeringsmodell för att överlappa framsteg av normala beräkninger och återhämtning. Resultaten uppvisar en låg kostnad utan förekomst av fel, vilka kan minskas ännu mer med bättre stöd från lägre nivåer för applikationsnivå-feltolerans, och exceptionell prestanda när fel injiceras, även under extremt höga felinjiceringsfrekvenser. Detta är en enorm förbättring jämförd med checkpoint-baserade återhämtningsmetoder, och ett framsteg mot målet för motståndskraftiga och asynkrona HPC metoder för exascale. |
author |
Jaulmes, Luc |
author_facet |
Jaulmes, Luc |
author_sort |
Jaulmes, Luc |
title |
Exploiting Redundancy and Asynchrony in Forward Exact Recoveries for Iterative Solvers |
title_short |
Exploiting Redundancy and Asynchrony in Forward Exact Recoveries for Iterative Solvers |
title_full |
Exploiting Redundancy and Asynchrony in Forward Exact Recoveries for Iterative Solvers |
title_fullStr |
Exploiting Redundancy and Asynchrony in Forward Exact Recoveries for Iterative Solvers |
title_full_unstemmed |
Exploiting Redundancy and Asynchrony in Forward Exact Recoveries for Iterative Solvers |
title_sort |
exploiting redundancy and asynchrony in forward exact recoveries for iterative solvers |
publisher |
KTH, Skolan för informations- och kommunikationsteknik (ICT) |
publishDate |
2014 |
url |
http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-177387 |
work_keys_str_mv |
AT jaulmesluc exploitingredundancyandasynchronyinforwardexactrecoveriesforiterativesolvers |
_version_ |
1718604814453047296 |