Des catastrophes naturelles aux ransomware, toutes les entreprises font face à des risques d’interruption inattendue de leurs systèmes en ligne. Pour préparer la vôtre à faire face à toute interruption de service de grande ampleur, il est essentiel de vous préparer - et en premier lieu, de déterminer vos objectifs de délai de récupération. Le calcul des objectifs de délai de Objectif de délai de récupération (RTO) et de point de reprise (RPO) font partie intégrante d’un plan de reprise après sinistre réussi et sont nécessaires pour maintenir la continuité des activités. Mais de quoi s’agit-il exactement ? Le RTO correspond à la durée maximale dont un ordinateur, un système, un réseau ou une application a besoin pour être restauré après une panne ou une perte de données, sans induire d’effet négatif sur les activités opérationnelles et les accords de niveau de service (SLA). De manière similaire, le RPO correspond à la quantité de perte de données que votre entreprise peut supporter sans que ses activités s’en ressentent de manière significative.
Si le RTO a un impact considérable sur la continuité des activités, le fait de tenir compte du RTO de différents systèmes et applications peut également affecter la rapidité d’une stratégie de sauvegarde et de restauration. Dans la mesure où il correspond à la durée qui s’écoule entre une panne (ou une perte de données) et le retour en ligne des systèmes, il doit être pris en compte dans vos plans de sauvegarde des données. La suite de cet article vous en apprendra davantage sur les principaux aspects des objectifs de délai de restauration.
L’objectif ? Restaurer les systèmes et les données de l’entreprise dans l’état qui a précédé l’événement disruptif. Le délai ? Variable. Vos RTO différeront selon les applications et les données, selon le niveau de criticité du système ou des données. Mais quels qu’ils soient, ils sont le socle de votre plan de reprise. Il importe de mettre en balance les compromis à consentir pour raccourcir un RTO et l’importance de la rapidité de restauration. Le calcul des RTO implique de déterminer le coût supporté par l’entreprise pour chaque heure (ou minute) d’interruption, mais aussi les dépenses et les étapes nécessaires à la reprise du système ou à la restauration des données. Le plus important est d’être certain de bien cerner ces paramètres ! Cela vous permettra d’établir votre stratégie. Vous aurez également besoin de connaître vos RTO globaux - en fonction de votre volume de données et de vos capacités disponibles. Lorsqu’un système critique est en panne, vous voulez savoir sous quel délai vous pourrez le récupérer.
On pourrait penser que le RTO parfait est quasi nul. Or, ce n’est pas nécessairement vrai. Il arrive d’engager trop de temps et d’argent dans la mise en place de processus pour garantir un RTO dont on n’a pas besoin. Ainsi, pour une entreprise qui peut facilement revenir à des processus de facturation et d’archivage papier pendant un certain temps, il n’est pas utile de consacrer autant d’argent que le ferait une entreprise exclusivement tournée vers Internet pour garantir un RTO court. En revanche, si vous dépendez fortement de systèmes et de données en lignes, ou si vous devez respecter des SLA contraignants, il peut valoir la peine de consacrer des efforts et de l’argent à vous assurer un RTO quasi nul. S’il est trop long, et même si vous le « respectez » suite à une interruption de service, vous risquez de vous apercevoir que la panne a provoqué des dommages irréparables en termes de temps, d’argent et de réputation.
Trouver un équilibre entre le coût de la restauration des données et des systèmes, et le coût d’une interruption de ces systèmes, implique une évaluation soigneuse et complète des impacts sur les activités et un plan de reprise après sinistre. Quelle que soit la longueur de vos RTO, s’assurer qu’ils sont réalisables et adaptés à l’objectif est essentiel pour toute reprise après une interruption de service. Si vous mettez en place un RTO impossible à atteindre, votre entreprise peut subir des dommages irrémédiables. Vos RTO doivent tenir compte de vos RPO — et vos plans de sauvegarde et de restauration doivent être basés sur ceux-ci. Si l’on se penche sur la temporalité d’un incident de perte de données, le RPO est décompté à rebours à partir de cet incident, et le RTO commence à courir après l’incident. Rappelez-vous aussi qu’il s’agit de valeurs admissibles maximales. Lorsqu’une charge de travail affiche un RPO de 6 heures, une sauvegarde restaurable doit être effectuée au moins toutes les 6 heures. Notez également que les sauvegardes impliquent souvent de transmettre des volumes considérables de données depuis un stockage primaire vers un stockage dédié, de sorte que la durée de ce processus en lui-même doit être prise en compte. Si votre charge de travail nécessite une sauvegarde par heure, mais que le processus de sauvegarde prend 80 minutes, il est impossible de respecter votre RPO.
Tout ceci peut paraître très abstrait. Voici un exemple !
Le service RH de Zaffre Fashion Group a établi qu’en cas de sinistre, la quantité maximale de données que l’entreprise peut se permettre de perdre sur leur système de réservation des congés annuel est de 6 heures - c’est le RPO. De ce fait, l’entreprise décide de sauvegarder ses données d’application chaque jour à minuit, 6h00, midi et 18h00. Elle détermine qu’en cas de sinistre, elle doit restaurer ses services dans un délai de 2 heures - c’est le RTO. En cas d’événement de perte de données à 9h00, le délai de RTO commence à courir à cette heure. L’entreprise peut restaurer la sauvegarde de 6h00 et reprendre le travail à partir de 11h00.
Objectif de point de reprise : 6 heures
Objectif de délai de restauration : 2 heures
Fin de la dernière sauvegarde programmée : 06h00
Prochaine sauvegarde programmée : 12h00
Incident de perte de données : 9h00
Restauration des services : 11h00 au plus tard
Dans vos recherches sur le RPO et le RTO, vous pourriez également tomber sur le terme RTA, ou délai réel de restauration. Il s’agit du délai réel entre la détection d’un incident de perte de données et la reprise effective d’un fonctionnement complet. Dans la plupart des cas, le RTA sera inférieur au RTO ; mais il ne doit jamais dépasser ce dernier. Dans l’exemple ci-dessus, le service informatique de Zaffre Fashion Group est efficace : il a été en mesure de restaurer les services à 9h12. Le délai réel de récupération est en l’occurrence de 12 minutes. C'est vraiment impressionnant !
Maintenant, imaginez le même scénario, avec un délai de récupération réel de 3 heures au lieu de 12 minutes. Le RPO est dépassé d’une heure. Quelles peuvent en être les conséquences ? Afin d’éviter ce type de catastrophe, il est essentiel de donner la priorité à vos systèmes et à vos données, et de tenir compte du coût horaire d’une interruption (en termes non seulement financiers, mais aussi de réputation, de service client, de sécurité des salariés, de SLA et de conséquences juridiques), ainsi que du rapport coût/bénéfice des solutions de reprise - et de disposer d’un plan clair, rassemblant toutes les étapes nécessaires pour atteindre les RTO que vous vous êtes fixés.
Après toutes ces informations, penchons-nous sur quelques exemples de RTO et de solutions.
Il existe un nombre infini de causes potentielles d’interruptions de service pour votre entreprise — panne de service, catastrophe naturelle, suppression accidentelle de données critiques par un salarié ou encore chiffrement de ces données par un ransomware. Il existe également de nombreuses possibilités pour atteindre les RTO appropriés à chaque catégorie — de la restauration d’éléments individuels à une reprise du système complet, en passant par des sauvegardes immuables. Connaître la criticité de vos systèmes et de vos données est la première étape pour identifier les processus de reprise que vous avez besoin de mettre en place. D’autre part, il importe de savoir comment assurer au mieux la restauration de ces systèmes : une reprise complète restaurera les services dans le même état qu’une restauration de base de données, mais cette dernière vous permettra de relancer vos activités plus rapidement, et ainsi de remplir ces RTO.
Les entreprises doivent commencer par évaluer la criticité de leurs systèmes et données par rapport à leur activité globale. Gardez à l’esprit que ces RTO sont un critère temporel. Il peut y avoir des systèmes et données absolument essentiels aux objectifs et à la stratégie de votre entreprise, mais qui n’appellent pas forcément un RTO court. Par exemple, pour un hôpital qui accorde une grande importance à la formation de son personnel, lorsque le logiciel de gestion des formations (LMS) tombe en panne — avec, potentiellement, une perte des dossiers de formation — les conséquences immédiates de la panne sont loin d’être aussi graves que les conséquences d’une attaque de ransomware sur les données protégées par la loi HIPAA. Pour ce type de systèmes, le RTO peut donc être de plusieurs semaines, voire de plusieurs mois. D’autres systèmes et données nécessitent un RTO de quelques heures ou de quelques minutes. D’autres encore peuvent être si essentiels qu’une restauration instantanée est indispensable. Imaginez par exemple une panne de l’équipement d’urgence ou des données du dossier médical partagé (DMP) nécessaires pour prendre des décisions de traitement immédiates dans cet hôpital. Les conséquences seraient extrêmement graves, et mettraient en jeu des vies humaines. Ces éléments requièrent donc un RTO quasi nul.
De nombreuses entreprises utilisent des sauvegardes régulières des données et sont sûres d’être protégées. Celles qui s’appuient sur des sauvegardes automatiques se sentent d’autant plus en sécurité. Cependant, les cybercriminels étant de plus en plus performants et les ransomware de plus en plus complexes, les solutions de sauvegarde simples ne sont plus efficaces pour les données nécessitant un RTO court ou quasi nul. De nombreuses attaques informatiques ciblent désormais les sauvegardes elles-mêmes, et infiltrent parfois un système dans la durée. Le temps que le service informatique s’aperçoive du problème, plusieurs semaines de sauvegarde peuvent être corrompues. Auparavant, il était courant de stocker des sauvegardes sur bande hors site ; mais cette option n’est plus envisageable pour les entreprises qui ne peuvent pas se permettre d’attendre que l’on aille chercher les bandes pour les restaurer.
Pour vos données les plus précieuses, l’immuabilité vous garantit d’avoir des sauvegardes à disposition. Mais vous avez également besoin des capacités nécessaires pour les restaurer instantanément. C’est pourquoi Rubrik dispose de solutions telles que Live Mount et Instant Recovery.
Découvrez comment Rubrik a aidé le Kern Medical Center à repousser une attaque de ransomware et à restaurer ses données, puis continuez votre lecture pour plus d’informations sur les RTO.
Toutes choses bien considérées, votre entreprise ne peut se permettre de ne pas être prête. Les ransomware se développent, avec des attaques plus complexes chaque jour. Préparer la réussite de votre entreprise est essentiel pour survivre à une attaque de ransomware (ou à tout autre incident ou catastrophe naturelle qui entraînerait une interruption de vos systèmes). Une violation de données peut se révéler coûteuse — financièrement, mais aussi sur le plan de la réputation ou des conséquences juridiques. Il importe donc de bien calculer vos objectifs de délai de restauration et de point de reprise pour surmonter une telle crise et garantir la continuité de vos activités.
Souvenez-vous : les RTO et les RPO sont des critères temporels, et liés entre eux. Le RTO correspond au délai maximal de restauration des systèmes ou des applications à l’état précédant l’incident, sans impact grave sur vos activités. Les RTO diffèrent pour chaque entreprise, chaque fonction et chaque système. Une évaluation d’impact sur vos activités vous aidera à identifier les catégories de RTO pertinentes, selon leur criticité. Attaque de pirate, catastrophe naturelle ou simple erreur humaine : mettre en place les bons systèmes pour respecter vos RTO permettra de limiter les pertes de données - mais aussi de temps, d’argent, de loyauté client et de préjudice à votre image de marque.