Sur le marché du numérique, les clients n’ont jamais été aussi exigeants. Ils tolèrent très mal les délais de transaction et les lacunes de niveau de service, la plus petite interruption risquant d’entraîner des baisses de la productivité, des ventes et de la fidélité client. De ce fait, toute organisation a besoin d’un plan de reprise après sinistre robuste.

Un plan de reprise après sinistre définit comment – et dans quels délais – vous remettre d’un incident inattendu qui rendrait vos données et applications critiques inaccessibles. Il vous prépare donc à restaurer rapidement vos systèmes afin de limiter l’impact sur vos activités.

 

Objectifs de restauration clés

Parmi les composantes d’un plan de reprise après sinistre, il y a deux paramètres essentiels : combien de temps votre entreprise peut se permettre d’interrompre ses activités, et quelle quantité de données elle peut perdre. Ce sont, respectivement, l’objectif de délai de restauration (RTO) et l’objectif de point de reprise (RPO).

  • Le RTO est la durée maximum fixée par votre entreprise pour restaurer les opérations normales après une panne ou une perte de données.

  • Le RPO correspond à la quantité maximale de données que votre entreprise peut tolérer de perdre. Ce paramètre prend la forme d’une durée : c’est le temps écoulé, au moment de la défaillance, depuis votre dernière sauvegarde de données valide. Par exemple, si au moment de la panne, votre dernière sauvegarde de données a été effectuée 24 h plus tôt, le RPO est de 24 h. 

Adapter les RTO/RPO aux applications

Vous devrez sans doute mettre en place des RTO et RPO différents pour les diverses applications utilisées par votre entreprise pour générer des données. Plus une application est critique, plus son RTO et son RPO doivent être faibles (c’est-à-dire, proches de zéro). Moins elle est critique, plus la tolérance est élevée.

Pour calculer les RTO et les RPO les mieux adaptés à votre entreprise, consultez les responsables de départements et les cadres dirigeants afin d’identifier les applications et systèmes essentiels à vos activités et qui génèrent le plus de revenus. Ce sont eux que vous devez maintenir fonctionnels en priorité, et qui doivent afficher les RTO et RPO les plus bas. Une fois cette analyse d’impact effectuée, vous pouvez diviser vos systèmes en catégories, basées sur des niveaux de criticités et des objectifs de restauration appropriés à chacune.

 

Exécution : mettre en balance la criticité et les coûts

Plus le RTO et le RPO sont exigeants, plus il peut être coûteux de les respecter.  Par exemple, si vous pouvez procéder à une sauvegarde complète de vos données d’entreprise avec un RPO plus bas, vous consommerez moins de stockage et de ressources réseau qu’en les sauvegardant toutes les semaines.

Pour mieux maîtriser les coûts, identifiez les RTO et RPO voulus pour les différentes catégories de criticité, puis cherchez des moyens de les respecter de la manière la plus économique possible dans le cadre de votre stratégie de reprise après sinistre.

Par exemple :

  • À quelle fréquence vos données critiques doivent-elles être sauvegardées ? La réplication continue des données  depuis le stockage primaire vers un stockage secondaire actif en permanence est un moyen d’assurer une disponibilité élevée. Cette configuration nécessite cependant des systèmes de stockage ultra performants et une bande passante maximale. Elle peut donc se révéler coûteuse. Une fois les sauvegardes complètes des données effectuées, envisagez des sauvegardes incrémentielles. Celles-ci ne prennent en compte que les données nouvelles ou modifiées, de manière à restreindre la fenêtre de sauvegarde et les coûts.

  • Où les sauvegardes seront-elles hébergées pour garantir un accès simple et rapide ?  Choisir une sauvegarde dans le cloud peut revenir moins cher que de constituer et d’entretenir une pile informatique secondaire complète utilisant votre équipement, vos locaux et votre énergie. Mais il est également possible de sauvegarder vos données sur un autre site ou dans un datacenter secondaire. Ou encore, dans une pièce distincte, voire simplement un rack distinct au sein du datacenter primaire. En cas de catastrophe naturelle affectant un site, une ville ou une région dans son intégralité, il est cependant plus efficace de stocker les copies de données sur des sites éloignés géographiquement.

Certaines configurations de sauvegarde sur site utilisent des clusters de stockage virtualisés qui distribuent des bases de données et des services de fichiers sur plusieurs nœuds, lesquels permettent de traiter différentes charges de travail simultanément. Si la capacité doit être augmentée, il suffit d’ajouter un nœud. Plus le cluster est grand, plus il peut ingérer de données simultanément, et plus la fenêtre de sauvegarde est courte. Lorsque ces systèmes sont intégrés à des services d’infrastructure de cloud public, il devient possible d’utiliser un environnement de cloud hybride pour plus de diversité et pour assurer la protection des données.

  • Face à une interruption de service, quelles autres actions seront nécessaires pour remettre les systèmes en ligne et combien de temps prendront-elles ? Par exemple, vous pourrez avoir besoin de remplacer des composants endommagés, de reprogrammer un logiciel ou d’effectuer des tests du système avant de reprendre vos activités. Dans un scénario de cloud, pas besoin de vous inquiéter des aspects matériels ; cependant, la quantité de travail pour recréer les IP et reconfigurer les paramètres peut être plus importante. Votre plan de reprise après sinistre consiste-t-il à basculer vers un ensemble de données secondaire ou à tout restaurer sur place ? Autant de questions auxquelles vous devrez répondre pour élaborer et mettre en œuvre une stratégie.

Envie d’en savoir plus ? Découvrez comment assurer des RTO quasi nuls afin d’accélérer radicalement l’accès à vos données et le processus de restauration, et ainsi restaurer vos opérations.

Différences entre le RTO et le RPO

L’objectif de délai de restauration (RTO) est la durée d’interruption de service visée en cas de panne informatique. L’objectif de point de reprise, quant à lui, correspond à la durée maximale écoulée depuis le dernier point de restauration de données.