Gestion des incidents

Un article de Wikipédia, l'encyclopédie libre.

La gestion des incidents (GDI) est un processus de gestion du cycle de vie de tous les incidents. Elle s’assure que l'exploitation normale des services soit rétablie le plus rapidement possible et que l’impact sur le business soit réduit au minimum[1].

L’exploitation normale des services est définie dans l’accord sur les niveaux de service (SLA). Il décrit le service informatique, documente les cibles de niveau de service et spécifie les responsabilités du fournisseur de service informatique et du client[2].

La gestion des incidents est un processus inclus dans la démarche ITIL et ISO 20000.

Définition[modifier | modifier le code]

Selon ITIL, l'objectif de la Gestion des Incidents est la suivante :

« Restaurer aussi vite que possible le fonctionnement normal des services et minimiser l’impact négatif sur les activités métiers et s’assurer ainsi que les meilleurs niveaux de qualité de service et de disponibilité sont maintenus[3]. »

Un Incident est défini par ITIL comme étant :

« Tout événement qui ne fait pas partie du fonctionnement standard d’un service et qui cause, ou peut causer, une interruption ou une diminution de la qualité de ce service. »

De façon générale, le terme Incident correspond à un dysfonctionnement signalé par un utilisateur[4]. Les incidents peuvent être classés en trois catégories : Logiciel, matériel et Requête de service. Il faut prendre en compte le fait que les requêtes de service ne sont pas toujours vues comme des incidents, mais plutôt comme des demandes de Changement (RFCs). Cependant, le traitement des pannes et le traitement des requêtes de services sont similaires, ce qui les inclut dans la définition et dans le cadre des processus de la gestion des incidents. Les incidents sont donc les événements qui peuvent entraîner des pertes ou des perturbations pour l’Organisation comme pour les services ou les fonctions au sein de l’entreprise. Si ces problèmes ne sont pas correctement résolus, cela pourrait engendrer une urgence ou une crise. Par conséquent, la gestion des incidents est le processus ayant pour but de limiter ces éléments nuisibles au bon fonctionnement de l’entreprise.

La gestion des incidents est habituellement suivie d’une analyse post-incident dans laquelle on détermine comment il est apparu malgré les précautions et les contrôles mis en place. Cette analyse est normalement supervisée par les dirigeants des organisations. Le but de cette supervision est de pouvoir mettre en place des mesures de précaution pour éviter la réitération de l’incident. Les informations obtenues seront ensuite utilisées comme des feedbacks pour améliorer la politique de sécurité et/ou son implémentation au sein de l’organisation. Aux États-Unis, le système de gestion des incidents développé par le département de sécurité, intègre des pratiques efficaces dans une gestion de l’urgence à l’échelle nationale.

Sans une gestion des problèmes efficace, un incident peut perturber rapidement les opérations d’affaires, la sécurité informatique, les systèmes d’information, les employés, les relations clients et d’autres fonctions vitales.

Démarche ITIL[modifier | modifier le code]

L'ITIL est un référentiel de bonnes pratiques destinées à améliorer la gestion des systèmes d’information. Son objectif est de fournir aux directions informatiques des outils et des documents leur permettant d'améliorer la qualité de leurs prestations, tout en répondant au mieux aux objectifs stratégiques de l'organisation.

Pour maintenir un haut niveau de performance, les organisations sont dans l’obligation de proposer à leurs clients des produits et des services compétitifs. Elles doivent donc être capables de s’adapter le plus vite possible au changement du climat économique et au climat du marché. Ainsi, tous ces produits et services proposés devraient permettre aux entreprises de se transformer et de se développer. La gestion des services ITIL supporte ces transformations à travers l’utilisation du «service cycle de vie» qui comprend cinq étapes :

  • Service strategy
  • Service design
  • Service transition
  • Service operation
  • Continual service improvement

La gestion des incidents se situe au niveau du Service Operation(SO) dont l’objectif est de s’assurer que la gestion des technologies de l’information soit efficace et efficiente. Le Service Operation répond aux requêtes des utilisateurs, il résout les pannes de service, il répare les problèmes et il effectue les opérations de routine. Il est composé de cinq procédures :

  • SO 4.1 : gestion des événements
  • SO 4.2 : gestion des incidents
  • SO 4.3 : exécution des requêtes
  • SO 4.4 : gestion des problèmes
  • SO 4.5 : gestion des accès

Processus de gestion des incidents (ITIL)[modifier | modifier le code]

Processus de gestion des incidents, défini par l’ITIL[modifier | modifier le code]

L’objectif de la gestion des incidents est de rétablir les services le plus vite possible sans en faire obligatoirement un système parfait. Si le service peut être rétabli plus rapidement par un contournement temporaire plutôt qu’en corrigeant les causes racines de l’incident alors la situation est acceptable. Après la restauration du service, la correction des causes racines est réalisée par l’équipe de gestion des problèmes lors d’un processus appelé l’analyse de causes racines. Un exemple de restauration de services par un contournement (workaround) temporaire est celui qui a été effectué dans Apollo 13.

La principale priorité de la gestion des incidents est de s’assurer de la restauration du système en supervisant et dirigeant les ressources internes et externes de l’entreprise. Une restauration prompte d’un système ainsi que la minimisation de tout impact pour l’utilisateur sont prioritaires sur une collection de données longue et intensive pour l’enquête des causes racines.

Il est possible d’améliorer le centre de gestion des incidents par la formation des techniciens. La formation peut leur permettre de prendre conscience de leur rôle auprès des utilisateurs. De plus, une mise à jour régulière de la base de données du service et de la base de gestion des configurations permet de recouper les informations sur les erreurs connues, leurs résolutions et leurs solutions de contournement. ITIL décompose la gestion des incidents en six éléments basiques :

  • La détection et l’enregistrement des incidents ;
  • La classification et l’aide initiale ;
  • L’enquête et le diagnostic ;
  • La résolution et la restauration ;
  • La clôture de l’incident ;
  • La propriété, le pilotage, le suivi et la communication (piloter la progression de la résolution de l’incident et garder à jour ceux qui sont affectés par l’incident).

Activités de la gestion des incidents, définies par l’ITIL V3[modifier | modifier le code]

Identification
détecter ou rendre compte d’un incident ;
Enregistrement
les incidents sont enregistrés dans le système de gestion des incidents ;
Classement
les incidents sont classés par priorité ;
Priorisation
l’incident est classé par ordre de priorité, sur la base de son impact et de son urgence, pour une meilleure utilisation des ressources et du temps disponible par l’équipe de support ;
Escalade
l’équipe de support doit-elle obtenir de l’aide de la part d’un autre service ? Si oui, on engage une procédure de demande de service sinon, la résolution de l'incident s’effectue au niveau du support initial.
Diagnostic
révélation du symptôme complet de l’incident ;
Résolution et rétablissement
une fois que la solution est trouvée et que la correction est apportée alors l’incident est résolu ; La solution peut alors être ajoutée à la base des erreurs connues dans l'optique de résoudre plus rapidement un incident similaire dans le futur.
Clôture de l’incident
l’enregistrement de l’incident dans le système de gestion du management est clôturé en appliquant le statut « terminé » à celui-ci.

Avantages et difficultés de la mise en place de la gestion des incidents[modifier | modifier le code]

Bénéfices[modifier | modifier le code]

La mise en place de la gestion des incidents est bénéfique pour l’entreprise. En effet, elle va réduire l’impact des incidents sur les activités ce qui va améliorer leur performance. Ensuite, elle va apporter d’autres avantages pour la production informatique comme une détection et une résolution plus rapide afin d’éviter l’apparition de nouveaux incidents. De plus, cela permet une meilleure utilisation des ressources de l’entreprise en fonction des évènements qu’elles soient physiques, humaines ou immatérielles. La qualité de l’information sera améliorée grâce à la mise en place de base de données facilitant le traitement d’incidents. Pour finir, la mise en place de la gestion des incidents apportera une satisfaction améliorée des utilisateurs.

Difficultés à prévoir[modifier | modifier le code]

La mise en place de la gestion des incidents au sein d’une entreprise peut rencontrer des barrières l’empêchant de bien s’implanter et donc de pouvoir agir efficacement au sein de celle-ci. La première barrière est la résistance au changement des employés de l’organisation. Cette résistance est naturelle et apparaît à chaque nouveauté dans une organisation. Cette résistance peut être plus ou moins forte selon la méthode d’implémentation au sein de l’entreprise. Dans le cas de la gestion des incidents cela peut entrainer une inutilisation du service en continuant d’utiliser l’ancienne méthode. La seconde barrière est le manque d’engagement des dirigeants qui vont donc accorder des fonds moindre pour ce service. Cela va entrainer une efficacité diminuée du service. La dernière barrière est plus spécifique aux PME et concerne l’utilisation des outils informatiques. Dans certaines de ces PME l’utilisation d’outil informatique se limite aux tableurs et ne permet donc pas l’application de la gestion des incidents. Cela est handicapant pour la PME qui n’a pas accès à des fonctions importantes qui pourraient améliorer son fonctionnement. Il faut savoir rester toutefois cohérent avec la taille de la structure et utiliser un système de gestion de l’incident raisonnable au vu de l’entreprise.

Distinction gestion des incidents et gestion des problèmes[modifier | modifier le code]

La gestion des incidents et la gestion des problèmes sont deux processus (à ne pas confondre avec des procédures) différents faisant partie du Service Opération. La gestion des incidents correspond à un rétablissement du service interrompu. Dans ce cas, on effectue une action réactive à un incident déclaré au centre de support. La gestion des incidents est exécutée par les employés qui vont faire remonter les incidents le plus fréquemment par téléphone, email, ou portail Web. De son côté, la gestion des problèmes correspond à une démarche proactive. Cela signifie que l’on va, en plus de rechercher les causes des incidents, trouver des résolutions définitives pour éviter que ces incidents ne réapparaissent à l’avenir.

Pour mettre en œuvre un Service Opération, il est nécessaire d'implémenter en priorité le processus de gestion des incidents afin de mieux connaitre son environnement. Pour cela, il faut répartir les différents types d'incidents dans diverses catégories pour comprendre les causes des incidents et ainsi, trouver des résolutions définitives et appropriées.

Facteur humain[modifier | modifier le code]

Durant l’analyse des causes racines, le facteur humain devrait être évalué. James Reason (1995) a conduit une étude pour comprendre les effets négatifs du facteur humain. L’étude rassemble les principales enquêtes d’incident comme Piper Alpha et l’incendie de la station de métro Kings Cross.

Elle explique par exemple, que les causes de ces accidents étaient aussi bien dues à des éléments internes qu’externes à l’organisation. Il existe deux types d’évènements :

  • une panne active, une action qui a des effets immédiats et dont la probabilité de causer des accidents est élevée ;
  • une panne latente ou différée, ces événements peuvent prendre des années pour produire des effets ; ils se combinent généralement avec un évènement déclencheur qui cause l’accident.

Pannes actives[modifier | modifier le code]

Ces pannes sont des actes risqués ou hasardeux (erreurs et violations) commis par les opérationnels et les superviseurs qui gèrent l’interface homme-système. Leurs actions peuvent parfois avoir comme conséquence un effet inverse aux résultats souhaités.

Pannes latentes[modifier | modifier le code]

Elles sont créées par les résultats des décisions prises par le sommet hiérarchique d’une organisation. Ces choix aux effets néfastes pour l’organisation peuvent rester en sommeil pendant un long moment, jusqu’à ce qu’un évènement déclencheur apparaisse (par exemple, la grande marée lors du chargement difficile au port de Zeebrugge…) causant la rupture du système de défense.

La préparation des plannings, les emplois du temps, les prévisions, la conception, la politique de fabrication etc. peuvent également avoir des effets à long terme et dangereux. Néanmoins, il est possible de remonter à l’origine de l’action dangereuse à travers l’organisation. L’accumulation de ces pannes latentes augmentera la probabilité qu’un futur accident arrivera.

Responsabilités du gestionnaire des incidents[modifier | modifier le code]

  • Comprendre chaque incident ou faute à un niveau basique (au moins) dans le but d’appliquer les ressources et compétences appropriées en réponse ;
  • Diriger l’équipe de rétablissement pour obtenir un niveau d’information suffisant afin de commencer une analyse ;
  • Maintenir une vue générale de l’incident (garder la concentration sur la restauration via un contournement) ;
  • Comprendre les fonctionnalités de plusieurs zones (RAN, cœur de réseau, VAS, BSS/OSS) ;
  • Donner des conseils sur les priorités aux équipes qui vont commencer le travail de rétablissement urgent et immédiat.

Gestion des incidents au sein de la sécurité informatique[modifier | modifier le code]

De nos jours, un rôle important est accordé aux centres d’alerte et de réaction aux attaques informatiques (CSIRT pour computer security incident response team). Cela est dû à l’augmentation des attaques informatiques sur internet auxquelles doivent faire face les entreprises des pays développés. Par exemple, si une organisation découvre qu’un intrus a réussi à s’introduire dans les systèmes informatiques, le centre d’alerte doit analyser la situation, déterminer l’ampleur de la brèche et prendre des mesures correctives. Actuellement, plus de la moitié des tentatives d’attaques informatiques sur les entreprises multinationales ont été réalisées en Amérique du Nord (57%) et 23% en Europe[5].

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Références[modifier | modifier le code]

  1. « ITIL France, Gestion des incidents (incident management) », sur www.itilfrance.com (consulté le )
  2. « ITIL France, Accord sur les niveaux de service (SLA : Service Level Agreement) », sur www.itilfrance.com (consulté le )
  3. http://www.itilfrance.com/pages/docs/hgelun/itilv2_incidents.pdf
  4. « ITIL France, Périmètre », sur www.itilfrance.com (consulté le )
  5. « Hacking Incidents 2009 – Interesting Data - Roger's Security Blog - Site Home - TechNet Blogs », sur blogs.technet.com (consulté le )

Bibliographie[modifier | modifier le code]

  • Claire Noirault, ITIL (version 3) Les meilleures pratiques de gestion d'un service informatique, Éditions ENI, 2009
  • Martine Otter, Jacqueline Sidi, Laurent Hanaud, Guide des certifications SI, 2e édition, Éditions Dunod, 2009
  • Christian Dumont, ITIL pour un service informatique optimal, 2e édition, Éditions Eyrolles, 2007