GESTÃO DE INCIDENTES – FRAMEWORK ITIL

Gestão de Incidentes é uma das principais atividades de operações de TI, ela vem após a Gestão de Eventos, atividade operacional que detecta e registra mudanças ou anomalias no ambiente. Mas, o que seria exatamente a Gestão de Incidentes em detalhes? Como a Gestão de Incidentes ajuda a reestabelecer serviços de TI que estejam com algum tipo de impacto ou indisponíveis? Qual o objetivo da Gestão de Incidentes? Como a Gestão de Incidentes garante a qualidade dos seus serviços? Como este processo de gerenciamento pode facilitar o fluxo estrutural corporativa do seu empreendimento e como isso pode melhorar o seu negócio? Vamos responder e detalhar todos estes pontos. Siga lendo!

ANTES DE DESCUBRIR O QUE É GESTÃO DE INCIDENTES, VAMOS ENTENDER O QUE É ITIL?

A ITIL (Information Technology Infrastructure Library) em português, Biblioteca de Infraestrutura de Tecnologia da Informação, é um conjunto de livros de melhores práticas para gerenciamento de serviços de TI, que tem sua origem na Inglaterra e foi criada nos anos 80. Este conjunto de publicações com informações de elementos que sustentam toda a estrutura gerencial serviços de TI surgiu da necessidade de reunir todo o conhecimento até então gerado sobre gestão de infraestrutura de TI por um departamento do governo britânico. Após o seu aparecimento, não só o governo britânico utilizou largamente a biblioteca de melhores práticas como também outras diversas empresas começaram a adotar e contribuir com o seu desenvolvimento. Assim foram reunidas na literatura ITIL práticas testadas e validadas por várias organizações mundo afora, e é a mais reconhecida referência de práticas de gestão de serviços de TI a nível mundial. A atualização mais atual da ITIL é conhecida como ITIL V3 e sugere que as atividades de gerenciamento tenham a estrutura baseada no ciclo de vida do serviço. Isso quer dizer que as operações são fundamentadas desde a concepção até a descontinuação do serviço.

Toda as empresas possuem seus direcionamentos que podem varias de modelos mais tradicionais como missão, visão e valores até modelos mais contemporâneos que falam de proposito e o motivo da empresa existir. Essa visão estratégica geralmente aponta um caminho e o restante da organização é responsável por executar essa estratégia definida. Por consequência, a área de TI é um grande apoiador da visão estratégica da empresa no momento de executa-la, e para isso a adoção de melhores práticas garante não repetir erros que outras empresas já fizeram no passado e principalmente garantir níveis e qualidade das entregas.

O objetivo é definir o serviço de TI como uma maneira de entregar valor e qualidade para clientes externos e internos. Já pensou que para fazer essa entrega de um serviço ou produto para o seu cliente, a sua empresa precisa estar funcionando muito bem? Então, a área de TI possui total relação com essa entrega! É a forma que a empresa entrega valor usando as habilidades e recursos de gerenciamento, garantindo que a operação e os processos do negócio e de TI serão monitorados e terão suas necessidades atendidas.

Vamos conhecer um dos processos que garante a qualidade nas entregas dos negócios e ajuda a manter a disponibilidade e performance da sua empresa, a Gestão de Incidentes.

O QUE É GESTÃO DE INCIDENTES DO ITIL?

É o procedimento responsável por gerenciar o ciclo de vida de todos os incidentes que impactam os serviços prestados. A gestão de incidente garante eventos que impactam os serviços, que degradam o negócio ou atrapalhem a disponibilidade e performance de forma geral sejam tratados como incidentes, afinal, estão trazendo um impacto para o negócio. Estes incidentes podem ser iniciados de forma automática, através do nível de criticidade de um evento, como visto em Gestão de Eventos, ou através de um operador que em análise identificou um evento de alto impacto para o negócio ou que recebeu um chamado indicando um incidente de alto impacto no ambiente.

O objetivo da Gestão de Incidentes é manter uma operação normal de um ou mais serviços e em caso de incidentes, prontamente atuar em busca da normalização e que este incidente trago o mínimo impacto para o negócio. A Gestão de Incidentes busca então gerenciar de forma estrutura os incidentes que trazem algum nível de impacto para o negócio e fazer com que este impacto seja o menor possível. Uma medida amplamente utilizada para medir a disponibilidade de um serviço e validar a acurácia da Gestão de Incidentes é o Acordo de Nível de Serviço (ANS), ou como é muito encontrado no mercado, Service Level Agreement (SLA).  Este tipo de acordo prevê um nível mínimo de disponibilidade para um determinado período que pode variar de metas mensais até anuais. A métrica mais comum de acordo é o tempo de disponibilidade, considerando todo o tempo operacional do sistema ou infraestrutura em um determinado período relacionando com o tempo deste período e chegando assim a um resultado percentual que será o indicador do SLA.

Portanto, a Gestão de Incidentes busca manter o SLA acordado entre as partes e segundo o glossário ITIL, uma interrupção não planejada de um serviço de TI ou uma redução da qualidade de um serviço de TI é considerado um incidente. A falha de um Item de Configuração (IC) que ainda não afetou o serviço também é um incidente, por exemplo, a falha em um disco de um conjunto discos que estão trabalhando em alta disponibilidade, isso é um incidente, pois acabou deixando o conjunto de discos sem mais nenhuma proteção. O gerenciamento de incidentes trata do efeito e não da causa do problema. Os incidentes podem ser constituídos de falhas, questionamentos, chamadas telefônicas, interrupções, perda de desempenho. Pode ser detectado de forma automática ou por um relatório elaborado por ferramentas de monitoramento de eventos.

Alguns exemplos de incidentes são: sistema lento, sistema indisponível, falta de conexão com a internet ou internet lenta, servidor com problemas, falha no processo de backup, trafego anormal em uma rede crítica, pouco espaço em disco em ambientes de produção, formas de pagamento eletrônico com problemas de comunicação, problemas no envio de e-mails e afins.

ETAPAS DO GERENCIAMENTO DE INCIDENTES

Conforme proposto pelas melhores práticas, existe um processo a ser seguido para o gerenciamento de incidentes que traz de forma lógica as suas etapas e estão previstas as coletas e registros de informações pertinentes às etapas subsequentes. Além disso, para garantir a qualidade do serviço e o atingimento das metas de SLA é importante definir uma boa base de conhecimento com informações detalhadas sobre resoluções de incidentes conhecidos, sempre que possível, automatizar este tipo de processo, possuir um bom alinhamento entre impacto do incidente e sua criticidade nas ferramentas de monitoramento que poderão já reclassificar eventos para incidentes e dar prioridade para os de maior impacto e pensar se existirão fluxos distintos para incidentes de baixo e alto impacto. No caso da Unirede Soluções Corporativas, possuímos um processo de Gestão de Crise, para incidentes de alto impacto para o negócio.

Como organizar isso tudo? Definir o processo. De forma macro, o processo de Gestão de Incidentes terá as seguintes etapas:

Identificação do Incidente

Os incidentes normalmente originam-se de chamadas feitas pelos usuários e eventos reclassificados como incidentes pela própria ferramenta de monitoramento. Os canais utilizados para o inicio deste atendimento pode ser feito telefone, ferramentas de vídeo chamadas, chats, e-mails e outros. Nesta etapa o operador que trabalhará na normalização do ambiente irá receber as informações sobre o incidente e iniciar o seu trabalho. A partir da perspectiva de negócio, o recomendável é não chegar no momento em que o usuário experimente o impacto do incidente. Com detecção prévia de eventos de menor criticidade é possível resolver um evento que ainda não se tornou um incidente ou até mesmo tratar um incidente antes de impactar o usuário final.

Registro

É necessário criar um histórico de todos os incidentes com data, horário, descrição. Sejam eles recebidos pelos canais da central de serviços com os usuários ou de forma automática pelas ferramentas de monitoramento presentes no ambiente. O quanto mais rico e com mais referências do IC afetado, melhor. Estes registros podem ser posteriormente utilizados para identificar incidentes recorrentes para serem trabalhados de forma estrutura na Gestão de Problemas e ter como saída um plano de ações para atacar a causa raiz que gera os incidentes.

Classificação

A classificação possui dois fatores. Categoria: define qual IC foi afetado pelo incidente, ou categoria. E prioridade: definir a prioridade do atendimento, qual o impacto e a urgência para esse atendimento. Dentro disto poderá existir uma distribuição de incidentes dentro de equipes de atendimento que possuem especialidades distintas ou em casos de eventos que gerem o inicio de um processo de Gestão de Crise, podem ser alocados profissionais, de distintas equipes, com os perfis adequados a resolução o mais rápida possível do incidente, neste caso, um incidente de alto impacto para o negócio, ou seja, possivelmente o negócio está indisponível.

Diagnóstico e Escalada

Este é o momento da compreensão do que está acontecendo, consolidar todas as informações registradas e validar o que está acontecendo. Mais de um grupo pode se envolver e é importante documentar o histórico. É importante ter uma base de conhecimentos que sempre evolui para atender e consultar, desta forma, com as palavras chaves certas e com uma boa ferramenta de consulta à base de conhecimento é possível chegar rápido a uma Instrução de Trabalho ou FAQ que traga as informações e passo-a-passo para resolver o incidente. Como mencionado anteriormente, existem diferentes times em uma Central de Serviços, alguns com especializações específicas e alguns mais avançados que outros. Diante destes níveis e conforme as necessidades, os atendentes podem sugerir a solução ou transferir o chamado do incidente para o nível seguinte (funcional), ou até notificar o nível gerencial (hierárquica). Este é o processo de escalonamento que visa resolver o incidente o mais rápido possível, seja de forma permanente ou através de solução de contorno. Nesta etapa, podem existir diferentes momentos de diagnóstico, existindo um inicial e posteriores que serão conduzidos pela investigação que estes times da Central de Serviços fazem.

Resolução e Recuperação

Aplicar a solução encontrada na etapa de diagnóstico que investigou o incidente. Geralmente nesta etapa são feitos testes quanto aos impactos, ou efeitos colaterais que a solução de contorno ou a solução aplicada pode ter no ambiente. Uma ferramenta muito boa neste momento é o monitoramento, capaz de detectar anomalias com sensíveis e notifica-las. Nos casos de aplicação de solução de contorno e não se ter a identificação da causa raiz, deverá ser acionado o processo de Gestão de Problemas. Nos casos de aplicação de solução de contorno por a solução definitiva necessitar mudança no ambiente, deverá ser acionado o processo de Gestão de Mudanças. Para todos os casos que gerarem algum tipo de alteração de configuração, deverá ser acionado o processo de Gestão de Configuração. Com todas as tarefas desta etapa sendo concluídas e o incidente estar solucionado, o próximo passo é o encerramento.

Encerramento

Os detalhes devem ser formalizados e registrados de forma adequada e posterior pesquisa de satisfação enviada ao cliente. Todos os registros do incidente podem ser utilizados para criar e melhorar bases de conhecimento. Os demais dados deverão ser insumos para relatórios gerenciais da Central de Serviços que podem apontar questões para melhorar o desempenho dos times. O monitoramento dos ICs que tiveram incidentes é uma tarefa importante, fazendo assim, um acompanhamento completo pós resolução.

DIFERENÇAS ENTRE GESTÃO DE EVENTOS E GESTÃO DE INCIDENTES

Algumas dúvidas são frequentes na diferenciação de eventos e incidentes e seus gerenciamentos. Um resumo apropriado é que a gestão de evento trata das mudanças de situações e anomalias, enquanto a gestão de incidentes cuida das anomalias mais específicas, de maior impacto no negócio. Como por exemplo, um evento informativo não é um incidente, porém, caso ele tenha uma criticidade maior que represente um risco para o negócio, este evento poderá transformar-se em um incidente. Ou também, um evento já pode ser classificado desde o início de sua descoberta como um incidente, tendo criticidade média ou superior.

Dependendo da natureza da situação, de acordo com os níveis de criticidade e impactos no negócio, será encaminhado para o processo de gestão apropriado. Toda vez que um evento é identificado e compromete a disponibilidade ou qualidade dos serviços, é encaminhado para a gestão de incidentes. Por exemplo: se um servidor apresenta um evento de 80% do armazenamento ocupado, é possível registrar como evento. Mas, se o mesmo servidor apresenta um evento de 95% do armazenamento ocupado, significa que ele pode começar a degradar a experiência dos usuários a qualquer momento, e o pior, parar de funcionar, trata-se então, de um incidente. É bom relembrar que o ITIL entrega valor ao cliente, portanto, o importante é atender o que foi acordado e com a qualidade esperada. Outra diferença é que o usuário final não pode registrar abertura de um evento ao Service Desk, mas incidentes e requisições de serviço sim.

COMO A UNIREDE PODE AJUDAR A SUA EMPRESA NA GESTÃO DE INCIDENTES?

A Unirede possui uma central de serviços destinada aos seus clientes com toda a estrutura de NOC, network operation center, ou em português, núcleo de operações de rede com processos sólidos de Gestão de Eventos, Incidentes, Requisições, Problemas, Configuração, Mudanças e Liberação que trazem maior disponibilidade e desempenho para o seu negócio.

Este conjunto de ferramentas, pessoas capacitas e processos já bem definidiso de acordo com as necessidades do mercado trazem para a Unirede uma enorme vantagem quanto a velocidade de tratamento de eventos, que neste caso, pode ser uma vantagem para o seu negócio também.

A Unirede está a mais e 19 anos no mercado de sustentação de negócios, é especialista em monitoramento e reconhecida por grandes empresas como uma fornecedora de solução, serviços e tecnologia.

Entre em contato e fale com um de nossos especialistas e comece a otimizar o seu negócio!

Quer saber mais sobre Gestão de Incidentes?

Entre em contato conosco.

Assine a nossa Newsletter

Fique por dentro de nossas postagens, treinamentos e demais eventos que a Unirede organiza.

You have Successfully Subscribed!