Como você estabelece um processo eficaz de gerenciamento de incidentes de TI?
De uma saída de impressora bloqueada a um aplicativo fora de serviço, há muitos incidentes, mais ou menos críticos, pelos quais seu sistema de TI passa. Daí a importância de implementar um processo de gerenciamento de incidentes.
Mas como você pode garantir que seu procedimento de gerenciamento de incidentes seja eficaz? Que estágios de resolução você deve definir e como deve determinar as funções de cada pessoa em seu processo? É possível fornecer uma solução satisfatória para o usuário, de acordo com o seu SLA (Service Level Agreement) e dentro de prazos razoáveis?
Para ajudá-lo a obter maior eficiência e consistência, o Appvizer explica os princípios e os estágios da estrutura da ITIL neste artigo e lembra os benefícios a serem obtidos com esse método de trabalho.
O que é gerenciamento de incidentes de TI?
A maioria dos incidentes de TI é gerenciada de acordo com o padrão ITIL ( Information Technology Infrastructure Library).
Mas o que é exatamente a ITIL?
Um projeto desenvolvido na década de 1980 pelo British Office of Government Commerce, o ITIL é um conjunto de documentos que lista as melhores práticas a serem aplicadas no gerenciamento de serviços de TI em uma base ampla. O objetivo é fornecer suporte metodológico aos profissionais, com a intenção de aprimoramento contínuo.
O processo da ITIL abrange vários temas (organização do sistema de informações, gerenciamento de configuração, gerenciamento de mudanças etc.), incluindo o gerenciamento de incidentes, que é especificado da seguinte forma:
Um incidente é definido como qualquer evento que não faz parte da operação padrão de um serviço e que causa, ou pode causar, uma interrupção ou uma redução na qualidade desse serviço.
Essa definição abrange diferentes tipos de incidentes:
- incidentes de software ou de aplicativos. Exemplos:
- erro de programa que deixa o usuário lento,
- lentidão do aplicativo, etc.
- incidentes de hardware. Os exemplos incluem
- saída da impressora bloqueada
- disco rígido quase cheio, etc.
- Solicitações de serviço. Os exemplos incluem
- senha esquecida,
- solicitação de documentação específica, etc.
Gerenciamento de incidentes VS gerenciamento de problemas
O gerenciamento de incidentes é frequentemente confundido com o gerenciamento de problemas. No entanto, eles envolvem procedimentos diferentes.
De acordo com a ITIL, o gerenciamento de problemas é usado para :
Minimizar o impacto negativo nas atividades da empresa de incidentes e problemas causados por erros na infraestrutura de TI e evitar a recorrência de incidentes induzidos por esses erros.
➡️ Em outras palavras, o gerenciamento de problemas é mais proativo, enquanto o gerenciamento de incidentes é mais reativo.
Entretanto, os dois processos funcionam em paralelo, com o gerenciamento de problemas operando por meio da identificação de incidentes recorrentes.
Por que o gerenciamento de incidentes é importante?
Um processo padronizado para gerenciar seus incidentes gera vários benefícios para sua empresa 🤩 :
- reduz o impacto, às vezes crítico, dos incidentes sobre a empresa e os negócios mais rapidamente;
- simplifica muito o procedimento, evitando, por exemplo, e-mails de ida e volta;
- Permite a identificação de incidentes recorrentes, possibilitando a implantação do processo de gerenciamento de problemas mencionado acima;
- Melhora a qualidade da base de conhecimento da empresa ao configurar bancos de dados para lidar com incidentes;
- Proporciona transparência dentro da organização com relação à resolução de incidentes;
- Aumenta a satisfação do usuário e a produtividade de todos na empresa.
☝️ Tenha em mente que um processo de gerenciamento de incidentes vai além da simples resolução de um problema de TI. Ele fornece um suporte sólido para as funções comerciais da empresa, reduzindo o número de lentidões ou paradas nas atividades que afetariam o faturamento.
Exemplo de um procedimento de gerenciamento de incidentes em cinco etapas
#1 Identificação e registro do incidente
Para começar, o incidente deve ser identificado, especificando :
- seu nome e número
- a identidade da pessoa responsável
- a data em que o incidente ocorreu
- e, acima de tudo, suas características (natureza, gravidade e impacto nas operações).
Por exemplo: uma pane no servidor que afete vários departamentos será considerada um incidente grave, enquanto um problema de conexão em uma única estação de trabalho será considerado menos crítico.
Cabe ao departamento responsável registrar esses detalhes no dispositivo de sua escolha (software, planilha, formulário, etc.) e relatá-los às equipes de suporte responsáveis por lidar com eles de acordo com o procedimento.
#2 Classificação e análise do incidente
O incidente é então classificado de acordo com a ordem de prioridade definida a montante e específica de sua organização, dependendo, por exemplo, do impacto sobre os negócios e da urgência da situação.
Por exemplo, uma falha na rede pode ser classificada como um incidente de "conectividade", com um nível de gravidade "alto" se paralisar toda a empresa.
Ao mesmo tempo, é realizada uma análise inicial para determinar as possíveis causas do incidente. Para essa avaliação, podem ser usadas ferramentas de diagnóstico ou até mesmo a experiência anterior .
☝️ Observe que, se essa for uma solicitação de serviço, você deverá seguir o procedimento associado.
#3 Investigação e diagnóstico do incidente
Todas as informações relacionadas ao incidente são analisadas, com o objetivo de resolvê-lo e colocá-lo de volta em funcionamento o mais rápido possível. As equipes responsáveis por esse trabalho usam várias metodologias, desde a análise de logs até testes em tempo real.
Por exemplo: se um servidor falhar, a equipe consultará os logs de eventos em busca de erros críticos ou usará ferramentas de monitoramento para verificar o desempenho do hardware.
Esteja ciente de que, às vezes, o primeiro nível de serviço não consegue resolver o incidente: isso aciona um escalonamento de incidentes, ou seja, sua resolução é transferida para o próximo nível.
#4 Resolução de incidentes e retorno ao serviço
A resolução de incidentes assume várias formas:
- o incidente é reparado imediatamente. Ele foi resolvido e as operações foram retomadas normalmente;
- uma solução alternativa foi encontrada. O gerenciamento de incidentes deve levar à rápida restauração dos serviços. Se o sistema não for perfeito, mas tornar a situação "aceitável", o processo será respeitado.
☝️ Observe que, se as causas subjacentes de um incidente forem desconhecidas, mas parecerem ter a mesma origem, recomenda-se iniciar um processo de gerenciamento de problemas. Lembre-se de que os fluxos de gerenciamento de incidentes e problemas são frequentemente cruzados.
#5 Encerramento do incidente
Para encerrar um incidente adequadamente, as equipes responsáveis pelo processo executam várias ações:
- Elas tomam o cuidado de registrar todos os detalhes do incidente e o tempo gasto com ele. ☝️ Essa documentação é usada para criar um histórico que pode ser consultado para melhorar os protocolos no futuro;
- informar o usuário sobre a resolução;
- Eles garantem que todos os detalhes da solução sejam claros e legíveis.
Esse nível de detalhe reduz o risco de conflito entre as diferentes partes interessadas.
Partes interessadas no gerenciamento de incidentes
Diferentes partes interessadas estão envolvidas no gerenciamento de incidentes. Embora sejam diferentes de uma organização para outra, algumas funções básicas podem ser identificadas:
- O solicitante/usuário: relata o incidente, especificando claramente do que se trata. A equipe técnica também pode recorrer a eles no final do processo para responder às perguntas.
- Os diferentes níveis de suporte: dependendo do nível, as equipes de suporte fornecem as soluções necessárias para resolver o incidente e, às vezes, reatribuem o incidente não resolvido para o próximo nível acima.
- O gerente de incidentes: garante que o gerenciamento de incidentes seja realizado corretamente, planeja o procedimento e pode recomendar áreas de melhoria.
- O proprietário do processo: dentro da empresa, essa pessoa assume a responsabilidade pelo processo de gerenciamento de incidentes em geral. Ela também pode ser responsável pela definição dos KPIs (Key Performance Indicators, indicadores-chave de desempenho).
10 práticas recomendadas para gerenciar seus incidentes
Para estar mais bem preparado para gerenciar incidentes de TI e minimizar o impacto deles nas operações da sua organização, recomendamos que você siga estas 10 práticas recomendadas:
- ✅ Treine a equipe. Certifique-se de que a equipe de suporte esteja bem treinada em procedimentos e ferramentas. O objetivo é garantir um diagnóstico rápido e preciso.
- Priorize de forma eficaz. Estabeleça critérios claros para priorizar inteligentemente os incidentes de acordo com sua gravidade ou impacto nos negócios.
- Estabeleça uma documentação rigorosa. Documente cada estágio da resolução, do diagnóstico à ação corretiva, para um acompanhamento eficaz e aprendizado futuro.
- Comunique-se de forma transparente. Comunique-se de forma clara e regular com as partes interessadas para mantê-las informadas sobre o status do incidente e as medidas tomadas.
- Implemente um processo de validação. Antes de encerrar qualquer incidente, valide a resolução com os usuários. Isso confirma que seus problemas foram totalmente resolvidos.
- Realize uma revisão pós-incidente. Realize uma análise pós-incidente. Ela servirá para identificar as causas principais, bem como as possíveis áreas de melhoria.
- Atualize a base de conhecimento. Atualize regularmente a base de conhecimento com informações sobre a resolução de incidentes, novamente para ajudar a resolver incidentes semelhantes no futuro.
- Automatize tarefas repetitivas. Use a automação para gerenciar tarefas de rotina, como a triagem de incidentes. O tempo economizado permitirá que a equipe se concentre em problemas mais complexos.
- Pense em "melhoria contínua". Realize auditorias regulares de seu procedimento de gerenciamento de incidentes, com o objetivo de identificar oportunidades de melhoria.
- Use uma ferramenta de gerenciamento de incidentes. Essa é, sem dúvida, a dica mais importante! De fato, ao investir em um sistema robusto de gerenciamento de incidentes (ITSM em particular), você rastreia e documenta todos os incidentes de forma centralizada.
As ferramentas certas para o gerenciamento de incidentes
Você já tem uma visão mais clara do problema do gerenciamento de incidentes, mas talvez esteja se perguntando como colocar todas essas recomendações em prática? Já imaginou aplicar seu procedimento de gerenciamento de incidentes usando uma planilha do Excel ou uma ferramenta tradicional de gerenciamento de projetos?
Felizmente, foi desenvolvido um software específico para apoiar suas equipes em todas as etapas do procedimento de gerenciamento de incidentes.
Para ajudá-lo, dê uma olhada em nossa seleção ✔️ :
- Jira. Desenvolvida pela Atlassian, a ferramenta de emissão de tíquetes Jira padroniza o processamento de tíquetes abertos após o relato de um incidente.
Por que o Jira?- Crie tíquetes com um nível preciso de informações (descrições, nível de gravidade etc.) e siga todos os processos necessários para gerenciá-los;
- classificar e priorizar facilmente os bugs e atribuí-los ao funcionário ou departamento certo;
- integrar seus tíquetes em um fluxo de trabalho pronto ou que possa ser personalizado para atender às suas necessidades e aos seus processos.
- NinjaOne. O NinjaOne é uma solução completa de gerenciamento de ativos de TI para PMEs, ETIs e grandes empresas.
Por que o NinjaOne?- Supervisione de forma centralizada e proativa toda a sua infraestrutura de TI para detectar incidentes o mais cedo possível;
- Aplicar automaticamente os patches necessários, de forma confiável, a todos os seus endpoints;
- armazenar toda a documentação padronizada e estruturada relacionada aos seus processos na plataforma.
- Octopus. O Octopus é um ITSM (Information Technology Service Management), ou seja, um software de gerenciamento de serviços de TI.
Por que Octopus?- Beneficie-se de uma ferramenta desenvolvida de acordo com as melhores práticas da ITIL: suas equipes podem aplicá-las naturalmente, sem a necessidade de dominá-las perfeitamente de antemão;
- Gerencie facilmente as solicitações de seus usuários, sejam elas incidentes ou solicitações de serviço;
- melhorar a ação preventiva graças a um banco de dados que gerencia todos os aspectos da configuração de seus sistemas de informação.
- Splunk Enterprise Security. O Splunk Enterprise Security é um SIEM (gerenciamento de eventos e informações de segurança) projetado para ajudá-lo a reforçar a segurança dos sistemas de TI e a gerenciar incidentes.
Por que o Splunk Enterprise Security?- Beneficie-se de uma solução focada em análise e, portanto, simplifique as tarefas relacionadas à segurança cibernética;
- obter insights em tempo real por meio de painéis e visualizações personalizados; ;
- detectar incidentes mais rapidamente e tomar medidas preventivas.
Quais são os principais pontos do gerenciamento de incidentes de TI?
O gerenciamento de incidentes, conforme padronizado pela ITIL, é um procedimento que deve ser incorporado ao seu sistema de informações o mais rápido possível, pois promete fornecer uma resposta clara e rápida no caso de um incidente.
Além disso, ele leva gradualmente a uma redução no número de incidentes, alimentando seus processos de gerenciamento de problemas e, portanto, suas ações preventivas.
E a boa notícia é que todos ganham quando esse método de trabalho é colocado em prática:
- As equipes técnicas trabalham de forma mais eficiente e transparente;
- os usuários são menos afetados por bugs e ficam mais satisfeitos com o seu produto;
- a empresa sofre menos perdas no caso de um incidente crítico.
Por fim, vale a pena lembrar que um bom gerenciamento de incidentes anda de mãos dadas com o uso de ferramentas relevantes, que dão suporte ao seu processo e economizam o precioso tempo de suas equipes.