Como tratar incidentes em um data center?
No tratamento de incidentes, é importante estabelecer um processo bem definido e padronizado para garantia de nível de qualidade e conforme o SLA contratado:
INCIDENTE >> DIAGNÓSTICO >> DECISÃO >> INTERVENÇÃO
Primeiro de tudo: o que é um incidente em um data center?
A definição de incidentes varia de acordo com a literatura, portanto adotamos a seguinte: “Um incidente é uma interrupção não planejada ou uma redução da qualidade de um serviço ou equipamento.”
Com base nesta definição, um exemplo seria uma falha no funcionamento do ar condicionado de precisão. Neste caso, o alarme do equipamento será acionado e o responsável pelo data center será informado, o que pode ser realizado de diferentes formas:
Visualmente ao inspecionar o equipamento a uma ronda
Envio de alerta pelo sistema de monitoramento (Netwatch, Greenview, Supervisório ou DCIM)
Acionado pelo nosso serviço Online
Diagnóstico assertivo
Dado a ciência do incidente, precisamos realizar o diagnóstico para embasar a tomada de decisão. Para ter a construção de um diagnóstico assertivo é importante ter todas as informações como: horário do incidente, registro fotográfico da infraestrutura, entre outros. O objetivo desse diagnóstico é identificar a causa básica para que o equipamento possa voltar a operar em condições regulares.
No caso do exemplo do ar condicionado, será analisado o código do alarme para verificar o que gerou o incidente. Vamos supor que este é referente a uma falha do compressor, o próximo passo é levantar o histórico do equipamento para garantia de que o incidente é isolado e não crônico. Ressaltamos que a tratativa de um incidente isolado é diferente da tratativa de um incidente crônico. No nosso caso, vamos assumir que o histórico foi verificado e o incidente é pontual.
Saiba Mais >