Áú»¢¶Ä²©

3 Escalonamento

Vis?o geral

Com o recurso de escalonamento voc¨º pode criar cen¨¢rios personalizados de quando enviar uma mensagem ou executar um comando remoto.

Situa??es comuns de utiliza??o:

  • Usu¨¢rios precisam ser informados sobre novos incidentes imediatamente
  • Notifica??es precisam ser reenviadas enquanto o incidente n?o for resolvido
  • O envio de uma notifica??o precisa ser atrasado
  • As notifica??es precisam ser escalonadas para um grupo mais especializado
  • Comandos remotos podem ser executados imediatamente, entretanto, s¨® ¨¦ desejada a execu??o autom¨¢tica se o incidente n?o for resolvido em determinado tempo
  • Mensagens de recupera??o precisam ser enviadas

A??es s?o escaladas usando os passos de escalonamento. Cada passo pode ter sua pr¨®pria dura??o.

Voc¨º pode definir tanto a dura??o padr?o quanto a dura??o de um passo em espec¨ªfico, o tempo m¨ªnimo em ambos os casos ¨¦ de 60 segundos.

A a??o pode come?ar com uma opera??o simples de envio de notifica??o ou execu??o de comando remoto. O primeiro passo ¨¦ para a??es imediatas, se voc¨º precisa atrasar a opera??o, atribua a ela um n¨²mero de passo superior ao 1. Para cada passo diferentes opera??es podem ser definidas.

N?o existe limite de passos de escalonamento.

O escalonamento ¨¦ definido durante a configura??o das opera??es.

Aspectos diversos sobre escalonamento

Vamos considerar que uma mesma a??o contenha diversos passos de escalonamento para diferentes situa??es.

Situa??o Comportamento
O host em quest?o entra em manuten??o ap¨®s a notifica??o do in¨ªcio do incidente ser enviada Todos os escalonamentos restantes ser?o executados. O processo de manuten??o programada n?o para as opera??es, afeta somente o in¨ªcio / fim das a??es e se uma a??o j¨¢ est¨¢ em execu??o ela n?o ser¨¢ afetada pela manuten??o.
O Intervalo definido na condi??o da a??o termina ap¨®s a notifica??o inicial ser enviada Todos os passos subsequentes de escalonamento s?o executados. A condi??o de Intervalo n?o termina com as opera??es; esta condi??o afeta o in¨ªcio das a??es, n?o das opera??es.
Um incidente inicia durante um per¨ªodo de manuten??o e continua como n?o solucionado ap¨®s o final da manuten??o Todos os passos de escalonamento s?o executados a partir do momento final da manuten??o.
Um problema inicia durante um per¨ªodo de manuten??o sem coleta de dados e continua como n?o resolvido ap¨®s a manuten??o terminar Ser¨¢ necess¨¢rio aguardar que a trigger seja disparada, antes que os processos de escalonamento sejam executados.
Diferentes escalonamentos com estreita sucess?o e sobreposi??o A execu??o de cada novo escalonamento substitui o anterior, mas pelo menos um passo de escalonamento sempre ser¨¢ executado no escalonamento anterior. Este comportamento ¨¦ relevante em a??es sobre eventos que s?o criados em todas as mudan?as para o estado de incidente em triggers.
Uma a??o ¨¦ desabilitada durante o processo de escalonamento (durante o processo de envio de mensagem por exemplo) A mensagem atual e a pr¨®xima mensagem do escalonamento ainda ser?o enviadas. A mensagem seguinte ter¨¢ o seguinte texto no in¨ªcio do corpo: NOTE: Escalation cancelled: action '<Action name>' disabled. Isso ocorre para que o destinat¨¢rio saiba o motivo pelo qual o escalonamento n?o ser¨¢ executado.

Exemplos de escalonamento

Exemplo 1

Enviando uma notifica??o repetida a cada 30 minutos (at¨¦ um m¨¢ximo de 5) para o grupo 'MySQL Administrators':

  • Na aba Opera??es, defina a Dura??o padr?o do passo da opera??o para '1800' segundos (30 minutos)
  • Defina os passos do escalonamento de '1' ate '5'
  • Selecione o grupo 'MySQL Administrators' como destinat¨¢rio da mensagem

Nofifica??es ser?o enviadas, contando a partir do momento que o incidente inicia, ¨¤s 00:00, 0:30, 1:00, 1:30, 2:00 horas (a n?o sere que o incidente seja resolvido antes).

Se o problema for resolvido e uma mensagem de recupera??o for configurada, esta ser¨¢ enviada a todos que receberam pelo menos uma das mensagens do escalonamento.

Se a trigger que gerou o escalonamento for desabilitada, o Áú»¢¶Ä²© enviar¨¢ uma mensagem sobre isso para todos que j¨¢ receberam alguma notifica??o.

Exemplo 2

Enviando uma notifica??o com atraso, informando um longo per¨ªodo de problema:

  • Na aba de Opera??es, defina a Dura??o padr?o do passo da opera??o para '36000' segundos (10 horas)
  • Defina os passos do escalonamento de '2' ate '2'

A notifica??o ir¨¢ aguardar at¨¦ que o cen¨¢rio 2 ocorra (neste caso 10 horas ap¨®s o in¨ªcio do incidente).

Voc¨º pode customizar esta mensagem, por exemplo, para algo como: 'O incidente j¨¢ ocorre a mais de 10 horas'.

Exemplo 3

Escalando o problema para o chefe.

No primeiro exemplo acima n¨®s configuramos o envio peri¨®dico de mensagens para o grupo 'MySQL administrators'. Agora vamos configurar para que os Administradores recebam quatro mensagens de notifica??o antes do problema ser escalado para o gerente de bancos de dados. Observe que o gerente s¨® receber¨¢ a mensagem se o problema n?o tiver sido reconhecido tamb¨¦m (o que indica, teoricamente, que ningu¨¦m est¨¢ tratando o incidente).

Observe o uso da macro {ESC.HISTORY} na mensagem, ela conter¨¢ informa??es sobre todos os passos que j¨¢ ocorreram. Neste caso as notifica??es enviadas e os comandos executados.

Exemplo 4

Um cen¨¢rio mais complexo. Ap¨®s m¨²ltiplas mensagens ao grupo 'MySQL administrators' e ter escalado o problema ao gerente, o Áú»¢¶Ä²© ir¨¢ tentar reiniciar o banco de dados MySQL. Isso ir¨¢ ocorrer se o problema j¨¢ existir a mais de 2:30 horas e n?o tiver sido reconhecido.

Se o problema ainda existir, ap¨®s outros 30 minutos, o Áú»¢¶Ä²© ir¨¢ enviar uma mensagem para todos os usu¨¢rios convidados.

Se isso n?o ajudar, ap¨®s outra hora, o Áú»¢¶Ä²© ir¨¢ reiniciar o servidor com o banco MySQL (um segundo comando) usando o protocolo IPMI.

Exemplo 5

Um escalonamento com diversas opera??es associadas a um passo e dura??es diferentes. A opera??o padr?o ¨¦ de 30 minutos.

As notifica??es ser?o enviadas conforme descrito a seguir:

  • Para o grupo 'MySQL administrators' ¨¤s 0:00, 0:30, 1:00, 1:30 ap¨®s o problema come?ar
  • Para o grupo 'Database manager' ¨¤s 2:00 e 2:10 (n?o ¨¤s 3:00; vendo que os passos 5 e 6 se sobrep?e com a pr¨®xima opera??o, a menor dura??o de passo configurada ¨¦ de 600 segundos e por isso o passo corrente teve o passo sobreposto)
  • Para o grupo 'Áú»¢¶Ä²© administrators' ¨¤s 2:00, 2:10, 2:20 ap¨®s o problema iniciar (a dura??o customizada de 600 segundos funcionou)
  • Para o grupo 'Convidados' 4:00 horas ap¨®s o problema iniciar (a dura??o padr?o de 30 minutos retornando entre os passos 8 e 11)