BASELINE COM ZABBIX: MONITORAMENTO COM OBSERVABILIDADE

Motivação

Baseline com zabbix: Em artigos anteriores, falamos sobre ambientes recém implementados e a necessidade de planejar desde o início os cenários que podem ganhar escala junto com seu negócio ou do seu cliente. Também comentamos que monitorar um ambiente de TIC apenas aplicando templates padrões podem induzir administradores a entendimentos errôneos sobre o contexto operacional da organização. É preciso observar antes de apontar um problema. Este artigo trata exatamente esta abordagem, monitorar observando, sem alertar indiscriminadamente qualquer alteração nas métricas coletadas do ambiente. 

Boa leitura!

Baseline 

Baseline é o termo usado para estabelecer um padrão de comportamento. Em nosso caso, um padrão de comportamento em nosso ambiente de TIC. Como assim? Para exemplificar, vamos simplificar! 

Ativo: Servidor de Intranet 

Monitoramento: Tráfego da rede de dados. 

Comportamento: Neste host, o tráfego de dados de entrada e saída variam conforme as atividades dos usuários da empresa, por exemplo, acessando a Intranet em vários momentos do dia, em horário administrativo. 

Cenário 1: Dia normal de trabalho com matérias simples sendo publicadas, informativos.

 

Acima, temos a seguinte leitura: 

No dia 11/11/2019, terça-feira, durante o horário comercial, das 08hs às 18hs, maior tráfego de rede esteve em: 

Incomming = 13.02 Mbps (tendo o valor máximo chegado à 19.47 Mbps) 

Outgoing = 3.09 Mbps 

Vamos tomar este valor como base e vejamos o próximo cenário. 

Cenário 2: Dia normal de trabalho, porém, há uma publicação “bomba” na Intranet e todos querem ver a nova notícia.

Acima, temos a seguinte leitura: 

No dia 11/11/2019, terça-feira, durante o horário comercial, das 08hs às 18hs, maior tráfego de rede esteve em: 

Aplicando novamente um zoom no horário comercial, vemos que as mesmas médias são: 

Incomming = 31.63 Mbps (tendo o valor máximo chegado à 42.07 Mbps) 

Outgoing = 4.64 Mbps 

Leitura analítica inicial: no mesmo dia, 1 mês depois, vimos que o tráfego havia aumentado uma escala aproximada de 300%. Este valor não pode ser considerado normal. O que explica tal tráfego de rede? 

Questão: 

O que é um problema? Para dizermos que há uma anomalia no tráfego de entrada ou saída de nosso servidor de Intranet, devemos tomar como base o cenário em que não há anomalia, ou seja, já temos uma ideia de baseline por termos observado o mesmo servidor em vários momentos diferentes de um dia normal de trabalho, sendo capazes de facilmente identificar quando algo diferente acontece.  

Análise: 

Agora, precisamos de um gráfico único que nos informe os valores atuais, se comparados aos valores de 30 dias atrás. Não teremos, a não ser que criemos um “item calculado” com deslocamento de tempo (timeshift), para nos exibir a informação que desejamos. 

Para construirmos tais itens, vamos idealizar alguns pontos:
 

1- Precisamos do valor atual: para este item no Zabbix, o template padrão de S.O. é capaz de realizar a coleta; 
2- Qual a média do tráfego dos últimos 10 minutos? 
3- Qual a média do tráfego dos últimos 10 minutos, mas há 24hs atrás (deslocamento de tempo, ou timeshift)? 
4- Qual a média do tráfego dos últimos 10 minutos, mas há 7 dias atrás? 
5- Qual a média do tráfego dos últimos 10 minutos, mas há 30 dias atrás? 
6- Qual a média do tráfego dos últimos 10 minutos, mas há 365 dias atrás? 

Vamos construir ao menos 5 itens calculados para responder às questões. 

Construindo os itens calculados: 

2- Média de 10 minutos dos tráfegos de entrada e saída. 

O mesmo para o tráfego de saída:

3- Média de 10 minutos, se comparados à 24 horas passadas. 

As fórmulas seguem as seguintes lógicas: 

avg(“net.if.in[eth0]”,10m,24h) 

avg(“net.if.out[eth0]”,10m,24h) 

4- Média de 10 minutos, há 7 dias atrás. 

avg(“net.if.in[eth0]”,10m,7d) 

avg(“net.if.out[eth0]”,10m,7d) 

5- Média de 10 minutos, há 30 dias atrás. 

avg(“net.if.in[eth0]”,10m,30d) 

avg(“net.if.out[eth0]”,10m,30d) 

6- Média de 10 minutos, há 1 ano atrás. 

avg(“net.if.in[eth0]”,10m,365d) 

avg(“net.if.out[eth0]”,10m,365d) 

Observando  

Criados os itens calculados, temos não apenas nosso monitoramento, como também nosso período de “observabilidade” dos dados coletados para fins estatísticos e avaliações. Ainda é possível criar gráficos e incluir tais itens em regras LLD de nossos templates, facilitando nossa tarefa, padronizando e normatizando nosso procedimento de observação. 

Também é necessário criticar os dados, criando as triggers. Esta tarefa não será descrita aqui por diversos motivos, sendo 2 deles a particularidade de cada negócio e também a abrangência do tema, que será descrito em outro artigo. 

Após a criação de alguns itens calculados, é possível receber um feedback como este:

mensagem é clara. Criamos um item e não temos ainda dados suficientes para observar; logo que os tivermos, o item será ativado e poderemos seguir observando nosso ambiente. 

Em “Monitoring/Latest data”, podemos observar o resultado do item calculado que já temos e no futuro, os próximos:

Quanto ao tráfego de entrada: 

Nossa média de 10 minutos de observação é condizente com o último valor da média atual. Não há anomalias até aqui. 

O mesmo para o tráfego de saída:

No futuro, teremos todos os itens abaixo em pleno funcionamento:

Conclusão 

Podemos criar períodos de observabilidade com base em nossos interesses de monitoramento. 

Por enquanto, nosso olhar clínico usará os dados do Zabbix para fazer a análise. Na versão 5.0 LTS, é previsto que o próprio Zabbix sugira a observação de anomalias com base em dados discrepantes. Vamos ficar de olho e até lá, implementar os itens calculados que podem nos auxiliar na tarefa além dos templates. 

Construa gráficos, telas, altere LLDs e potencialize o uso de seu Zabbix. 

Conheça nossos treinamentos.

Bons estudos!

Paulo R. Deolindo Jr.

Paulo R. Deolindo Jr.

Zabbix Trainer

Graduado em Tecnologia da Informação, Pós-graduado em Produção e Sistemas IFF – Instituto Federal de Educação, Ciência e Tecnologia Fluminense e pós-graduado pela Unisul (PR) no curso de Gestão de Projetos de Tecnologia da Informação. Atua confeccionando e ministrando treinamentos com foco em tecnologias Open Source, como Zabbix, Zimbra, Bacula, Gestão e Segurança em Servidores Linux, dentre outras.

 

  • [2017] – Linux Professional Institude Certified
  • [2014] – Zabbix Certified Professional
  • [2014] – Zabbix Certified Specialist
  • [2013] – Zimbra Collaboration Suite

    Assine a nossa Newsletter!

    Quer saber de próximos treinamentos, notícias, publicações, webinars e também sobre eventos da Unirede? Assine a nossa Newsletter e fique por dentro de todas as novidades.

    Você pode gostar também…

    Integração da API do Zabbix com o Telegram

    Integração da API do Zabbix com o Telegram

    Introdução A API do Zabbix é extremamente versátil, e aliada às diversas funções dessa excelente ferramenta de monitoramento, podemos tornar seu uso ainda mais versátil.  Ao longo deste artigo, pretendo mostrar a utilização de dois Bots desenvolvidos na linguagem...

    Expression Macros no Zabbix

    Expression Macros no Zabbix

    O Zabbix já está em sua versão 6.2 (em dias, na 6.4) e notadamente, sua utilização em grandes ambientes corporativos tem crescido juntamente com a quantidade de funcionalidades trazidas por cada nova release e isso, para os mais variados setores da indústria. Em tais...

    Zabbix como ferramenta de apoio na descoberta de vulnerabilidades

    Zabbix como ferramenta de apoio na descoberta de vulnerabilidades

    çãA utilização da ferramenta opensource Zabbix no dia-a-dia de profissionais de TI é fundamental para garantir a estabilidade de ambientes, obtendo dados de sinais vitais e outras opções. Dentre essas outras opções, conforme necessidade e contexto, é possível...

    0 comentários

    Enviar um comentário

    O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

    Pin It on Pinterest