Roadmap em Observabilidade: Por onde começar?
Por onde começar os estudos em Observabilidade?
Você não está só! Este artigo é uma orientação baseada em minha jornada para quem vem começando.
PASSO 1: Observabilidade não começa pela ferramenta
Sim, a meta é quebrar sua expectativa! Apesar de empresas já terem focos definidos, isso vem depois. Na maioria delas a ferramenta com o tempo também muda. Mas como buscar a informação e o que fazer com ela, é o que você precisa consolidar e praticar por ser cultural.
Cultural? (Você deve ter se perguntado) Sim, processos são culturais, regras de segurança e novas aplicações seguindo as regras de negócio. é em cima disso que o Devops, SRE, Dev, suporte atuam com observabilidade e se criam os meios de coletar, autenticar, liberar e correlacionar.
Outro ponto que você deve saber(!), apesar de observabilidade possuir cargos de analista e afins. É uma especialidade pertencente a todos os cargos e deve ser uma responsabilidade compartilhada. A diferença é o referencial que cada um vai ter dentro do seu quadrado. Otimização de código? Disponibilidade? Qualidade de implantações? Controle e segurança?
SRE e DevOps lideram mais a complexidade quando se tornam especialistas porque eles direcionam a comunicação assim como a maioria das soluções construindo automações e melhorias na infraestrutura com um olhar macro.
Mas, é uma cultura crescente de todos os cargos pois todos precisam falar a mesma lingua para evoluir os processos (ou pelo menos deveriam).
Ferramentas ≠ observabilidade
Tenho alguns artigos aqui eu aprofundam essa diferença, principalemnte relacionada ao negócio.
PASSO 2: O erro clássico: começar coletando tudo
Sugestão? Você precisa entender a cultura e moldar a observabilidade ás necessidades fazendo alguns levantamentos iniciais pra abrir as suas possibilidades de atuação.
1. O que significa “funcionar bem” ou o que é “crítico” nesse sistema?
Liste os pontos que precisam ou não tem visibilidade, partindo desse ponto focal você conseguirá entender e puxar o restante da cadeia envolvida.
2. Como o problema aparece para quem usa?
Nem todo erro vira exceção ou tela vermelha.
3. Quem precisa agir quando algo dá errado?
-
É o desenvolvedor?
-
É o time de infraestrutura?
-
É o suporte?
-
É alguém do negócio?
Uma ordem saudável para quem está começando:
-
Fundamentos e Telemetria (A Base): Quais formas de monitorar itens ou melhor método? Legado ou atual?
-
Entender como sistemas funcionam: Entender as funcionalidades para analisar qual o melhor método de coleta
-
Aprender a pensar em falhas e comportamento: quais alertas criar, quem deve receber, se estão gerando MTTR. Levantar SLIs, SLOs e SLAs.
-
Estudar métricas, logs e traces conceitualmente: Como dar contexto nas instrumentações, PII, filtrar logs, criar pipelines, mascarar dados sensíveis, estratégias de autenticação e fazer uma coleta limpa.
-
Só então escolher ferramentas para praticar: Qual ferramenta resolveria maior parte das suas necessidades e o custo disso?
Quando você chegar na ferramenta, ela vai fazer sentido.
PASSO 3: Referências que te ajudarão a apronfundar a cultura:
-
“Observability Engineering” (Charity Majors, Liz Fong-Jones e George Miranda): É o livro mais atual e definitivo sobre o tema. Foca muito em cultura e em como lidar com sistemas complexos.
-
“Site Reliability Engineering (SRE)” (Google): Onde os “Golden Signals” foram popularizados. Essencial para entender a parte operacional.
-
“Distributed Systems Observability” (Cindy Sridharan): Um guia excelente (e curto) sobre como os três pilares se conectam na prática.
PASSO 4: E assim vem aí os 5 mandamentos da Observabilidade (hahaha)
-
Não adorarás apenas os dashboards: Um gráfico bonito sem uma ação clara é apenas arte. Observabilidade deve gerar resposta.
-
Instrumentarás desde o dia zero: A observabilidade não é um “puxadinho” para colocar depois que o código está pronto; ela nasce com o código.
-
Honrarás a cardinalidade: Não adicione labels infinitos às suas métricas, ou a conta da nuvem será seu maior pesadelo.
-
Não matarás a equipe com alertas inúteis: Se um alerta dispara e ninguém precisa acordar para resolver, ele deveria ser apenas um log.
-
A observabilidade é para todos: Do desenvolvedor ao PO, todos devem conseguir ler e entender a saúde do produto.