War Rooms, redução de impactos, melhoria das entregas e SRE: Qual a relação?
Uma prática que se destaca é o SRE (Site Reliability Engineering), de ninguém menos que o Google. Este conceito trata com profundidade sobre como tornar as aplicações e a infraestrutura mais confiáveis.

Por Dario Brandão Bestetti*
No contexto de TI, war rooms (ou “salas de guerra”) são espaços físicos ou virtuais criados para resolver incidentes críticos, coordenar projetos complexos ou conduzir esforços de alta prioridade. Esses ambientes são projetados para reunir equipes multidisciplinares e centralizar a comunicação e a tomada de decisões, mas especialmente quando é necessário resolver alguma crise. Porém, mais do que entender o que são, é importante entender como reduzir a necessidade destes cenários, e para isso separamos algumas indicações neste artigo.
Uma das métricas neste contexto é a quantidade de war rooms na TI. Muitas vezes, só se percebe que uma organização possui um excesso de salas de guerra estabelecidas por vias indiretas, como reuniões e contatos de crise entre estas infraestruturas e suas equipes alocadas, e muitas vezes tais equipes não estão disponíveis.
Pode parecer corriqueiro, mas essa é uma métrica muito importante, que revela algum (ou mais de um) problema profundo.
Não me entenda mal: war rooms são excelentes ferramentas para resolução de crises, por permitirem reunir diversos especialistas em uma sala e focar tempo e recursos na resolução do problema. E a verdade é que as crises acontecem, não importa o quão resiliente sejam as aplicações ou a infraestrutura de TI.
Problemas como indisponibilidade, ou mesmo a baixa performance de uma aplicação, tem impacto direto nos negócios: é dinheiro que vai para o ralo, ou até mesmo um impacto permanente sobre a imagem da empresa, quando não as duas coisas juntas, se não houver uma solução rápida.
Ou seja, na ocorrência de algo assim, a war room será muito útil. O problema é quando estas salas têm frequência muito alta, acima de 1 vez por semana, por exemplo. Essa é uma métrica clara de que algo não vai bem na TI, e de que é preciso planejar ações mais profundas para que a equipe não vire um permanente solucionador de crises.
Mas então como perceber se há um excesso de war rooms na empresa, e se isso está trazendo prejuízos ao negócio? Alguns indicadores:
- Indisponibilidade de aplicações que, com frequência, afetam um número grande de clientes. Isso certamente fará com que eles busquem alternativas de produtos ou serviços, e vale lembrar que a internet é implacável com a baixa qualidade. Lembre-se: a concorrência está de olho no seu cliente.
- Dependência de plataformas digitais. Alô, a Transformação Digital já está entre nós, e quanto maior for sua dependência, maior será o prejuízo na imagem da empresa quando os serviços e produtos fornecidos por ela não performarem. Como exemplo, pense no prejuízo do Uber caso os motoristas e usuários da plataforma não consigam se conectar.
- Tempo de profissionais altamente qualificados (e caros) dedicado a tarefas fora de suas funções normais. Meça o quanto isso acontece e veja que eles deveriam estar entregando novos produtos ou features para os clientes, ao invés de ficarem horas tentando encontrar a causa raiz de uma crise. Repare nos profissionais e gestores que estiveram reunidos na última war room realizada na empresa: quanto tempo foi gasto nisso, e quanto isso custou? Esse indicador é fundamental.
- Esta mesma equipe, qualificada e cara, além de não estar focada em suas tarefas normais, acabará se desgastando e a empresa corretá um risco muito grande de perder profissionais para o mercado, pois trabalhar constantemente sob pressão e stress é para poucos e, a médio prazo, traz impactos significativos na saúde de qualquer pessoa.
- Entretanto, eliminar as war rooms não é uma opção: elas são muito úteis e vão continuar a existir. O que é preciso é uma redução das crises e automatização dos processos, de forma que as crises não voltem a se repetir – ao menos aquelas para as quais já houve soluções aplicadas anteriormente.
E O SRE NISSO TUDO?
Avaliado todo esse contexto, uma prática que se destaca é o SRE (Site Reliability Engineering), de ninguém menos que o Google. Este conceito trata com profundidade sobre como tornar as aplicações e a infraestrutura mais confiáveis, com foco na aplicação de ferramentas e metodologias que produzam resultados excelentes.
A introdução da cultura do SRE irá transformar as organizações, trazendo maior confiabilidade para as plataformas digitais, sem impedir a inovação. Traduzindo, as áreas de negócio terão o que tanto precisam, sem tanto desgaste de profissionais na solução urgente de problemas.
A conclusão é que, para quem está constantemente envolvido em war rooms, o momento é de refletir: será que esses cenários não estão sendo, mais do que necessários, excessivos? E a resposta pode estar no SRE. Por isso, fica a dica: analise a possibilidade de introdução desta prática com a equipe de TI.
Dario Brandão Bestetti é CEO da OpServices.