Opinião

Data Lakehouses: entre o avanço e a vulnerabilidade dos dados corporativos

O futuro dos dados pertence às empresas que compreenderem uma lição simples — mas urgente: não há transformação digital sem cyber resiliência.

Por Marcelo Rodrigues*

Unificar o melhor dos dois mundos — a flexibilidade dos data lakes e a governança dos data warehouses — é um desafio complexo. E é justamente esse desafio que os data lakehouses buscam solucionar. Ao integrar, em uma única camada, todos os tipos de dados — estruturados, semiestruturados e não estruturados —, essas arquiteturas permitem que empresas realizem análises avançadas, como Machine Learning (ML) e business intelligence (BI), em seus dados, tudo em uma única plataforma, eliminando gargalos e custos associados à coordenação de sistemas separados.

De acordo com uma pesquisa da empresa de Data Lakehouses, Dremio, mais de 70% dos profissionais de TI e dados acreditam que o data lakehouse será a principal arquitetura de análise nos próximos três anos, pois ao eliminar redundâncias e simplificar o acesso, o modelo oferece eficiência operacional e acelera a inovação em áreas estratégicas, especialmente na Inteligência Artificial (IA). Mas, como toda revolução tecnológica, o avanço dos data lakehouses traz consigo um paradoxo: quanto mais centralizados e integrados os dados, maior o impacto de uma interrupção ou incidente cibernético.

O movimento em direção aos data lakehouses modernos tem um ponto de virada claro: a criação do Apache Iceberg, em 2017. Desenvolvido por engenheiros da Netflix e da Apple, e posteriormente doado à fundação Apache Software Foundation, o projeto nasceu de um problema concreto, segundo informação disponibilizada pela IBM. Ainda segundo dados publicados no portal da empresa, na época a Netflix utilizava o Apache Hive, mas a plataforma não conseguia garantir correção, estabilidade de transações ou governança de tabelas em larga escala.

O resultado? Processos engessados, riscos constantes de inconsistência e uma infraestrutura que não acompanhava a velocidade dos negócios.


A resposta veio com o Iceberg — um formato de tabela de código aberto, escalável e transacional, que permitiu à Netflix processar petabytes de dados e gerenciar mais de um milhão de tabelas com eficiência e segurança lógica. Desde então, gigantes como Apple e Airbnb também confiam nesse modelo, consolidando o Iceberg como um pilar do ecossistema de dados moderno.

Apesar do avanço técnico, há um ponto sensível que ainda expõe as organizações: a proteção e a recuperação dos dados. Os data lakehouses baseados em Iceberg são excelentes para análises e IA, mas frequentemente carecem de mecanismos robustos de cyber resiliencia. Recursos nativos, como snapshots — cópias instantâneas de dados —, são úteis, mas insuficientes. Por estarem vinculados à conta original e não oferecerem isolamento real, continuam vulneráveis a ataques de ransomware, falhas humanas e problemas de conformidade.

Além disso, restaurar dados a partir de backups que não “entendem” o formato Iceberg exige processos manuais e demorados — o que pode transformar minutos de indisponibilidade em horas (ou até dias) de interrupção.

A era da IA

Os dados que alimentam modelos de inteligência artificial e análises avançadas se tornaram o novo ouro corporativo — e, como todo ativo valioso, exigem proteção rigorosa. No entanto, à medida que as organizações expandem seus ambientes de data lakehouse para dar suporte a projetos de IA, também ampliam seus pontos cegos em relação à segurança e à recuperação dessas informações.

Para enfrentar esse desafio, começam a surgir abordagens mais maduras de proteção de dados nativas para data lakehouses, capazes de criar cópias imutáveis e isoladas (air-gapped), automatizar políticas de conformidade e otimizar custos de armazenamento.

Mais que mecanismos de backup, essas estratégias representam um cinto abrangente de segurança digital para empresas que desejam inovar com confiança. Afinal, de nada adianta treinar o modelo de IA mais avançado do mercado se a base de dados que o sustenta, permanece vulnerável a falhas ou ataques.

Outro ponto que torna os data lakehouses uma evolução inevitável é sua contribuição para a eficiência e sustentabilidade. Ao unificar armazenamento e análise, elimina-se a necessidade de múltiplas cópias e infraestruturas redundantes — uma economia que impacta diretamente em custos e questões ambientais.

O data lakehouse é, sem dúvida, um marco na evolução da engenharia de dados. Mas seu verdadeiro sucesso não será medido apenas pela velocidade com que entrega insights, e sim pela capacidade de proteger, recuperar e governar essas informações com a mesma eficiência. O futuro dos dados pertence às empresas que compreenderem uma lição simples — mas urgente: não há transformação digital sem cyber resiliência.

Marcelo Rodrigues é diretor-geral da Commvault Brasil

Botão Voltar ao topo