Nvidia lança novo chip específico para inferência de inteligência artificial
Segundo empresa, processadores combinarão os flops extremos das GPUs e a largura de banda das LPUs em uma só solução.

A Nvidia anunciou oficialmente o lançamento do chip Language Processing Unit (LPU), fruto da semi-aquisição da designer de chips Groq. Batizado de Nvidia Groq 3 LPU, o novo processador promete revolucionar tarefas de inferência de inteligência artificial que exigem latência extremamente baixa, conforme revelou a empresa durante evento para a imprensa especializada.
O anúncio ocorre após um movimento estratégico da gigante dos chips na véspera de Natal, quando a Nvidia desembolsou impressionantes US$ 20 bilhões para licenciar a propriedade intelectual da Groq e contratar sua equipe de liderança, incluindo o CEO e fundador Jonathan Ross, além de outros executivos-chave.
O novo chip estará disponível em racks LPX refrigerados a líquido, uma solução de alto desempenho que integra 256 LPUs. Cada rack conta com 128 GB de SRAM on-chip e impressionantes 640 TBps de largura de banda de escala. A configuração foi projetada especificamente para workloads de inferência de IA que exigem respostas em frações de segundo.
Ian Buck, head da divisão de data center da Nvidia, explicou as diferenças fundamentais entre a nova arquitetura e as tradicionais GPUs da empresa. “Recentemente, licenciamos a propriedade intelectual da Groq, e é interessante contrastar esses dois tipos de processadores”, afirmou Buck. “As GPUs, com sua grande memória, desempenho incrível em ponto flutuante e alta taxa de transferência de tokens, são insuperáveis para treinamento. Mas o LPU é otimizado estritamente para a geração de tokens com latência extremamente baixa, oferecendo taxas na casa dos milhares de tokens por segundo.”
O executivo, no entanto, fez uma ressalva importante sobre a nova tecnologia. “A contrapartida, é claro, é que você precisa de muitos chips para obter esse tipo de desempenho. E a economia, ou os tokens por segundo por chip, é bastante baixa”, ponderou.
De acordo com Buck, a visão da Nvidia é combinar o melhor dos dois mundos. “Esses dois processadores combinarão os flops extremos das GPUs e a largura de banda das LPUs em uma só solução”, projetou, vislumbrando um futuro com sistemas multiagente de IA. “Vamos contrastá-los: uma GPU com seus 288 GB de memória, comparada a apenas 500 MB de SRAM empilhada. O LPU tem apenas um quinhentos avós da capacidade por chip, mas a largura de banda é excepcional, de 22 TB a 150 TB por segundo.”
A Nvidia confirmou que o rack LPX estará disponível na segunda metade deste ano, com lançamento programado para “coincidir com a arquitetura Vera Rubin”, a próxima geração de plataformas da empresa. A expectativa do mercado é que a nova solução acirre ainda mais a competição no setor de chips especializados para IA, dominando nichos específicos que exigem processamento em tempo real, como assistentes virtuais avançados e sistemas autônomos.





