NVIDIA Apresenta Supercomputador de IA Vera Rubin POD com 40 Racks para Cargas de Trabalho Agênticas
Iris Coleman 16 de mar. de 2026 19:48
A NVIDIA anuncia o Vera Rubin POD com 1.152 GPUs em 40 racks, oferecendo 60 exaflops e desempenho de inferência 10x melhor por watt do que o Blackwell.
A NVIDIA acabou de divulgar as especificações da sua aposta mais ambiciosa em infraestrutura de IA até agora. O Vera Rubin POD integra 1.152 GPUs Rubin em 40 racks, oferecendo 60 exaflops de poder computacional e 10 petabytes por segundo de largura de banda total de escalonamento. As unidades de produção serão enviadas no segundo semestre de 2026.
Os números aqui são impressionantes: 1,2 quatrilhões de transístores, quase 20.000 chips NVIDIA, todos projetados para funcionar como um único supercomputador coerente. A NVIDIA afirma um desempenho de treino 4x melhor e desempenho de inferência 10x melhor por watt em comparação com a sua atual arquitetura Blackwell — com os custos de tokens a cair para um décimo dos níveis atuais.
Cinco sistemas de rack desenvolvidos para fins específicos
O POD combina cinco sistemas distintos em escala de rack, cada um visando estrangulamentos específicos nas cargas de trabalho de IA modernas:
Vera Rubin NVL72 serve como o motor de computação central. Cada rack integra 72 GPUs Rubin e 36 CPUs Vera conectadas através do NVLink 6, que oferece 3,6 TB/s de largura de banda por GPU — mais largura de banda total do que toda a Internet global, segundo a NVIDIA. O sistema visa todas as quatro leis de escalonamento de IA: pré-treino, pós-treino, escalonamento em tempo de teste e escalonamento agêntico.
Racks Groq 3 LPX abordam o problema de latência. Com 256 unidades de processamento de linguagem por rack usando arquitetura exclusivamente SRAM, estes emparelham com o NVL72 para oferecer o que a NVIDIA afirma ser 35x mais tokens e 10x mais oportunidade de receita para modelos de trilião de parâmetros versus Blackwell.
Racks Vera CPU fornecem ambientes sandbox para teste de agentes. Um único rack sustenta mais de 22.500 ambientes de aprendizagem por reforço simultâneos — críticos para validar saídas de IA agênticas antes da implementação.
Racks BlueField-4 STX introduzem o que a NVIDIA chama de "armazenamento nativo de IA" através da plataforma de memória de contexto CMX. Ao descarregar a cache KV para armazenamento dedicado de alta largura de banda, o sistema afirma 5x mais tokens por segundo e eficiência energética 5x melhor do que as abordagens tradicionais.
Racks de rede Spectrum-6 SPX ligam tudo com switches de 102,4 Tb/s com ótica coempacotada.
O argumento da economia de tokens
A NVIDIA enquadra isto numa realidade de mercado específica: o consumo de tokens excede agora 10 quatriliões anualmente, e a mudança das interações humano-IA para IA-IA acelerará esse crescimento dramaticamente. Os sistemas agênticos modernos geram volumes massivos de tokens de raciocínio enquanto expandem os requisitos de cache KV — exatamente o estrangulamento que esta arquitetura visa.
Os benchmarks InferenceMax da SemiAnalysis de terceiros citados pela NVIDIA mostram que os sistemas Blackwell atuais já oferecem desempenho 50x melhor por watt e custo 35x menor por token em comparação com o H200. O Vera Rubin visa estender essa liderança.
Engenharia térmica e de energia
A arquitetura de rack MGX de terceira geração introduz o Intelligent Power Smoothing com 6x mais armazenamento de energia ao nível do rack (400 joules por GPU) do que as gerações anteriores. Isto reduz as exigências de corrente de pico em até 25% e elimina a necessidade de pacotes de baterias massivos.
Todos os racks operam a temperaturas de entrada de água quente de 45°C, permitindo que centros de dados em muitos climas usem arrefecimento por ar ambiente. A NVIDIA afirma que isto liberta energia suficiente para adicionar 10% mais racks no mesmo orçamento de energia da instalação.
Perspetivas futuras
Para além da configuração inicial do POD, a NVIDIA apresentou uma prévia do Vera Rubin Ultra NVL576 escalonando para 576 GPUs em oito racks, e a arquitetura Kyber de próxima geração visando NVL1152 com 144 GPUs por rack. O roteiro sugere que a NVIDIA vê domínios NVLink multi-rack como o futuro da infraestrutura de IA — não apenas GPUs maiores, mas arquiteturas de sistema fundamentalmente diferentes.
Para empresas que planeiam investimentos em infraestrutura de IA, a mensagem é clara: a economia da computação de IA está a mudar da otimização ao nível do chip para a otimização ao nível da instalação. Aqueles que estão a construir centros de dados enfrentam agora uma escolha entre sistemas de geração atual e esperar pela disponibilidade do Vera Rubin no final de 2026.
Fonte da imagem: Shutterstock- nvidia
- infraestrutura de ia
- vera rubin
- centros de dados
- ia empresarial


