Tecnologia

AMD Instinct MI350P: aceleradora PCIe com 144 GB HBM3E, 600W e até 40% mais rápida que a NVIDIA H200 para inferência de IA

Placa baseada em CDNA 4 traz 128 CUs, 4 TB/s de largura de banda e formatos MXFP para acelerar grandes modelos de linguagem; desafio é atrair desenvolvedores do ecossistema CUDA

A AMD anunciou a Instinct MI350P, sua nova aceleradora de inteligência artificial em formato PCIe direcionada à inferência em servidores refrigerados a ar. Construída sobre a arquitetura CDNA 4 e usando uma abordagem de chiplets (processos de 3 nm e 6 nm), a MI350P entrega especificações pensadas para altas cargas de IA em data centers convencionais.

Design e especificações principais

A MI350P traz 128 Compute Units (CUs) — o equivalente a 8.192 stream processors — e representa exatamente metade da configuração das variantes OAM topo de linha (MI350X e MI355X), que chegam a 256 CUs e 16.384 núcleos. Enquanto os modelos OAM são voltados para módulos de supercomputação, a MI350P adota o formato padrão PCIe que encaixa em servidores já existentes.

Arquitetura: CDNA 4 com design por chiplets (3 nm + 6 nm)
Compute Units: 128 CUs / 8.192 núcleos
Memória: 144 GB HBM3E
Interface de memória: 4.096 bits
Largura de banda teórica: até 4 TB/s
Cache L3: 128 MB com ECC full-chip

Memória, energia e refrigeração

A placa usa 144 GB de HBM3E distribuídos pela interface massiva de 4.096 bits, resultando em pico de 4 TB/s de largura de banda — um ponto crítico para modelos grandes que exigem alto tráfego de memória. O consumo máximo é de 600 W em perfil padrão, entregue por conector 12V-2×6 (compatível com os padrões usados por GPUs desktop da geração recente). Para ambientes com limitações térmicas ou de entrega de energia, há um modo configurável de 450 W.

Apesar do TDP elevado, a MI350P foi projetada para operar com refrigeração passiva em servidores rack convencionais, permitindo adoção sem a necessidade de infraestruturas OAM ou resfriamento líquido em muitos casos.

Desempenho em IA: formatos MXFP e esparsidade

Os Matrix Cores do chip suportam formatos de precisão reduzida MXFP6 e MXFP4, criados para acelerar inferência de grandes modelos de linguagem (LLMs) com menor custo de memória e maior velocidade. Em MXFP4, a AMD anuncia até 4,6 PFLOPS de desempenho de matriz. A placa também explora esparsidade estruturada, técnica que ignora zeros nos cálculos e pode dobrar a eficiência em certas cargas de IA.

A MI350P permite o escalonamento por meio de agrupamento: até oito unidades podem ser combinadas em um único sistema para aumentar a capacidade computacional conforme a necessidade do projeto.

Comparação com a concorrência e ecossistema

Segundo os números teóricos divulgados pela AMD, a MI350P supera a PCIe H200 NVL da NVIDIA em diversas métricas: cerca de 20% a mais em FP64, 43% em FP16 e 39% em FP8. A empresa destaca ainda que, até o momento, a NVIDIA não oferece uma versão PCIe das GPUs Blackwell B200 com HBM, o que posiciona a MI350P como a opção PCIe com memória HBM mais avançada disponível.

O principal obstáculo para adoção é o ecossistema de desenvolvimento. A maior parte dos frameworks e otimizações está centrada no CUDA da NVIDIA; a AMD aposta no crescimento do ROCm e afirmou durante a CES 2026 que investirá para reduzir a distância entre os dois mundos e atrair desenvolvedores e integradores.

Com especificações robustas voltadas para inferência em data centers comuns, a MI350P surge como uma alternativa de alto desempenho para quem busca maior densidade de memória e largura de banda no formato PCIe. Resta ver a aceitação do mercado, especialmente por equipes já investidas em ferramentas e bibliotecas otimizadas para GPUs concorrentes.

Fontes: divulgação AMD, análises técnicas e reportagens especializadas.