AMD Instinct MI300X e Aceleradores MI300A AI detalhados: CDNA 3 & Zen 4 se reúne em uma maravilha de embalagem avançada

AMD Instinct MI300X e Aceleradores MI300A AI detalhados: CDNA 3 & Zen 4 se reúne em uma maravilha de embalagem avançada

O AMD Instinct MI300X & MI300A são alguns dos aceleradores mais esperados no segmento de IA que serão lançados no próximo mês. Há muita expectativa em torno da primeira obra-prima completa de IA da AMD e hoje pensamos em dar a você um resumo do que esperar desta maravilha técnica.

AMD Instinct MI300X foi projetado para cargas de trabalho de IA aceleradas por GPU, enquanto MI300A aborda HPC com o pacote APU mais tecnicamente avançado

No dia 6 de dezembro, a AMD realizará seu keynote “Advancing AI” onde uma das principais agendas é fazer uma revelação completa da família de aceleradores Instinct de última geração, codinome MI300. Esta nova família acelerada por GPU e CPU será o principal produto do segmento de IA, que é o número 1 da AMD e a prioridade estratégica mais importante no momento, pois finalmente lança um produto que não é apenas avançado, mas também projetado para atender aos requisitos críticos de IA do setor. A classe MI300 de aceleradores de IA será outra potência de chips, fazendo uso de tecnologias de empacotamento avançadas da TSMC, então vamos ver o que está por trás desses monstros de IA.

AMD Instinct MI300X – Desafiando a supremacia de IA da NVIDIA com CDNA 3 & Memória enorme

O AMD Instinct MI300X é definitivamente o chip que mais terá destaque, pois é claramente direcionado aos aceleradores Hopper da NVIDIA e Gaudi da Intel no segmento de IA. Este chip foi projetado exclusivamente na arquitetura CDNA 3 e há muita coisa acontecendo. O chip hospedará uma combinação de IPs de 5 nm e 6 nm, todos combinados para fornecer até 153 bilhões de transistores (MI300X).

AMD Instinct MI300X e Aceleradores MI300A AI detalhados: CDNA 3 & Zen 4 se reúne em uma embalagem avançada Marvel 2
Acelerador AMD Instinct MI300X.

Começando com o design, o intermediário principal é disposto com uma matriz passiva que abriga a camada de interconexão usando uma solução Infinity Fabric de última geração. O intermediário inclui um total de 28 matrizes que incluem oito pacotes HBM3, 16 matrizes fictícias entre os pacotes HBM e 16 matrizes falsas entre os pacotes HBM. quatro matrizes ativas e cada uma dessas matrizes ativas recebe duas matrizes de computação.

Cada GCD baseado na arquitetura de GPU CDNA 3 apresenta um total de 40 unidades de computação, o que equivale a 2.560 núcleos. Existem oito matrizes de computação (GCDs) no total, o que nos dá um total de 320 matrizes de computação e dados. 20.480 unidades principais. Para rendimentos, a AMD reduzirá uma pequena parte desses núcleos e obteremos mais detalhes sobre as configurações exatas daqui a um mês.

AMD Instinct MI300X e Aceleradores MI300A AI detalhados: CDNA 3 & Zen 4 vem junto em uma embalagem avançada Marvel 4
Acelerador AMD Instinct MI300X com matrizes CDNA 3.

A memória é outra área onde você verá uma grande atualização com o MI300X ostentando 50% mais capacidade HBM3 do que seu antecessor, o MI250X (128 GB). Para atingir um pool de memória de 192 GB, a AMD está equipando o MI300X com 8 pilhas HBM3 e cada pilha é de 12-Hi, ao mesmo tempo que incorpora ICs de 16 Gb, o que nos dá 2 GB de capacidade por IC ou 24 GB por pilha. A memória oferecerá até 5,2 TB/s de largura de banda e 896 GB/s de largura de banda Infinity Fabric. Para efeito de comparação, o próximo acelerador H200 AI da NVIDIA oferece capacidades de 141 GB enquanto Gaudi 3 da Intel oferecerá 144 GB < /span>capacidades. Grandes pools de memória são muito importantes em LLMs, que são em sua maioria vinculados à memória, e a AMD pode definitivamente mostrar sua habilidade em IA liderando o departamento de memória.

232328650_instinct_mi300a_exploded_view_01-custom232328650_instinct_mi300x_exploded_view_01-custom232328650_instinct_mi300a_exploded_view_02-custom232328650_instinct_mi300x_exploded_view_02-custom232328650_instinct_mi300a_cross_section_angle_01-custom232328650_instinct_mi300x_cross_section_angle_01-custom232328650_instinct_mi300a_exploded_view_03-custom232328650_instinct_mi300x_exploded_view_03-custom

Em termos de consumo de energia, o AMD Instinct MI300X é avaliado em 750W, o que representa um aumento de 50% em relação aos 500W do Instinct MI250X e 50W a mais que o NVIDIA H200.

AMD Instinct MI300A – APUs Exascale densamente empacotadas agora uma realidade

Esperamos durante anos que a AMD finalmente cumprisse a promessa de uma APU da classe Exascale e o dia se aproxima à medida que nos aproximamos do lançamento do Instinct MI300A. A embalagem do MI300A é muito semelhante à do MI300X, exceto que utiliza capacidades de memória e recursos otimizados para TCO. Zen 4 núcleos.

AMD Instinct MI300X e Aceleradores MI300A AI detalhados: CDNA 3 & Zen 4 se reúne em uma embalagem avançada Marvel 3
Acelerador AMD Instinct MI300A.

Uma das matrizes ativas tem dois GCDs CDNA 3 cortados e substituídos por três CCDs Zen 4 que oferecem seu próprio conjunto separado de cache e IPs principais. Você obtém 8 núcleos e 16 threads por CCD, totalizando 24 núcleos e 48 threads na matriz ativa. Há também 24 MB de cache L2 (1 MB por núcleo) e um pool separado de cache (32 MB por CCD). Deve-se lembrar que os GCDs CDNA 3 também possuem o cache L2 separado.

AMD Instinct MI300X e Aceleradores MI300A AI detalhados: CDNA 3 & Zen 4 vem junto em uma embalagem avançada Marvel 5
Acelerador AMD Instinct MI300A com CDNA 3 e amp; Zen 4 morre.

Resumindo alguns dos recursos destacados dos aceleradores AMD Instinct MI300, temos:

  • Primeiro pacote integrado de CPU+GPU
  • Visando o mercado de supercomputadores Exascale
  • AMD MI300A (CPU + GPU integrada)
  • AMD MI300X (somente GPU)
  • 153 bilhões de transistores
  • Até 24 núcleos Zen 4
  • Arquitetura de GPU CDNA 3
  • Até 192 GB de memória HBM3
  • Até 8 chips + 8 pilhas de memória (processo 5nm + 6nm)

Reunindo tudo isso, a AMD trabalhará com seus facilitadores e parceiros de ecossistema para oferecer aceleradores MI300 AI em configurações de 8 vias com designs SXM que se conectam à placa-mãe com conectores mezanino. Será interessante ver em que tipo de configurações elas serão oferecidas e, embora as placas SXM sejam um dado adquirido, também podemos esperar algumas variantes nos formatos PCI-E.

amd-instinct-mi300-ai-aceleradores-servidores-_2amd-instinct-mi300-ai-aceleradores-servidores-_1amd-instinct-mi300-ai-aceleradores-servidores-_4amd-instinct-mi300-ai-aceleradores-servidores-_5amd-instinct-mi300-ai-aceleradores-servidores-_3

Por enquanto, a AMD deve saber que seus concorrentes também estão avançando a todo vapor na mania da IA, com a NVIDIA já divulgando alguns números enormes para suas GPUs Blackwell 2024 e a Intel preparando suas GPUs Guadi 3 e Falcon Shores para lançamento também nos próximos anos. Uma coisa é certa no momento atual: os clientes de IA engolirão quase tudo que puderem e todos tirarão vantagem disso. Mas a AMD tem uma solução formidável que não pretende apenas ser uma alternativa à NVIDIA, mas também uma líder no segmento de IA e esperamos que o MI300 possa ajudá-los a alcançar esse sucesso.

Aceleradores AMD Radeon Instinct

Nome do acelerador AMD Instinto MI400 AMD Instinto MI300 AMD Instinto MI250X AMD Instinto MI250 AMD Instinto MI210 AMD Instinto MI100 AMD Radeon Instinto MI60 AMD Radeon Instinto MI50 AMD Radeon Instinto MI25 AMD Radeon Instinto MI8 AMD Radeon Instinto MI6
Arquitetura de CPU Zen 5 (APU Exaescala) Zen 4 (APU Exaescala) N / D N / D N / D N / D N / D N / D N / D N / D N / D
Arquitetura GPU ADN4 Aqua Vanjaram (CDNA 3) Aldebarã (CDNA 2) Aldebarã (CDNA 2) Aldebarã (CDNA 2) Arcturus (CDNA 1) Vega 20 Vega 20 Vega 10 Fiji XT Polaris 10
Nó de processo GPU 4 nm 5nm+6nm 6nm 6nm 6nm FinFET de 7nm FinFET de 7nm FinFET de 7nm FinFET de 14nm 28 nm FinFET de 14nm
Chiplets GPU A definir 8 (MCM) 2 (MCM)
1 (por dado)
2 (MCM)
1 (por dado)
2 (MCM)
1 (por dado)
1 (monolítico) 1 (monolítico) 1 (monolítico) 1 (monolítico) 1 (monolítico) 1 (monolítico)
Núcleos de GPU A definir Até 19.456 14.080 13.312 6656 7680 4096 3840 4096 4096 2304
Velocidade do clock da GPU A definir A definir 1700MHz 1700MHz 1700MHz 1500MHz 1800MHz 1725MHz 1500MHz 1000MHz 1237MHz
Computação FP16 A definir A definir 383 TOPs 362 TOPs 181 melhores 185 TFLOPs 29,5 TFLOPs 26,5 TFLOPs 24,6 TFLOPs 8.2 TFLOPs 5.7 TFLOPs
Computação FP32 A definir A definir 95,7 TFLOPs 90,5 TFLOPs 45.3 TFLOPs 23.1 TFLOPs 14.7 TFLOPs 13.3 TFLOPs 12.3 TFLOPs 8.2 TFLOPs 5.7 TFLOPs
Computação FP64 A definir A definir 47,9 TFLOPs 45.3 TFLOPs 22.6 TFLOPs 11.5 TFLOPs 7.4 TFLOPs 6.6 TFLOPs 768 GFLOPs 512 GFLOPs 384 GFLOPs
VRAM A definir HBM3 de 192 GB 128GB HBM2e 128GB HBM2e 64GB HBM2e 32GB HBM2 32GB HBM2 16GB HBM2 16GB HBM2 4GB HBM1 16GB GDDR5
Relógio de memória A definir 5,2Gb/s 3,2Gb/s 3,2Gb/s 3,2Gb/s 1200MHz 1000MHz 1000MHz 945 MHz 500MHz 1750MHz
Barramento de memória A definir 8192 bits 8192 bits 8192 bits 4096 bits Barramento de 4096 bits Barramento de 4096 bits Barramento de 4096 bits Barramento de 2048 bits Barramento de 4096 bits Barramento de 256 bits
Largura de banda de memória A definir 5,2 TB/s 3,2 TB/s 3,2 TB/s 1,6 TB/s 1,23 TB/s 1TB/s 1TB/s 484GB/s 512GB/s 224GB/s
Fator de forma A definir OAM OAM OAM Cartão de slot duplo Slot duplo, comprimento total Slot duplo, comprimento total Slot duplo, comprimento total Slot duplo, comprimento total Slot duplo, meio comprimento Slot único, comprimento total
Resfriamento A definir Resfriamento Passivo Resfriamento Passivo Resfriamento Passivo Resfriamento Passivo Resfriamento Passivo Resfriamento Passivo Resfriamento Passivo Resfriamento Passivo Resfriamento Passivo Resfriamento Passivo
TDP (máx.) A definir 750 W 560W 500 W 300 W 300 W 300 W 300 W 300 W 175W 150W

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *