AMD Instinct MI300X e Aceleradores MI300A AI detalhados: CDNA 3 & Zen 4 se reúne em uma maravilha de embalagem avançada
O AMD Instinct MI300X & MI300A são alguns dos aceleradores mais esperados no segmento de IA que serão lançados no próximo mês. Há muita expectativa em torno da primeira obra-prima completa de IA da AMD e hoje pensamos em dar a você um resumo do que esperar desta maravilha técnica.
AMD Instinct MI300X foi projetado para cargas de trabalho de IA aceleradas por GPU, enquanto MI300A aborda HPC com o pacote APU mais tecnicamente avançado
No dia 6 de dezembro, a AMD realizará seu keynote “Advancing AI” onde uma das principais agendas é fazer uma revelação completa da família de aceleradores Instinct de última geração, codinome MI300. Esta nova família acelerada por GPU e CPU será o principal produto do segmento de IA, que é o número 1 da AMD e a prioridade estratégica mais importante no momento, pois finalmente lança um produto que não é apenas avançado, mas também projetado para atender aos requisitos críticos de IA do setor. A classe MI300 de aceleradores de IA será outra potência de chips, fazendo uso de tecnologias de empacotamento avançadas da TSMC, então vamos ver o que está por trás desses monstros de IA.
AMD Instinct MI300X – Desafiando a supremacia de IA da NVIDIA com CDNA 3 & Memória enorme
O AMD Instinct MI300X é definitivamente o chip que mais terá destaque, pois é claramente direcionado aos aceleradores Hopper da NVIDIA e Gaudi da Intel no segmento de IA. Este chip foi projetado exclusivamente na arquitetura CDNA 3 e há muita coisa acontecendo. O chip hospedará uma combinação de IPs de 5 nm e 6 nm, todos combinados para fornecer até 153 bilhões de transistores (MI300X).
Começando com o design, o intermediário principal é disposto com uma matriz passiva que abriga a camada de interconexão usando uma solução Infinity Fabric de última geração. O intermediário inclui um total de 28 matrizes que incluem oito pacotes HBM3, 16 matrizes fictícias entre os pacotes HBM e 16 matrizes falsas entre os pacotes HBM. quatro matrizes ativas e cada uma dessas matrizes ativas recebe duas matrizes de computação.
Cada GCD baseado na arquitetura de GPU CDNA 3 apresenta um total de 40 unidades de computação, o que equivale a 2.560 núcleos. Existem oito matrizes de computação (GCDs) no total, o que nos dá um total de 320 matrizes de computação e dados. 20.480 unidades principais. Para rendimentos, a AMD reduzirá uma pequena parte desses núcleos e obteremos mais detalhes sobre as configurações exatas daqui a um mês.
A memória é outra área onde você verá uma grande atualização com o MI300X ostentando 50% mais capacidade HBM3 do que seu antecessor, o MI250X (128 GB). Para atingir um pool de memória de 192 GB, a AMD está equipando o MI300X com 8 pilhas HBM3 e cada pilha é de 12-Hi, ao mesmo tempo que incorpora ICs de 16 Gb, o que nos dá 2 GB de capacidade por IC ou 24 GB por pilha. A memória oferecerá até 5,2 TB/s de largura de banda e 896 GB/s de largura de banda Infinity Fabric. Para efeito de comparação, o próximo acelerador H200 AI da NVIDIA oferece capacidades de 141 GB enquanto Gaudi 3 da Intel oferecerá 144 GB < /span>capacidades. Grandes pools de memória são muito importantes em LLMs, que são em sua maioria vinculados à memória, e a AMD pode definitivamente mostrar sua habilidade em IA liderando o departamento de memória.
Em termos de consumo de energia, o AMD Instinct MI300X é avaliado em 750W, o que representa um aumento de 50% em relação aos 500W do Instinct MI250X e 50W a mais que o NVIDIA H200.
AMD Instinct MI300A – APUs Exascale densamente empacotadas agora uma realidade
Esperamos durante anos que a AMD finalmente cumprisse a promessa de uma APU da classe Exascale e o dia se aproxima à medida que nos aproximamos do lançamento do Instinct MI300A. A embalagem do MI300A é muito semelhante à do MI300X, exceto que utiliza capacidades de memória e recursos otimizados para TCO. Zen 4 núcleos.
Uma das matrizes ativas tem dois GCDs CDNA 3 cortados e substituídos por três CCDs Zen 4 que oferecem seu próprio conjunto separado de cache e IPs principais. Você obtém 8 núcleos e 16 threads por CCD, totalizando 24 núcleos e 48 threads na matriz ativa. Há também 24 MB de cache L2 (1 MB por núcleo) e um pool separado de cache (32 MB por CCD). Deve-se lembrar que os GCDs CDNA 3 também possuem o cache L2 separado.
Resumindo alguns dos recursos destacados dos aceleradores AMD Instinct MI300, temos:
- Primeiro pacote integrado de CPU+GPU
- Visando o mercado de supercomputadores Exascale
- AMD MI300A (CPU + GPU integrada)
- AMD MI300X (somente GPU)
- 153 bilhões de transistores
- Até 24 núcleos Zen 4
- Arquitetura de GPU CDNA 3
- Até 192 GB de memória HBM3
- Até 8 chips + 8 pilhas de memória (processo 5nm + 6nm)
Reunindo tudo isso, a AMD trabalhará com seus facilitadores e parceiros de ecossistema para oferecer aceleradores MI300 AI em configurações de 8 vias com designs SXM que se conectam à placa-mãe com conectores mezanino. Será interessante ver em que tipo de configurações elas serão oferecidas e, embora as placas SXM sejam um dado adquirido, também podemos esperar algumas variantes nos formatos PCI-E.
Por enquanto, a AMD deve saber que seus concorrentes também estão avançando a todo vapor na mania da IA, com a NVIDIA já divulgando alguns números enormes para suas GPUs Blackwell 2024 e a Intel preparando suas GPUs Guadi 3 e Falcon Shores para lançamento também nos próximos anos. Uma coisa é certa no momento atual: os clientes de IA engolirão quase tudo que puderem e todos tirarão vantagem disso. Mas a AMD tem uma solução formidável que não pretende apenas ser uma alternativa à NVIDIA, mas também uma líder no segmento de IA e esperamos que o MI300 possa ajudá-los a alcançar esse sucesso.
Aceleradores AMD Radeon Instinct
Nome do acelerador | AMD Instinto MI400 | AMD Instinto MI300 | AMD Instinto MI250X | AMD Instinto MI250 | AMD Instinto MI210 | AMD Instinto MI100 | AMD Radeon Instinto MI60 | AMD Radeon Instinto MI50 | AMD Radeon Instinto MI25 | AMD Radeon Instinto MI8 | AMD Radeon Instinto MI6 |
---|---|---|---|---|---|---|---|---|---|---|---|
Arquitetura de CPU | Zen 5 (APU Exaescala) | Zen 4 (APU Exaescala) | N / D | N / D | N / D | N / D | N / D | N / D | N / D | N / D | N / D |
Arquitetura GPU | ADN4 | Aqua Vanjaram (CDNA 3) | Aldebarã (CDNA 2) | Aldebarã (CDNA 2) | Aldebarã (CDNA 2) | Arcturus (CDNA 1) | Vega 20 | Vega 20 | Vega 10 | Fiji XT | Polaris 10 |
Nó de processo GPU | 4 nm | 5nm+6nm | 6nm | 6nm | 6nm | FinFET de 7nm | FinFET de 7nm | FinFET de 7nm | FinFET de 14nm | 28 nm | FinFET de 14nm |
Chiplets GPU | A definir | 8 (MCM) | 2 (MCM) 1 (por dado) |
2 (MCM) 1 (por dado) |
2 (MCM) 1 (por dado) |
1 (monolítico) | 1 (monolítico) | 1 (monolítico) | 1 (monolítico) | 1 (monolítico) | 1 (monolítico) |
Núcleos de GPU | A definir | Até 19.456 | 14.080 | 13.312 | 6656 | 7680 | 4096 | 3840 | 4096 | 4096 | 2304 |
Velocidade do clock da GPU | A definir | A definir | 1700MHz | 1700MHz | 1700MHz | 1500MHz | 1800MHz | 1725MHz | 1500MHz | 1000MHz | 1237MHz |
Computação FP16 | A definir | A definir | 383 TOPs | 362 TOPs | 181 melhores | 185 TFLOPs | 29,5 TFLOPs | 26,5 TFLOPs | 24,6 TFLOPs | 8.2 TFLOPs | 5.7 TFLOPs |
Computação FP32 | A definir | A definir | 95,7 TFLOPs | 90,5 TFLOPs | 45.3 TFLOPs | 23.1 TFLOPs | 14.7 TFLOPs | 13.3 TFLOPs | 12.3 TFLOPs | 8.2 TFLOPs | 5.7 TFLOPs |
Computação FP64 | A definir | A definir | 47,9 TFLOPs | 45.3 TFLOPs | 22.6 TFLOPs | 11.5 TFLOPs | 7.4 TFLOPs | 6.6 TFLOPs | 768 GFLOPs | 512 GFLOPs | 384 GFLOPs |
VRAM | A definir | HBM3 de 192 GB | 128GB HBM2e | 128GB HBM2e | 64GB HBM2e | 32GB HBM2 | 32GB HBM2 | 16GB HBM2 | 16GB HBM2 | 4GB HBM1 | 16GB GDDR5 |
Relógio de memória | A definir | 5,2Gb/s | 3,2Gb/s | 3,2Gb/s | 3,2Gb/s | 1200MHz | 1000MHz | 1000MHz | 945 MHz | 500MHz | 1750MHz |
Barramento de memória | A definir | 8192 bits | 8192 bits | 8192 bits | 4096 bits | Barramento de 4096 bits | Barramento de 4096 bits | Barramento de 4096 bits | Barramento de 2048 bits | Barramento de 4096 bits | Barramento de 256 bits |
Largura de banda de memória | A definir | 5,2 TB/s | 3,2 TB/s | 3,2 TB/s | 1,6 TB/s | 1,23 TB/s | 1TB/s | 1TB/s | 484GB/s | 512GB/s | 224GB/s |
Fator de forma | A definir | OAM | OAM | OAM | Cartão de slot duplo | Slot duplo, comprimento total | Slot duplo, comprimento total | Slot duplo, comprimento total | Slot duplo, comprimento total | Slot duplo, meio comprimento | Slot único, comprimento total |
Resfriamento | A definir | Resfriamento Passivo | Resfriamento Passivo | Resfriamento Passivo | Resfriamento Passivo | Resfriamento Passivo | Resfriamento Passivo | Resfriamento Passivo | Resfriamento Passivo | Resfriamento Passivo | Resfriamento Passivo |
TDP (máx.) | A definir | 750 W | 560W | 500 W | 300 W | 300 W | 300 W | 300 W | 300 W | 175W | 150W |
Deixe um comentário