O novo GPU da Ampere da NVIDIA é um divisor de águas para a inteligência artificial
NVIDIA
Hoje, a NVIDIA anunciou sua nova arquitetura Ampere, juntamente com o novo A100 em que é executado. É uma melhoria significativa em relação a Turing, já uma arquitetura focada em IA que alimenta datacenters de ponta e traçados de raios alimentados por ML no espaço gráfico do consumidor.
Se você deseja obter um resumo completo de todos os detalhes técnicos, pode ler a visão geral detalhada da arquitetura da NVIDIA. Nós estaremos detalhando as coisas mais importantes.
O novo molde é absolutamente maciço
Do portão, eles estão saindo com esse novo chip. A matriz Tesla V100 da última geração foi de 815 mm no nó de processo já maduro de 14 nm da TSMC, com 21,1 bilhões de transistores. Já é bastante grande, mas o A100 envergonha 826 mm nos 7nm da TSMC, um processo muito mais denso e com 54,2 bilhões de transistores. Impressionante para este novo nó.
Esta nova GPU apresenta 19,5 teraflops de desempenho FP32, 6.912 núcleos CUDA, 40 GB de memória e 1,6 TB / s de largura de banda de memória. Em uma carga de trabalho bastante específica (esparsa INT8), o A100 realmente quebra 1 PetaFLOPS de energia bruta de computação. É claro que isso está no INT8, mas ainda assim, o cartão é muito poderoso.
Então, assim como o V100, eles pegaram oito dessas GPUs e criaram um mini supercomputador que eles estão vendendo por US $ 200.000. Você provavelmente os verá chegando a provedores de nuvem como AWS e Google Cloud Platform em breve.
No entanto, ao contrário do V100, este não é um GPU maciço, são 8 GPUs separados que podem ser virtualizados e alugados por conta própria para tarefas diferentes, juntamente com um rendimento de memória 7 vezes maior para bota.
Quanto ao uso de todos esses transistores, o novo chip roda muito mais rápido que o V100. Para treinamento e inferência de IA, o A100 oferece uma aceleração de 6x para FP32, 3x para FP16 e aceleração de 7x em inferência ao usar todas essas GPUs juntas.
NVIDIA
Observe que o V100 marcado no segundo gráfico é o servidor de 8 GPU V100, não um único V100.
A NVIDIA também promete uma aceleração de até 2x em muitas cargas de trabalho HPC:
NVIDIA
Quanto aos números brutos de TFLOPs, o desempenho de precisão dupla do A100 FP64 é de 20 TFLOPs, contra 8 no V100 FP64. Em suma, essas acelerações são uma melhoria geracional real em relação a Turing e são ótimas notícias para a IA e o espaço de aprendizado de máquina.
TensorFloat-32: um novo formato de número otimizado para núcleos tensores
Com o Ampere, a NVIDIA está usando um novo formato de número projetado para substituir o FP32 em algumas cargas de trabalho. Essencialmente, o FP32 usa 8 bits para o intervalo do número (quão grande ou pequeno pode ser) e 23 bits para a precisão.
A alegação da NVIDIA é que esses 23 bits de precisão não são totalmente necessários para muitas cargas de trabalho de IA, e você pode obter resultados semelhantes e um desempenho muito melhor em apenas 10 deles. Esse novo formato é chamado Tensor Float 32 e os Núcleos de Tensor no A100 são otimizados para lidar com isso. Isto é, além do encolhimento dos dados e do aumento da contagem de núcleos, como eles estão obtendo uma enorme aceleração de 6x no treinamento de IA.
NVIDIA
Eles afirmam que os usuários não precisam fazer alterações no código, porque o TF32 é executado apenas na GPU A100. O TF32 opera nas entradas do FP32 e produz resultados no FP32. As operações sem tensor continuam a usar o FP32 ”. Isso significa que deve haver uma queda na substituição de cargas de trabalho que não precisam da precisão adicional.
Comparando o desempenho do FP no V100 com o desempenho do TF no A100, você verá de onde vêm esses aceleramentos massivos. TF32 é até dez vezes mais rápido. É claro que muito disso também se deve ao fato de as outras melhorias no Ampere serem duas vezes mais rápidas em geral, e não é uma comparação direta.
NVIDIA
Eles também introduziram um novo conceito chamado esparsidade estruturada de baixa granularidade, que contribui para o desempenho computacional de redes neurais profundas. Basicamente, certos pesos são menos importantes que outros, e a matemática da matriz pode ser compactada para melhorar o rendimento. Embora jogar dados não pareça uma ótima idéia, eles afirmam que não afetam a precisão da rede treinada para inferir e simplesmente aceleram o processo.
NVIDIA
Nos cálculos do Sparse INT8, o desempenho máximo de um único A100 é de 1250 TFLOPS, um número incrivelmente alto. É claro que você terá dificuldade em encontrar uma carga de trabalho real apenas com o INT8, mas as acelerações são acelerações.
Via: How to Geek
Nenhum comentário