GPUs NVIDIA da série RTX 3000: aqui estão as novidades
NVIDIA
Em 1º de setembro de 2020, a NVIDIA revelou sua nova linha de GPUs para jogos: a série RTX 3000, baseada em sua arquitetura Ampere. Discutiremos o que há de novo, o software com tecnologia de IA que o acompanha e todos os detalhes que tornam essa geração realmente incrível.
Conheça as GPUs da série RTX 3000
NVIDIA
O principal anúncio da NVIDIA foi suas novas GPUs, todas construídas em um processo de fabricação de 8 nm personalizado, e todas trazendo grandes acelerações no desempenho de rasterização e rastreamento de raio.
Na extremidade inferior da lista, está o RTX 3070, que custa US $ 499. É um pouco caro para a placa mais barata revelada pela NVIDIA no anúncio inicial, mas é um roubo absoluto, uma vez que você descobre que supera a existente RTX 2080 Ti, uma placa de ponta que regularmente é vendida por mais de $ 1400. No entanto, após o anúncio da NVIDIA, o preço de venda de terceiros caiu, com um grande número deles sendo vendidos no eBay por menos de US $ 600.
Não há benchmarks sólidos desde o anúncio, portanto, não está claro se o cartão é realmente objetivamente “ melhor ” do que um 2080 Ti, ou se a NVIDIA está torcendo um pouco o marketing. Os benchmarks sendo executados estavam em 4K e provavelmente tinham RTX ativado, o que pode fazer a lacuna parecer maior do que em jogos puramente rasterizados, já que a série 3000 baseada em Ampere terá um desempenho duas vezes melhor em traçado de raios do que Turing. Mas, com o traçado de raio agora sendo algo que não prejudica muito o desempenho e sendo compatível com a última geração de consoles, é um grande ponto de venda tê-lo funcionando tão rápido quanto o carro-chefe da última geração por quase um terço do preço.
Também não está claro se o preço permanecerá assim. Projetos de terceiros regularmente adicionam pelo menos US $ 50 ao preço e, com a alta demanda provável, não será surpreendente vê-lo sendo vendido por US $ 600 em outubro de 2020.
Logo acima disso está o RTX 3080 por US $ 699, que deve ser duas vezes mais rápido que o RTX 2080 e chegar cerca de 25-30% mais rápido do que o 3080.
Então, na extremidade superior, o novo carro-chefe é o RTX 3090, que é comicamente enorme. A NVIDIA está ciente disso e é chamada de “ BFGPU, ” que a empresa diz significar “ GPU Big Ferocious. ”
NVIDIA
A NVIDIA não exibiu nenhuma métrica direta de desempenho, mas a empresa a mostrou rodando jogos de 8K a 60 FPS, o que é realmente impressionante. Certo, a NVIDIA quase certamente está usando DLSS para atingir essa marca, mas jogos de 8K são jogos de 8K.
Claro, eventualmente haverá um 3060 e outras variações de cartões mais orientados para o orçamento, mas esses geralmente aparecem mais tarde.
Para realmente esfriar as coisas, a NVIDIA precisava de um design de cooler renovado. O 3080 é avaliado para 320 watts, o que é bastante alto, então a NVIDIA optou por um design de ventoinha dupla, mas ao invés de ambas as ventoinhas vwinf colocadas na parte inferior, a NVIDIA colocou uma ventoinha na extremidade superior onde a placa traseira normalmente vai. A ventoinha direciona o ar para cima, em direção ao cooler da CPU e à parte superior do gabinete.
NVIDIA
A julgar por quanto o desempenho pode ser afetado por fluxo de ar ruim em um gabinete, isso faz todo o sentido. No entanto, a placa de circuito é muito apertada por causa disso, o que provavelmente afetará os preços de venda de terceiros.
DLSS: uma vantagem de software
O rastreamento de raio não é o único benefício desses novos cartões. Na verdade, é tudo meio que um hack — as séries RTX 2000 e 3000 não são muito melhores no rastreamento de raios real, em comparação com as gerações anteriores de placas. O rastreamento de uma cena completa em um software 3D como o Blender geralmente leva alguns segundos ou até minutos por quadro, então forçar bruta em menos de 10 milissegundos está fora de questão.
Claro, há hardware dedicado para executar cálculos de raio, chamados de núcleos RT, mas principalmente, a NVIDIA optou por uma abordagem diferente. A NVIDIA melhorou os algoritmos de eliminação de ruído, que permitem às GPUs renderizar uma única passagem muito barata que parece terrível e, de alguma forma, "por meio da magia da IA", transformar isso em algo que um jogador deseja ver. Quando combinado com técnicas tradicionais baseadas em rasterização, torna-se uma experiência agradável aprimorada por efeitos de traçado de raio.
NVIDIA
No entanto, para fazer isso rapidamente, a NVIDIA adicionou núcleos de processamento específicos de AI chamados núcleos Tensor. Eles processam toda a matemática necessária para executar modelos de aprendizado de máquina e muito rapidamente. Eles são uma virada de jogo total para a IA no espaço do servidor em nuvem, já que a IA é amplamente usada por muitas empresas.
Além da remoção de ruído, o principal uso dos núcleos Tensor para jogadores é chamado de DLSS, ou superamostragem de aprendizado profundo. Ele pega um quadro de baixa qualidade e o aprimora para uma qualidade totalmente nativa. Basicamente, isso significa que você pode jogar com taxas de quadros de nível 1080p, enquanto observa uma imagem em 4K.
Isso também ajuda bastante com o desempenho do ray-tracing — benchmarks do PCMag mostram um RTX 2080 Super Running Control com qualidade ultra, com todas as configurações do ray-tracing no máximo. Em 4K, ele luta com apenas 19 FPS, mas com o DLSS ativado, consegue 54 FPS muito melhores. DLSS é um desempenho gratuito para NVIDIA, possibilitado pelos núcleos Tensor em Turing e Ampere. Qualquer jogo que ofereça suporte e seja limitado pela GPU pode ter grandes acelerações apenas com o software sozinho.
O DLSS não é novo e foi anunciado como um recurso quando a série RTX 2000 foi lançada há dois anos. Na época, ele era compatível com poucos jogos, já que exigia que a NVIDIA treinasse e ajustasse um modelo de aprendizado de máquina para cada jogo individual.
No entanto, naquele tempo, a NVIDIA o reescreveu completamente, chamando a nova versão de DLSS 2.0. É uma API de propósito geral, o que significa que qualquer desenvolvedor pode implementá-la, e já está sendo adotada pela maioria dos lançamentos principais. Em vez de trabalhar em um quadro, ele obtém dados do vetor de movimento do quadro anterior, de forma semelhante ao TAA. O resultado é muito mais nítido do que DLSS 1.0 e, em alguns casos, realmente parece melhor e mais nítido do que a resolução nativa, então não há muitos motivos para não ativá-lo.
Há um problema — ao alternar totalmente as cenas, como nas cenas, o DLSS 2.0 deve renderizar o primeiro quadro com qualidade de 50% enquanto espera os dados do vetor de movimento. Isso pode resultar em uma pequena queda na qualidade por alguns milissegundos. Mas, 99% de tudo que você olha será renderizado corretamente, e a maioria das pessoas não percebe isso na prática.
RELACIONADO: o que é NVIDIA DLSS e como tornará o rastreamento de raios mais rápido?
Arquitetura Ampere: Construída para AI
Ampere é rápido. Sério rápido, especialmente em cálculos de IA. O núcleo RT é 1,7x mais rápido do que Turing e o novo núcleo Tensor é 2,7x mais rápido do que Turing. A combinação dos dois é um verdadeiro salto de geração no desempenho do raytracing.
NVIDIA
No início de maio, a NVIDIA lançou a GPU Ampere A100, uma GPU de data center projetada para executar IA. Com ele, eles detalharam muito do que torna o Ampere tão mais rápido. Para data centers e cargas de trabalho de computação de alto desempenho, o Ampere é em geral cerca de 1,7 vezes mais rápido do que o Turing. Para treinamento de IA, é até 6 vezes mais rápido.
NVIDIA
Com o Ampere, a NVIDIA está usando um novo formato de número projetado para substituir o padrão da indústria “ Floating-Point 32, ” ou FP32, em algumas cargas de trabalho. Nos bastidores, cada número que o seu computador processa ocupa um número predefinido de bits na memória, seja 8 bits, 16 bits, 32, 64 ou até maior. Números maiores são mais difíceis de processar, portanto, se você puder usar um tamanho menor, terá menos para processar.
FP32 armazena um número decimal de 32 bits e usa 8 bits para o intervalo do número (quão grande ou pequeno pode ser) e 23 bits para a precisão. A afirmação da NVIDIA é que esses 23 bits de precisão não são totalmente necessários para muitas cargas de trabalho de IA e você pode obter resultados semelhantes e desempenho muito melhor com apenas 10 deles. Reduzir o tamanho para apenas 19 bits, em vez de 32, faz uma grande diferença em muitos cálculos.
Este novo formato é chamado Tensor Float 32, e os Tensor Cores no A100 são otimizados para lidar com o formato de tamanho estranho. Isso é, além das reduções de dados e dos aumentos de contagem de núcleos, como eles estão obtendo uma enorme aceleração de 6x no treinamento de IA.
NVIDIA
Além do novo formato de número, o Ampere está vendo grandes acelerações de desempenho em cálculos específicos, como FP32 e FP64. Isso não se traduz diretamente em mais FPS para o leigo, mas é parte do que o torna quase três vezes mais rápido no geral nas operações do Tensor.
NVIDIA
Então, para acelerar ainda mais os cálculos, eles introduziram o conceito de dispersão estruturada de baixa granularidade, que é uma palavra muito sofisticada para um conceito bastante simples. As redes neurais funcionam com grandes listas de números, chamadas de pesos, que afetam a saída final. Quanto mais números processar, mais lento será.
No entanto, nem todos esses números são realmente úteis. Alguns deles são literalmente apenas zero e podem basicamente ser jogados fora, o que leva a acelerações massivas quando você pode processar mais números ao mesmo tempo. A dispersão essencialmente comprime os números, o que exige menos esforço para fazer cálculos. O novo “ Sparse Tensor Core ” é construído para operar em dados compactados.
Apesar das mudanças, a NVIDIA diz que isso não deve afetar de forma perceptível a precisão dos modelos treinados.
NVIDIA
Para cálculos Sparse INT8, um dos menores formatos de número, o desempenho máximo de uma única GPU A100 é de mais de 1,25 PetaFLOPs, um número assustadoramente alto. Claro, isso ocorre apenas quando se analisa um tipo específico de número, mas mesmo assim é impressionante.
Nenhum comentário