CUDA

CUDA
AutoresIan Buck
John Nickolls
DesenvolvedorNvidia
Lançamento estável
13.2.0[1]Edit this on Wikidata / 9 março 2026}
Escrito emC
Sistema
operacional
Windows, Linux
PlataformaGPUs suportadas
TipoGPGPU
LicençaProprietária
Websitedeveloper.nvidia.com/cuda-zone Editar isso no Wikidata

CUDA (Compute Unified Device Architecture) é uma plataforma de computação paralela proprietária[3] e interface de programação de aplicações (API) desenvolvida pela empresa de tecnologia americana Nvidia que permite que software utilize certos tipos de unidades de processamento gráfico (GPUs) para processamento de propósito geral acelerado, ampliando significativamente sua utilidade em computação científica e de alto desempenho. A CUDA foi criada pela Nvidia a partir de 2004 e foi oficialmente lançada em 2007.[4] Quando foi introduzida pela primeira vez, o nome era um acrônimo para Compute Unified Device Architecture,[5] mas a Nvidia posteriormente abandonou o uso comum do acrônimo e raramente o expande atualmente.[6]

CUDA é tanto uma camada de software que gerencia dados, dando acesso direto à GPU e CPU conforme necessário, quanto uma biblioteca de APIs que permitem computação paralela para várias necessidades.[7][8] Além de drivers e kernels de tempo de execução, a plataforma CUDA inclui compiladores, bibliotecas e ferramentas de desenvolvedor para ajudar programadores a acelerar suas aplicações.

CUDA é escrita na linguagem de programação C, mas é projetada para funcionar com uma ampla gama de outras linguagens de programação, incluindo C++, Fortran, Python e Julia. Essa acessibilidade torna mais fácil para especialistas em programação paralela usar recursos de GPU, em contraste com APIs anteriores como Direct3D e OpenGL, que exigem habilidades avançadas em programação gráfica.[9] GPUs com CUDA também suportam frameworks de programação como OpenMP, OpenACC e OpenCL.[10][7]

Antecedentes

A unidade de processamento gráfico (GPU), como um processador de computador especializado, atende às demandas de tarefas intensivas de computação de gráficos 3D de alta resolução em tempo real. Em 2012, as GPUs evoluíram para sistemas multi-core altamente paralelos permitindo a manipulação eficiente de grandes blocos de dados. Este design é mais eficaz do que unidades centrais de processamento (CPUs) de propósito geral para algoritmos em situações onde o processamento de grandes blocos de dados é feito em paralelo, como:

As origens da CUDA remontam ao início dos anos 2000, quando Ian Buck, um estudante de doutorado em ciência da computação na Universidade Stanford, começou a experimentar o uso de GPUs para fins além da renderização de gráficos. Buck tornou-se interessado em GPUs durante seus estudos de graduação na Universidade de Princeton, inicialmente através de jogos eletrônicos. Após a formatura, ele estagiou na Nvidia, ganhando maior exposição à arquitetura de GPU. Em Stanford, ele construiu um equipamento de jogos 8K usando 32 placas gráficas GeForce, originalmente para testar os limites do desempenho gráfico em jogos como Quake e Doom. No entanto, seus interesses mudaram para explorar o potencial das GPUs para computação paralela de propósito geral.[11]

Para esse fim, Buck desenvolveu Brook, uma linguagem de programação projetada para permitir computação de propósito geral em GPUs. Seu trabalho atraiu apoio tanto da Nvidia quanto da Agência de Projetos de Pesquisa Avançada de Defesa (DARPA). Em 2004, a Nvidia contratou Buck e o emparelhou com John Nickolls,[12] diretor de arquitetura da empresa para computação em GPU. Juntos, eles começaram a transformar Brook no que se tornaria a CUDA.[11] A CUDA foi oficialmente lançada pela Nvidia em 2007.

Sob a liderança do CEO da Nvidia, Jensen Huang, a CUDA tornou-se central para a estratégia da empresa de posicionar GPUs como hardware versátil para aplicações científicas. Em 2015, o desenvolvimento da CUDA focou cada vez mais na aceleração de aprendizado de máquina e cargas de trabalho de redes neurais artificiais.[13]

Ontologia

A tabela a seguir oferece uma descrição não exata para a ontologia da estrutura CUDA.

A ontologia da estrutura CUDA
memória
(hardware)
memória (código, ou escopo de variável) computação
(hardware)
computação
(sintaxe de código)
computação
(semântica de código)
RAM variáveis não-CUDA host programa uma chamada de rotina
VRAM,
cache L2 da GPU
global, const, textura dispositivo grade chamada simultânea da mesma sub-rotina em muitos processadores
Cache L1 da GPU local, compartilhada SM ("multiprocessador de fluxo") bloco chamada de sub-rotina individual
warp = 32 threads instruções SIMD
Cache L0 da GPU,
registrador
thread (também conhecido como "SP", "processador de fluxo", "núcleo cuda", mas esses nomes agora são obsoletos) análogo a operações escalares individuais dentro de uma operação vetorial

Capacidades de programação

Exemplo de fluxo de processamento CUDA
  1. Copiar dados da memória principal para a memória da GPU
  2. CPU inicia o núcleo de computação da GPU
  3. Núcleos CUDA da GPU executam o núcleo em paralelo
  4. Copiar os dados resultantes da memória da GPU para a memória principal

A plataforma CUDA é acessível a desenvolvedores de software através de bibliotecas aceleradas por CUDA, diretivas de compilador como OpenACC, e extensões para linguagens de programação padrão da indústria, incluindo C, C++, Fortran e Python. Programadores C/C++ podem usar 'CUDA C/C++', compilado para PTX com nvcc (compilador C/C++ baseado em LLVM da Nvidia)[14] ou pelo próprio clang.[15] Programadores Fortran podem usar 'CUDA Fortran', compilado com o compilador PGI CUDA Fortran da The Portland Group. Programadores Python podem usar a biblioteca cuPyNumeric para acelerar aplicações em GPUs Nvidia.

Além de bibliotecas, diretivas de compilador, CUDA C/C++ e CUDA Fortran, a plataforma CUDA suporta outras interfaces computacionais, incluindo OpenCL do Khronos Group,[16] DirectCompute da Microsoft, OpenGL Compute Shader e C++ AMP.[17] Wrappers de terceiros também estão disponíveis para Python, Perl, Fortran, Java, Ruby, Lua, Common Lisp, Haskell, R, MATLAB, IDL, Julia, e suporte nativo em Mathematica.

Na indústria de jogos de computador, as GPUs são usadas para renderização gráfica e para cálculos de física de jogos (efeitos físicos como detritos, fumaça, fogo, fluidos); exemplos incluem PhysX e Bullet. CUDA também tem sido usada para acelerar aplicações não gráficas em biologia computacional, criptografia e outros campos por uma ordem de magnitude ou mais.[18][19][20][21][22]

CUDA fornece tanto uma API de baixo nível (API Driver CUDA, não single-source) quanto uma API de nível superior (API Runtime CUDA, single-source). O SDK inicial do CUDA foi tornado público em 15 de fevereiro de 2007, para Microsoft Windows e Linux. O suporte para Mac OS X foi adicionado posteriormente na versão 2.0,[23] que substituiu a versão beta lançada em 14 de fevereiro de 2008.[24] CUDA funciona com todas as GPUs Nvidia da série G8x em diante, incluindo as linhas GeForce, Quadro e Tesla. CUDA é compatível com a maioria dos sistemas operacionais padrão.

CUDA 8.0 vem com as seguintes bibliotecas (para compilação e tempo de execução, em ordem alfabética):

  • cuBLAS – biblioteca de sub-rotinas básicas de álgebra linear CUDA
  • CUDART – biblioteca de tempo de execução CUDA
  • cuFFT – biblioteca de transformada rápida de Fourier CUDA
  • cuRAND – biblioteca de geração de números aleatórios CUDA
  • cuSOLVER – coleção baseada em CUDA de solucionadores diretos densos e esparsos
  • cuSPARSE – biblioteca de matriz esparsa CUDA
  • NPP – biblioteca de primitivas de desempenho NVIDIA
  • nvGRAPH – biblioteca de análise de grafos NVIDIA
  • NVML – biblioteca de gerenciamento NVIDIA
  • NVRTC – biblioteca de compilação de tempo de execução NVIDIA para CUDA C++

CUDA 8.0 vem com estes outros componentes de software:

  • nView – software de gerenciamento de desktop NVIDIA nView
  • NVWMI – kit de ferramentas de gerenciamento empresarial NVIDIA
  • GameWorks PhysX – é um mecanismo de física de jogos multiplataforma

CUDA 9.0–9.2 vem com estes outros componentes:

  • CUTLASS 1.0 – algoritmos de álgebra linear personalizados,
  • NVIDIA Video Decoder foi descontinuado no CUDA 9.2; agora está disponível no NVIDIA Video Codec SDK

CUDA 10 vem com estes outros componentes:

  • nvJPEG – processamento JPEG híbrido (CPU e GPU)

CUDA 11.0–11.8 vem com estes outros componentes:[25][26][27][28]

  • CUB é uma das novas bibliotecas C++ mais suportadas
  • suporte MIG para GPU de múltiplas instâncias
  • nvJPEG2000 – codificador e decodificador JPEG 2000

Vantagens

CUDA tem várias vantagens sobre a computação de propósito geral tradicional em GPUs (GPGPU) usando APIs gráficas:

  • Leituras dispersas – código pode ler de endereços arbitrários na memória
  • Memória virtual unificada (CUDA 4.0 e superior)
  • Memória unificada (CUDA 6.0 e superior)
  • Memória compartilhada – CUDA expõe uma região de memória compartilhada rápida que pode ser compartilhada entre threads. Isso pode ser usado como um cache gerenciado pelo usuário, permitindo maior largura de banda do que é possível usando buscas de textura.[29]
  • Downloads e leituras de volta mais rápidos para e da GPU
  • Suporte total para operações inteiras e bit a bit, incluindo buscas de textura inteira

Limitações

  • Seja para o computador host ou para o dispositivo GPU, todo o código-fonte CUDA agora é processado de acordo com as regras de sintaxe C++.[30] Este nem sempre foi o caso. Versões anteriores do CUDA eram baseadas em regras de sintaxe C.[31] Como no caso mais geral de compilar código C com um compilador C++, é possível que código-fonte CUDA antigo no estilo C não compile ou não se comporte como originalmente pretendido.
  • A interoperabilidade com linguagens de renderização como OpenGL é unidirecional, com OpenGL tendo acesso à memória CUDA registrada, mas o CUDA não tendo acesso à memória OpenGL.
  • Copiar entre memória host e dispositivo pode incorrer em uma perda de desempenho devido à largura de banda e latência do barramento do sistema (isso pode ser parcialmente aliviado com transferências de memória assíncronas, tratadas pelo mecanismo DMA da GPU).
  • Os threads devem ser executados em grupos de pelo menos 32 para melhor desempenho, com o número total de threads na casa dos milhares. Ramos no código do programa não afetam significativamente o desempenho, desde que cada um dos 32 threads siga o mesmo caminho de execução; o modelo de execução SIMD torna-se uma limitação significativa para qualquer tarefa inerentemente divergente (por exemplo, percorrer uma estrutura de dados de particionamento espacial durante ray tracing).
  • Nenhuma emulação ou funcionalidade de fallback está disponível para revisões modernas.
  • C++ válido pode às vezes ser sinalizado e impedir a compilação devido à maneira como o compilador aborda a otimização para limitações do dispositivo GPU alvo.[carece de fontes?]
  • As informações de tipo de tempo de execução (RTTI) do C++ e o tratamento de exceções no estilo C++ são suportados apenas em código host, não em código de dispositivo.
  • Em precisão simples em dispositivos CUDA de primeira geração com capacidade de computação 1.x, números denormais não são suportados e são, em vez disso, zerados, e a precisão das operações de divisão e raiz quadrada é ligeiramente inferior à matemática de precisão simples compatível com IEEE 754. Dispositivos que suportam capacidade de computação 2.0 e superior suportam números denormais, e as operações de divisão e raiz quadrada são compatíveis com IEEE 754 por padrão. No entanto, os usuários podem obter a matemática mais rápida do nível de jogos dos dispositivos de capacidade de computação 1.x, se desejado, definindo flags do compilador para desabilitar divisões precisas e raízes quadradas precisas, e habilitar o zeramento de números denormais.[32]
  • Ao contrário do OpenCL, GPUs com CUDA estão disponíveis apenas na Nvidia, pois é proprietário.[33][3] Tentativas de implementar CUDA em outras GPUs incluem:
    • Projeto Coriander: Converte código-fonte CUDA C++11 para OpenCL 1.2 C. Um fork do CUDA-on-CL destinado a executar TensorFlow.[34][35][36]
    • CU2CL: Converte CUDA 3.2 C++ para OpenCL C.[37]
    • GPUOpen HIP: Uma fina camada de abstração sobre CUDA e ROCm destinada a GPUs AMD e Nvidia. Tem uma ferramenta de conversão para importar código-fonte CUDA C++. Suporta CUDA 4.0 mais C++11 e float16.
    • ZLUDA é um substituto direto para CUDA em GPUs AMD e anteriormente GPUs Intel com desempenho próximo ao nativo.[38] O desenvolvedor, Andrzej Janik, foi contratado separadamente pela Intel e AMD para desenvolver o software em 2021 e 2022, respectivamente. No entanto, nenhuma das empresas decidiu lançá-lo oficialmente devido à falta de um caso de uso comercial. O contrato da AMD incluía uma cláusula que permitia a Janik lançar seu código para a AMD independentemente, permitindo-lhe lançar a nova versão que suporta apenas GPUs AMD.[39]
    • ChipStar pode compilar e executar programas CUDA/HIP em plataformas OpenCL 3.0 ou Level Zero avançadas.[40]
    • SCALE é um kit de ferramentas de programação compatível com CUDA para compilação antecipada de código-fonte CUDA em GPUs AMD, visando expandir o suporte para outras GPUs no futuro.[41]

Exemplo

Este código de exemplo em C++ carrega uma textura de uma imagem em uma matriz na GPU:

texture<float, 2, cudaReadModeElementType> tex;

void foo() {
    cudaArray* cu_array;

    // Alocar matriz
    cudaChannelFormatDesc description = cudaCreateChannelDesc<float>();
    cudaMallocArray(&cu_array, &description, width, height);

    // Copiar dados da imagem para a matriz
    cudaMemcpyToArray(cu_array, image, width*height*sizeof(float), cudaMemcpyHostToDevice);

    // Definir parâmetros de textura (padrão)
    tex.addressMode[0] = cudaAddressModeClamp;
    tex.addressMode[1] = cudaAddressModeClamp;
    tex.filterMode = cudaFilterModePoint;
    tex.normalized = false; // não normalizar coordenadas

    // Vincular a matriz à textura
    cudaBindTextureToArray(tex, cu_array);

    // Executar kernel
    dim3 blockDim(16, 16, 1);
    dim3 gridDim((width + blockDim.x - 1)/ blockDim.x, (height + blockDim.y - 1) / blockDim.y, 1);
    kernel<<< gridDim, blockDim, 0 >>>(d_data, height, width);

    // Desvincular a matriz da textura
    cudaUnbindTexture(tex);
}

__global__ void kernel(float* odata, int height, int width) {
    unsigned int x = blockIdx.x*blockDim.x + threadIdx.x;
    unsigned int y = blockIdx.y*blockDim.y + threadIdx.y;
    if (x < width && y < height) {
        float c = tex2D(tex, x, y);
        odata[y*width+x] = c;
    }
}

Abaixo está um exemplo dado em Python que calcula o produto de duas matrizes na GPU. As ligações não oficiais da linguagem Python podem ser obtidas do PyCUDA.[42]

import numpy
import pycuda.autoinit

from numpy.typing import NDArray, float32
from pycuda.compiler import SourceModule
from pycuda.driver import Function, In, Out

mod: SourceModule = SourceModule(
    """
__global__ void multiply_them(float* dest, float* a, float* b) {
    const int i = threadIdx.x;
    dest[i] = a[i] * b[i];
}
"""
)

multiply_them: Function = mod.get_function("multiply_them")

a: NDArray[float32] = numpy.random.randn(400).astype(numpy.float32)
b: NDArray[float32] = numpy.random.randn(400).astype(numpy.float32)

dest: NDArray[float32] = numpy.zeros_like(a)
multiply_them(Out(dest), In(a), In(b), block=(400, 1, 1))

print(dest - a * b)

Ligações adicionais em Python para simplificar operações de multiplicação de matrizes podem ser encontradas no programa pycublas.[43]

 
import numpy

from pycublas import CUBLASMatrix

A: CUBLASMatrix = CUBLASMatrix(numpy.mat([[1, 2, 3], [4, 5, 6]], numpy.float32))
B: CUBLASMatrix = CUBLASMatrix(numpy.mat([[2, 3], [4, 5], [6, 7]], numpy.float32))
C: CUBLASMatrix = A * B
print(C.np_mat())

enquanto CuPy substitui diretamente o NumPy:[44]

import cupy

from cupy.typing import NDArray, float64

a: NDArray[float64] = cupy.random.randn(400)
b: NDArray[float64] = cupy.random.randn(400)

dest: NDArray[float64] = cupy.zeros_like(a)

print(dest - a * b)

GPUs suportadas

Nota sobre notação: a capacidade de computação X.Y também é escrita SMXY ou sm_xy (por exemplo, 10.3 como SM103 ou sm_103) no software profissional da Nvidia e no código que a Nvidia contribuiu para o LLVM.[45]

Abaixo está uma tabela das capacidades de computação CUDA suportadas com base na versão do SDK CUDA e microarquitetura, listadas por nome de código:

Nota: CUDA SDK 10.2 é o último lançamento oficial para macOS, pois o suporte não estará disponível para macOS em versões mais recentes.

Capacidade de computação CUDA por versão com semicondutores GPU associados e modelos de placa GPU (separados por suas várias áreas de aplicação):

* – produtos apenas para OEM

  1. CUDA Toolkit 13.0 renomeou o SM101 para GPUs Thor para SM110.

Recursos e especificações por versão

Nota: Uma GPU com uma capacidade de computação maior é capaz de executar código PTX destinado a uma GPU de uma faixa menor de capacidades de computação. No entanto, é possível compilar o código CUDA de uma forma que funcione apenas em uma família específica (mesmo "X") de GPUs; se o código existente for compilado dessa maneira, será necessária a recompilação para que ele funcione em uma GPU mais nova.[45]

Suporte a recursos (recursos não listados são suportados por todas as capacidades de computação) Capacidade de computação (versão)
1.0, 1.1 1.2, 1.3 2.x 3.0 3.2 3.5, 3.7, 5.x, 6.x, 7.0, 7.2 7.5 8.x 9.0, 10.x, 12.x
Funções de votação de warp (__all(), __any()) Não Sim
Funções de votação de warp (__ballot()) Não Sim
Funções de barreira de memória (__threadfence_system())
Funções de sincronização (__syncthreads_count(), __syncthreads_and(), __syncthreads_or())
Funções de superfície (surface)
Grid 3D de blocos de threads
Funções de embaralhamento de warp (warp shuffle) Não Sim
Programação de memória unificada (unified memory)
Deslocamento de funil (funnel shift) Não Sim
Paralelismo dinâmico Não Sim
Caminho de dados uniforme (Uniform Datapath)[66] Não Sim
Cópia assíncrona acelerada por hardware Não Sim
Barreira assíncrona de divisão de chegada/espera (split arrive/wait barrier) acelerada por hardware
Suporte em nível de warp para operações de redução
Gerenciamento de residência em cache L2
Instruções DPX para programação dinâmica acelerada Não Sim
Memória compartilhada distribuída
Cluster de blocos de threads (Thread block cluster)
Unidade aceleradora de memória de tensor (TMA)
Suporte a recursos (recursos não listados são suportados por todas as capacidades de computação) 1.0, 1.1 1.2, 1.3 2.x 3.0 3.2 3.5, 3.7, 5.x, 6.x, 7.0, 7.2 7.5 8.x 9.0, 10.x, 12.x
Capacidade de computação (versão)

[67]

Tipos de dados

Tipos de ponto flutuante

Tipo de dados Tipos vetoriais suportados Bits Comentários
Comprimento de armazenamento
(vetor completo)
Comprimento utilizado
(valor único)
Sinal Expoente Mantissa
E2M1 = FP4 e2m1x2 / e2m1x4 8 / 16 4 1 2 1
E2M3 = variante FP6 e2m3x2 / e2m3x4 16 / 32 6 1 2 3
E3M2 = variante FP6 e3m2x2 / e3m2x4 16 / 32 6 1 3 2
UE4M3 ue4m3 8 7 0 4 3 Usado para dimensionamento
(apenas E2M1)
E4M3 = variante FP8 e4m3 / e4m3x2 / e4m3x4 8 / 16 / 32 8 1 4 3
E5M2 = variante FP8 e5m2 / e5m2x2 / e5m2x4 8 / 16 / 32 8 1 5 2 Expoente/faixa do FP16,
cabe em 8 bits
UE8M0 ue8m0x2 16 8 0 8 0 Usado para dimensionamento
(qualquer formato FP4, FP6 ou FP8)
FP16 f16 / f16x2 16 / 32 16 1 5 10
BF16 bf16 / bf16x2 16 / 32 16 1 8 7 Expoente/faixa do FP32,
cabe em 16 bits
TF32 tf32 32 19 1 8 10 Expoente/faixa do FP32,
mantissa/precisão do FP16
FP32 f32 / f32x2 32 / 64 32 1 8 23
FP64 f64 64 64 1 11 52

Suporte de versão

Tipo de dados Operações básicas Suportado desde
Operações atômicas Suportado desde
para memória global
Suportado desde
para memória compartilhada
Inteiro de 8 bits
com/sem sinal
leitura, escrita, conversão 1.0 N/A N/A
Inteiro de 16 bits
com/sem sinal
operações gerais 1.0 atomicCAS() 3.5
Inteiro de 32 bits
com/sem sinal
operações gerais 1.0 funções atômicas 1.1 1.2
Inteiro de 64 bits
com/sem sinal
operações gerais 1.0 funções atômicas 1.2 2.0
Qualquer tipo trivialmente copiável de 128 bits operações gerais Não atomicExch, atomicCAS 9.0
Ponto flutuante de 16 bits
FP16
adição, subtração,
multiplicação, comparação,
funções de embaralhamento de warp, conversão
5.3 adição atômica half2 6.0
adição atômica 7.0
Ponto flutuante de 16 bits
BF16
adição, subtração,
multiplicação, comparação,
funções de embaralhamento de warp, conversão
8.0 adição atômica 8.0
Ponto flutuante de 32 bits operações gerais 1.0 atomicExch() 1.1 1.2
adição atômica 2.0
Ponto flutuante de 32 bits float2 e float4 operações gerais Não adição atômica 9.0
Ponto flutuante de 64 bits operações gerais 1.3 adição atômica 6.0

Nota: Quaisquer linhas ausentes ou entradas vazias refletem a falta de informações sobre aquele item exato.[68]

Tensor cores

FMA por ciclo por tensor core[69] Suportado desde 7.0 7.2 7.5 Workstation 7.5 Desktop 8.0 8.6 Workstation 8.7 8.6 Desktop 8.9 Desktop 8.9 Workstation 9.0 10.0 10.1 12.0
Tipo de dados Para matrizes densas Para matrizes esparsas 1ª Ger (8x/SM) 1ª Ger? (8x/SM) 2ª Ger (8x/SM) 3ª Ger (4x/SM) 4ª Ger (4x/SM) 5ª Ger (4x/SM)
Valores de 1 bit (AND) 8.0 como
experimental
Não Não 4096 2048 8192 Não
Valores de 1 bit (XOR) 7.5–8.9 como
experimental
Não 1024 Não
Inteiros de 4 bits 8.0–8.9 como
experimental
256 1024 512 mma.sync legado Não
Ponto flutuante de 4 bits FP4 (E2M1) 10.0 Não 4096 a definir 512
Ponto flutuante de 6 bits FP6 (E3M2 e E2M3) 10.0 Não 2048 a definir
Inteiros de 8 bits 7.2 8.0 Não 128 128 512 256 1024 2048 256
Ponto flutuante de 8 bits FP8 (E4M3 e E5M2) com acúmulo em FP16 8.9 Não 256
Ponto flutuante de 8 bits FP8 (E4M3 e E5M2) com acúmulo em FP32 128 128
Ponto flutuante de 16 bits FP16 com acúmulo em FP16 7.0 8.0 64 64 64 256 128 512 1024 128
Ponto flutuante de 16 bits FP16 com acúmulo em FP32 32 64 128 64
Ponto flutuante de 16 bits BF16 com acúmulo em FP32 7.5[70] 8.0 Não 64[71]
Ponto flutuante de 32 bits (19 bits utilizados) TF32 vel. a definir (32?)[71] 128 32 64 256 512 32
Ponto flutuante de 64 bits 8.0 Não Não 16 velocidade a definir 32 16 a definir

Nota: Quaisquer linhas ausentes ou entradas vazias refletem a falta de informações sobre aquele item exato.[72]

Composição do Tensor Core 7.0 7.2, 7.5 8.0, 8.6 8.7 8.9 9.0
Largura da unidade de produto escalar em unidades FP16 (em bytes)[73] 4 (8) 8 (16) 4 (8) 16 (32)
Unidades de produto escalar por Tensor Core 16 32
Tensor Cores por partição de SM 2 1
Taxa de transferência total (Bytes/ciclo)[74] por partição de SM[75] 256 512 256 1024
FP Tensor Cores: Ciclos mínimos para cálculo de matriz em todo o warp 8 4 8
FP Tensor Cores: Forma mínima de matriz para taxa de transferência total (Bytes)[76] 2048
INT Tensor Cores: Ciclos mínimos para cálculo de matriz em todo o warp Não 4
INT Tensor Cores: Forma mínima de matriz para taxa de transferência total (Bytes) Não 1024 2048 1024
Composição do FP64 Tensor Core 8.0 8.6 8.7 8.9 9.0
Largura da unidade de produto escalar em unidades FP64 (em bytes) 4 (32) a definir 4 (32)
Unidades de produto escalar por Tensor Core 4 a definir 8
Tensor Cores por partição de SM 1
Taxa de transferência total (Bytes/ciclo)[74] por partição de SM[75] 128 a definir 256
Ciclos mínimos para cálculo de matriz em todo o warp 16 a definir
Forma mínima de matriz para taxa de transferência total (Bytes)[76] 2048

Especificações técnicas

Especificações técnicas Capacidade de computação (versão)
1.0 1.1 1.2 1.3 2.x 3.0 3.2 3.5 3.7 5.0 5.2 5.3 6.0 6.1 6.2 7.0 7.2 7.5 8.0 8.6 8.7 8.9 9.0 10.x 12.x
Número máximo de grids residentes por dispositivo
(execução simultânea de kernels, pode ser menor para dispositivos específicos)
1 16 4 32 16 128 32 16 128 16 128
Dimensionalidade máxima do grid de blocos de threads 2 3
Dimensão X máxima de um grid de blocos de threads 65535 231 − 1
Dimensão Y ou Z máxima de um grid de blocos de threads 65535
Dimensionalidade máxima do bloco de threads 3
Dimensão X ou Y máxima de um bloco 512 1024
Dimensão Z máxima de um bloco 64
Número máximo de threads por bloco 512 1024
Tamanho do Warp 32
Número máximo de blocos residentes por multiprocessador 8 16 32 16 32 16 24 32
Número máximo de warps residentes por multiprocessador 24 32 48 64 32 64 48 64 48
Número máximo de threads residentes por multiprocessador 768 1024 1536 2048 1024 2048 1536 2048 1536
Número de registradores regulares de 32 bits por multiprocessador 8 K 16 K 32 K 64 K 128 K 64 K
Número de registradores uniformes de 32 bits por multiprocessador Não 2 K[77]
Número máximo de registradores de 32 bits por bloco de threads 8 K 16 K 32 K 64 K 32 K 64 K 32 K 64 K 32 K 64 K
Número máximo de registradores regulares de 32 bits por thread 124 63 255
Número máximo de registradores uniformes de 32 bits por warp Não 63
Quantidade de memória compartilhada por multiprocessador
(do total de memória compartilhada + cache L1, quando aplicável)
16 KiB 16 / 48 KiB (de 64 KiB) 16 / 32 / 48 KiB (de 64 KiB) 80 / 96 / 112 KiB (de 128 KiB) 64 KiB 96 KiB 64 KiB 96 KiB 64 KiB 0 / 8 / 16 / 32 / 64 / 96 KiB (de 128 KiB) 32 / 64 KiB (de 96 KiB) 0 / 8 / 16 / 32 / 64 / 100 / 132 / 164 KiB (de 192 KiB) 0 / 8 / 16 / 32 / 64 / 100 KiB (de 128 KiB) 0 / 8 / 16 / 32 / 64 / 100 / 132 / 164 KiB (de 192 KiB) 0 / 8 / 16 / 32 / 64 / 100 KiB (de 128 KiB) 0 / 8 / 16 / 32 / 64 / 100 / 132 / 164 / 196 / 228 KiB (de 256 KiB) 0 / 8 / 16 / 32 / 64 / 100 KiB (de 128 KiB)
Quantidade máxima de memória compartilhada por bloco de threads 16 KiB 48 KiB 96 KiB 48 KiB 64 KiB 163 KiB 99 KiB 163 KiB 99 KiB 227 KiB 99 KiB
Número de bancos de memória compartilhada 16 32
Quantidade de memória local por thread 16 KiB 512 KiB
Tamanho da memória constante acessível por CUDA C/C++ 64 KiB
Conjunto de trabalho do cache (working set) por multiprocessador para memória constante 8 KiB 4 KiB 8 KiB
Conjunto de trabalho do cache (working set) por multiprocessador para memória de textura 16 KiB por TPC 24 KiB por TPC 12 KiB 12 – 48 KiB 24 KiB 48 KiB 32 KiB 24 KiB 48 KiB 24 KiB 32 – 128 KiB 32 – 64 KiB 28 – 192 KiB 28 – 128 KiB 28 – 192 KiB 28 – 128 KiB 28 – 256 KiB
Largura máxima para uma referência de textura 1D vinculada a uma matriz CUDA (CUDA array) 8192 65536 131072
Largura máxima para uma referência de textura 1D vinculada a uma memória linear 227 228 227 228 227 228
Largura máxima e número de camadas para uma referência de textura linearizada (layered) 1D 8192 × 512 16384 × 2048 32768 x 2048
Largura e altura máximas para uma referência de textura 2D vinculada a uma matriz CUDA 65536 × 32768 65536 × 65535 131072 x 65536
Largura e altura máximas para uma referência de textura 2D vinculada a uma memória linear 65000 x 65000 65536 x 65536 131072 x 65000
Largura e altura máximas para uma referência de textura 2D vinculada a uma matriz CUDA com suporte a coleta de textura N/A 16384 x 16384 32768 x 32768
Largura, altura máxima e número de camadas para uma referência de textura linearizada (layered) 2D 8192 × 8192 × 512 16384 × 16384 × 2048 32768 x 32768 x 2048
Largura, altura e profundidade máximas para uma referência de textura 3D vinculada a memória linear ou matriz CUDA 20483 40963 163843
Largura (e altura) máxima para uma referência de textura de mapa de cubo (cubemap) N/A 16384 32768
Largura (e altura) máxima e número de camadas para uma referência de textura linearizada de mapa de cubo (cubemap layered) N/A 16384 × 2046 32768 × 2046
Número máximo de texturas que podem ser vinculadas a um kernel 128 256
Largura máxima para uma referência de superfície (surface) 1D vinculada a uma matriz CUDA Não
suportado
65536 16384 32768
Largura máxima e número de camadas para uma referência de superfície linearizada (layered) 1D 65536 × 2048 16384 × 2048 32768 × 2048
Largura e altura máximas para uma referência de superfície 2D vinculada a uma matriz CUDA 65536 × 32768 16384 × 65536 131072 × 65536
Largura, altura máxima e número de camadas para uma referência de superfície linearizada (layered) 2D 65536 × 32768 × 2048 16384 × 16384 × 2048 32768 × 32768 × 2048
Largura, altura e profundidade máximas para uma referência de superfície 3D vinculada a uma matriz CUDA 65536 × 32768 × 2048 4096 × 4096 × 4096 16384 × 16384 × 16384
Largura (e altura) máxima para uma referência de superfície de mapa de cubo (cubemap) vinculada a uma matriz CUDA 32768 16384 32768
Largura máxima e número de camadas para uma referência de superfície linearizada de mapa de cubo (cubemap layered) 32768 × 2046 16384 × 2046 32768 × 2046
Número máximo de superfícies que podem ser vinculadas a um kernel 8 16 32
Número máximo de instruções por kernel 2 milhões 512 milhões
Número máximo de blocos de threads por cluster de blocos de threads (Thread Block Cluster)[78] Não 16 8
Especificações técnicas 1.0 1.1 1.2 1.3 2.x 3.0 3.2 3.5 3.7 5.0 5.2 5.3 6.0 6.1 6.2 7.0 7.2 7.5 8.0 8.6 8.7 8.9 9.0 10.x 12.x
Capacidade de computação (versão)

Arquitetura do multiprocessador

Especificações de arquitetura Capacidade de computação (versão)
1.0 1.1 1.2 1.3 2.0 2.1 3.0 3.2 3.5 3.7 5.0 5.2 5.3 6.0 6.1 6.2 7.0 7.2 7.5 8.0 8.6 8.7 8.9 9.0 10.x 12.x
Número de vias ALU para operações aritméticas INT32 8 32 48 192 128 128 64 128 128 64 64 64 128
Número de vias ALU para qualquer operação aritmética INT32 ou FP32 N/A N/A
Número de vias ALU para operações aritméticas FP32 64 64 128 128
Número de vias ALU para operações aritméticas FP16x2 Não 1 128 128 64
Número de vias ALU para operações aritméticas FP64 Não 1 16 por FP32 4 por FP32 8 8 / 64 64 4 32 4 32 2 32 2 64 2
Número de unidades de leitura/escrita (Load/Store Units) 4 por 2 SM 8 por 2 SM 8 por 2 SM / 3 SM 8 por 3 SM 16 32 16 32 16 32
Número de unidades de funções especiais (SFU) para funções transcendentais 2 4 8 32 16 32 16
Número de unidades de mapeamento de textura (TMU) 4 por 2 SM 8 por 2 SM 8 por 2 / 3SM 8 por 3 SM 4 4 / 8 16 8 16 8 4
Número de vias ALU para operações aritméticas INT32 uniformes Não 2
Número de tensor cores Não 8 (1ª ger.) 0 / 8 (2ª ger.) 4 (3ª ger.) 4 (4ª ger.)
Número de núcleos de raytracing (RT Cores) Não 0 / 1 (1ª ger.) Não 1 (2ª ger.) Não 1 (3ª ger.) Não
Número de partições de SM = Blocos de processamento 1 4 2 4
Número de escalonadores de warp (warp schedulers) por partição de SM 1 2 4 1
Número máximo de novas instruções emitidas a cada ciclo por um único escalonador 2 1 2 2 1
Tamanho da memória unificada para cache de dados e memória compartilhada 16 KiB 16 KiB 64 KiB 128 KiB 64 KiB SM + 24 KiB L1 (separado) 96 KiB SM + 24 KiB L1 (separado) 64 KiB SM + 24 KiB L1 (separado) 64 KiB SM + 24 KiB L1 (separado) 96 KiB SM + 24 KiB L1 (separado) 64 KiB SM + 24 KiB L1 (separado) 128 KiB 96 KiB 192 KiB 128 KiB 192 KiB 128 KiB 256 KiB
Tamanho do cache de instruções L3 por GPU 32 KiB usa Cache de Dados L2
Tamanho do cache de instruções L2 por Cluster de Processador de Textura (TPC) 8 KiB
Tamanho do cache de instruções L1.5 por SM 4 KiB 32 KiB 32 KiB 48 KiB 128 KiB 32 KiB 128 KiB ~46 KiB 128 KiB
Tamanho do cache de instruções L1 por SM 8 KiB 8 KiB
Tamanho do cache de instruções L0 por partição de SM apenas 1 partição por SM Não 12 KiB 16 KiB? 32 KiB
Largura da instrução instruções de 32 bits e 64 bits instruções de 64 bits + lógica de controle a cada 7 instruções instruções de 64 bits + lógica de controle a cada 3 instruções instrução combinada de 128 bits e lógica de controle
Largura do barramento de memória por partição de memória em bits 64 ((G)DDR) 32 ((G)DDR) 512 (HBM) 32 ((G)DDR) 512 (HBM) 32 ((G)DDR) 512 (HBM) 32 ((G)DDR) 512 (HBM) 32 ((G)DDR)
Cache L2 por partição de memória 16 KiB 32 KiB 128 KiB 256 KiB 1 MiB 512 KiB 128 KiB 512 KiB 256 KiB 128 KiB 768 KiB 64 KiB 512 KiB 4 MiB 512 KiB 8 MiB 5 MiB 6.25 MiB 8 MiB
Número de unidades de saída de renderização (ROP) por partição 4 8 4 8 16 8 12 8 4 16 2 8 16 16 por GPC 3 por GPC 16 por GPC
Especificações de arquitetura 1.0 1.1 1.2 1.3 2.0 2.1 3.0 3.2 3.5 3.7 5.0 5.2 5.3 6.0 6.1 6.2 7.0 7.2 7.5 8.0 8.6 8.7 8.9 9.0 10.x 12.x
Capacidade de computação (versão)

Para mais informações, leia o Guia de Programação Nvidia CUDA C++.[79]

Usos da arquitetura CUDA

Comparação com concorrentes

CUDA compete com outras pilhas de computação GPU: Intel OneAPI e AMD ROCm.

Enquanto a CUDA da Nvidia é de código fechado, a OneAPI da Intel e a ROCm da AMD são de código aberto.

Intel OneAPI

oneAPI é uma iniciativa baseada em padrões abertos, criada para apoiar o desenvolvimento de software para múltiplas arquiteturas de hardware.[82] As bibliotecas oneAPI devem implementar especificações abertas que são discutidas publicamente pelos Grupos de Interesse Especial, oferecendo a possibilidade de qualquer desenvolvedor ou organização implementar suas próprias versões das bibliotecas oneAPI.[83][84]

Originalmente feita pela Intel, outros adotantes de hardware incluem Fujitsu e Huawei.

Fundação de Aceleração Unificada (UXL)

A Fundação de Aceleração Unificada (UXL) é um novo consórcio de tecnologia que trabalha na continuação da iniciativa OneAPI, com o objetivo de criar um novo ecossistema de software acelerador de padrão aberto, projetos de padrões abertos relacionados e especificações através de Grupos de Trabalho e Grupos de Interesse Especial (SIGs). O objetivo é oferecer alternativas abertas à CUDA da Nvidia. As principais empresas por trás disso são Intel, Google, ARM, Qualcomm, Samsung, Imagination e VMware.[85]

AMD ROCm

ROCm[86] é uma pilha de software de código aberto para programação de unidade de processamento gráfico (GPU) da Advanced Micro Devices (AMD).

Ver também

  • SYCL – um padrão aberto do Khronos Group para programar uma variedade de plataformas, incluindo GPUs, com C++ moderno single-source, semelhante à API Runtime CUDA de nível superior (single-source)
  • Computação paralela
  • Vulkan – API de computação e gráficos 3D de baixo nível e alto desempenho

Referências

  1. «Index of /compute/cuda/redist». Consultado em 10 março 2026 
  2. «NVIDIA® CUDA™ Unleashes Power of GPU Computing - Press Release». nvidia.com. Consultado em 26 de janeiro de 2025. Cópia arquivada em 29 de março de 2007 
  3. a b Shah, Agam. «Nvidia not totally against third parties making CUDA chips». www.theregister.com (em inglês). Consultado em 25 de abril de 2024. Cópia arquivada em 16 de novembro de 2025 
  4. «Nvidia CUDA Home Page». 18 de julho de 2017. Cópia arquivada em 16 de novembro de 2025 
  5. Shimpi, Anand Lal; Wilson, Derek (8 de novembro de 2006). «Nvidia's GeForce 8800 (G80): GPUs Re-architected for DirectX 10». AnandTech. Consultado em 16 de maio de 2015. Arquivado do original em 24 de abril de 2010 
  6. «Introduction – nsight-visual-studio-edition 12.6 documentation». docs.nvidia.com. Consultado em 10 de outubro de 2024. Cópia arquivada em 23 de maio de 2026 
  7. a b Abi-Chahla, Fedy (18 de junho de 2008). «Nvidia's CUDA: The End of the CPU?». Tom's Hardware. Consultado em 17 de maio de 2015. Cópia arquivada em 28 de maio de 2026 
  8. Jones, Stephen (22 de abril de 2025). What is CUDA? (Vídeo). Computerphile. Consultado em 24 de julho de 2025. Cópia arquivada em 8 de março de 2026 – via YouTube 
  9. Zunitch, Peter (24 de janeiro de 2018). «CUDA vs. OpenCL vs. OpenGL». Videomaker (em inglês). Consultado em 16 de setembro de 2018 
  10. «OpenCL». NVIDIA Developer (em inglês). 24 de abril de 2013. Consultado em 4 de novembro de 2019 
  11. a b Cosgrove, Emma. «Ian Buck built Nvidia's secret weapon. He may spend the rest of his career defending it.». Business Insider (em inglês). Consultado em 24 de julho de 2025. Cópia arquivada em 28 de maio de 2026 
  12. «John Nickolls Obituary – Los Altos, CA». The Mercury News (em inglês). 29 de setembro de 2011. Consultado em 23 de novembro de 2025. John Richard Nickolls, who passed away in Los Altos, California on August 13, 2011 after a courageous battle against cancer. He was born on March 6, 1950 to Kenneth and Kathryn Nickolls and grew up in Wilbraham, Massachusetts. 
  13. Witt, Stephen (27 de novembro de 2023). «How Jensen Huang's Nvidia Is Powering the A.I. Revolution». The New Yorker (em inglês). ISSN 0028-792X. Consultado em 10 de dezembro de 2023. Cópia arquivada em 28 de maio de 2026 
  14. «CUDA LLVM Compiler». 7 de maio de 2012. Cópia arquivada em 28 de maio de 2026 
  15. «Compiling CUDA with clang – LLVM 22.0.0git documentation». llvm.org 
  16. First OpenCL demo on a GPU no YouTube
  17. DirectCompute Ocean Demo Running on Nvidia CUDA-enabled GPU no YouTube
  18. Vasiliadis, Giorgos; Antonatos, Spiros; Polychronakis, Michalis; Markatos, Evangelos P.; Ioannidis, Sotiris (setembro de 2008). «Gnort: High Performance Network Intrusion Detection Using Graphics Processors» (PDF). Recent Advances in Intrusion Detection. Col: Lecture Notes in Computer Science. 5230. [S.l.: s.n.] pp. 116–134. ISBN 978-3-540-87402-7. doi:10.1007/978-3-540-87403-4_7 
  19. Schatz, Michael C.; Trapnell, Cole; Delcher, Arthur L.; Varshney, Amitabh (2007). «High-throughput sequence alignment using Graphics Processing Units». BMC Bioinformatics. 8. PMC 2222658Acessível livremente. PMID 18070356. doi:10.1186/1471-2105-8-474Acessível livremente 
  20. Manavski, Svetlin A.; Giorgio, Valle (2008). «CUDA compatible GPU cards as efficient hardware accelerators for Smith-Waterman sequence alignment». BMC Bioinformatics. 10 (Suppl 2): S10. PMC 2323659Acessível livremente. PMID 18387198. doi:10.1186/1471-2105-9-S2-S10Acessível livremente 
  21. «Pyrit – Google Code». Cópia arquivada em 14 de agosto de 2016 
  22. «Use your Nvidia GPU for scientific computing». boinc.berkeley.edu. Berkeley Open Infrastructure for Network Computing (BOINC). 18 de dezembro de 2008. Consultado em 8 de agosto de 2017. Arquivado do original em 28 de dezembro de 2008 
  23. «Nvidia CUDA Software Development Kit (CUDA SDK) – Release Notes Version 2.0 for MAC OS X». Arquivado do original em 6 de janeiro de 2009 
  24. «CUDA 1.1 – Now on Mac OS X». 14 de fevereiro de 2008. Arquivado do original em 22 de novembro de 2008 
  25. «CUDA 11 Features Revealed». 14 de maio de 2020. Cópia arquivada em 28 de maio de 2026 
  26. «CUDA Toolkit 11.1 Introduces Support for GeForce RTX 30 Series and Quadro RTX Series GPUs». 23 de setembro de 2020. Cópia arquivada em 28 de maio de 2026 
  27. «Enhancing Memory Allocation with New NVIDIA CUDA 11.2 Features». 16 de dezembro de 2020. Cópia arquivada em 28 de maio de 2026 
  28. «Exploring the New Features of CUDA 11.3». 16 de abril de 2021. Cópia arquivada em 28 de maio de 2026 
  29. Silberstein, Mark; Schuster, Assaf; Geiger, Dan; Patney, Anjul; Owens, John D. (2008). «Efficient computation of sum-products on GPUs through software-managed cache» (PDF). Proceedings of the 22nd annual international conference on Supercomputing – ICS '08 (PDF). Proceedings of the 22nd annual international conference on Supercomputing – ICS '08. pp. 309–318. ISBN 978-1-60558-158-3. doi:10.1145/1375527.1375572 
  30. «CUDA C Programming Guide v8.0» (PDF). nVidia Developer Zone. Janeiro de 2017. p. 19. Consultado em 22 de março de 2017. Cópia arquivada (PDF) em 28 de maio de 2026 
  31. «NVCC forces c++ compilation of .cu files». 29 de novembro de 2011. Cópia arquivada em 23 de setembro de 2019 
  32. Whitehead, Nathan; Fit-Florea, Alex. «Precision & Performance: Floating Point and IEEE 754 Compliance for Nvidia GPUs» (PDF). Nvidia. Consultado em 18 de novembro de 2014. Cópia arquivada (PDF) em 23 de abril de 2024 
  33. «CUDA-Enabled Products». CUDA Zone. Nvidia Corporation. Consultado em 3 de novembro de 2008. Cópia arquivada em 6 de janeiro de 2010 
  34. «Coriander Project: Compile CUDA Codes To OpenCL, Run Everywhere». Phoronix. Cópia arquivada em 22 de setembro de 2021 
  35. Perkins, Hugh (2017). «cuda-on-cl» (PDF). IWOCL. Consultado em 8 de agosto de 2017 
  36. «hughperkins/coriander: Build NVIDIA® CUDA™ code for OpenCL™ 1.2 devices». GitHub. 6 de maio de 2019. Cópia arquivada em 28 de maio de 2026 
  37. «CU2CL Documentation». chrec.cs.vt.edu 
  38. «GitHub – vosen/ZLUDA». GitHub. Cópia arquivada em 28 de maio de 2026 
  39. Citação:
  40. «GitHub – chip-spv/chipStar». GitHub. Cópia arquivada em 28 de maio de 2026 
  41. «New SCALE tool enables CUDA applications to run on AMD GPUs». Tom's Hardware. 17 de julho de 2024 
  42. «PyCUDA». Cópia arquivada em 28 de maio de 2026 
  43. «pycublas». Consultado em 8 de agosto de 2017. Arquivado do original em 20 de abril de 2009 
  44. «CuPy». cupy.dev (em inglês). Consultado em 23 de setembro de 2025 
  45. a b «User Guide for NVPTX Back-end — LLVM 22.0.0git documentation». llvm.org. Cópia arquivada em 28 de maio de 2026 
  46. «NVIDIA CUDA Programming Guide. Version 1.0» (PDF). 23 de junho de 2007. Cópia arquivada (PDF) em 28 de maio de 2026 
  47. «NVIDIA CUDA Programming Guide. Version 2.1» (PDF). 8 de dezembro de 2008. Cópia arquivada (PDF) em 24 de fevereiro de 2021 
  48. «NVIDIA CUDA Programming Guide. Version 2.2» (PDF). 2 de abril de 2009. Cópia arquivada (PDF) em 21 de abril de 2021 
  49. «NVIDIA CUDA Programming Guide. Version 2.2.1» (PDF). 26 de maio de 2009. Cópia arquivada (PDF) em 7 de março de 2021 
  50. «NVIDIA CUDA Programming Guide. Version 2.3.1» (PDF). 26 de agosto de 2009. Cópia arquivada (PDF) em 24 de fevereiro de 2021 
  51. «NVIDIA CUDA Programming Guide. Version 3.0» (PDF). 20 de fevereiro de 2010. Cópia arquivada (PDF) em 28 de julho de 2021 
  52. «NVIDIA CUDA C Programming Guide. Version 3.1.1» (PDF). 21 de julho de 2010. Cópia arquivada (PDF) em 15 de julho de 2021 
  53. «NVIDIA CUDA C Programming Guide. Version 3.2» (PDF). 9 de novembro de 2010 
  54. «CUDA 11.0 Release Notes». NVIDIA Developer. Cópia arquivada em 28 de maio de 2026 
  55. «CUDA 11.1 Release Notes». NVIDIA Developer. Cópia arquivada em 28 de maio de 2026 
  56. «CUDA 11.5 Release Notes». NVIDIA Developer. Cópia arquivada em 28 de maio de 2026 
  57. «CUDA 11.8 Release Notes». NVIDIA Developer. Cópia arquivada em 28 de maio de 2026 
  58. «pytorch/RELEASE.md at main · pytorch/pytorch Backend». github.com. Consultado em 28 de março de 2026. Cópia arquivada em 28 de maio de 2026 
  59. «Support Matrix – NVIDIA cuDNN Backend». docs.nvidia.com. Consultado em 20 de agosto de 2025 
  60. «NVIDIA Quadro NVS 420 Specs». TechPowerUp GPU Database. 25 de agosto de 2023 
  61. Larabel, Michael (29 de março de 2017). «NVIDIA Rolls Out Tegra X2 GPU Support In Nouveau». Phoronix. Consultado em 8 de agosto de 2017. Cópia arquivada em 23 de abril de 2022 
  62. Nvidia Xavier Specs on TechPowerUp (preliminary)
  63. «Welcome – Jetson LinuxDeveloper Guide 34.1 documentation». Cópia arquivada em 15 de abril de 2022 
  64. «NVIDIA Bringing up Open-Source Volta GPU Support for Their Xavier SoC». Cópia arquivada em 3 de fevereiro de 2022 
  65. «NVIDIA Ada Lovelace Architecture». Cópia arquivada em 28 de maio de 2026 
  66. Dissecting the Turing GPU Architecture through Microbenchmarking
  67. «H.1. Features and Technical Specifications – Table 13. Feature Support per Compute Capability». docs.nvidia.com (em inglês). Consultado em 23 de setembro de 2020 
  68. «CUDA C++ Programming Guide» 
  69. Fused-Multiply-Add, realmente executado, Matriz Densa
  70. como SASS desde 7.5, como PTX desde 8.0
  71. a b suporte não oficial em SASS
  72. «Technical brief. NVIDIA Jetson AGX Orin Series» (PDF). nvidia.com. Consultado em 5 setembro 2023 
  73. Nos Whitepapers...
  74. a b forma x tamanho do operando convertido...
  75. a b = produto das primeiras 3 linhas da tabela
  76. a b = produto das 2 linhas anteriores...
  77. ...
  78. ...
  79. «CUDA C++ Programming Guide, Compute Capabilities». docs.nvidia.com (em inglês). Consultado em 6 de fevereiro de 2025. Cópia arquivada em 24 de maio de 2026 
  80. «nVidia CUDA Bioinformatics: BarraCUDA». BioCentric (em inglês). 19 de julho de 2019. Consultado em 15 de outubro de 2019. Cópia arquivada em 28 de maio de 2026 
  81. «Part V: Physics Simulation». NVIDIA Developer (em inglês). Consultado em 11 de setembro de 2020. Cópia arquivada em 28 de maio de 2026 
  82. «oneAPI Programming Model». oneAPI.io (em inglês). Consultado em 27 de julho de 2024. Cópia arquivada em 28 de maio de 2026 
  83. «Specifications | oneAPI». oneAPI.io (em inglês). Consultado em 27 de julho de 2024. Cópia arquivada em 28 de maio de 2026 
  84. «oneAPI Specification – oneAPI Specification 1.3-rev-1 documentation». oneapi-spec.uxlfoundation.org. Consultado em 27 de julho de 2024. Cópia arquivada em 28 de maio de 2026 
  85. Cherney, Max A. (26 de março de 2024). «Exclusive: Behind the plot to break Nvidia's grip on AI by targeting software». Reuters. Consultado em 5 de abril de 2024 
  86. «Question: What does ROCm stand for? · Issue #1628 · RadeonOpenCompute/ROCm». Github.com. Consultado em 18 de janeiro de 2022. Cópia arquivada em 6 de novembro de 2023 

Leitura adicional

Ligações externas

Content Disclaimer

Informasi ini disarikan dari Wikipedia dan disajikan kembali untuk tujuan edukasi. Konten tersedia di bawah lisensi CC BY-SA 3.0. Kami tidak bertanggung jawab atas ketidakakuratan data yang bersumber dari kontribusi publik tersebut.

  1. The information displayed on this website is sourced in part or in whole from Wikipedia and has been adapted for the purpose of restating it. We strive to provide accurate and relevant information, however:
  2. There is no guarantee of absolute accuracy. Wikipedia is an open, collaborative project that can be edited by anyone, so information is subject to change.
  3. It is not intended to constitute professional advice. The content displayed is for informational and educational purposes only. For important decisions (e.g., medical, legal, or financial), please consult a professional.
  4. Content copyright. Wikipedia is licensed under the Creative Commons Attribution-ShareAlike License (CC BY-SA). This means that content may be reused with appropriate attribution and shared under a similar license.
  5. Responsible use. Any risk arising from the use of information from this website is entirely the responsibility of the user.