DOKUMEN123.COM

CUDA
CUDA
Autores	Ian Buck; John Nickolls
Desenvolvedor	Nvidia
Lançamento estável	13.2.0 / 9 março 2026}
Escrito em	C
Sistema; operacional	Windows, Linux
Plataforma	GPUs suportadas
Tipo	GPGPU
Licença	Proprietária
Website	developer.nvidia.com/cuda-zone

CUDA (Compute Unified Device Architecture) é uma plataforma de computação paralela proprietária^[3] e interface de programação de aplicações (API) desenvolvida pela empresa de tecnologia americana Nvidia que permite que software utilize certos tipos de unidades de processamento gráfico (GPUs) para processamento de propósito geral acelerado, ampliando significativamente sua utilidade em computação científica e de alto desempenho. A CUDA foi criada pela Nvidia a partir de 2004 e foi oficialmente lançada em 2007.^[4] Quando foi introduzida pela primeira vez, o nome era um acrônimo para Compute Unified Device Architecture,^[5] mas a Nvidia posteriormente abandonou o uso comum do acrônimo e raramente o expande atualmente.^[6]

CUDA é tanto uma camada de software que gerencia dados, dando acesso direto à GPU e CPU conforme necessário, quanto uma biblioteca de APIs que permitem computação paralela para várias necessidades.^[7]^[8] Além de drivers e kernels de tempo de execução, a plataforma CUDA inclui compiladores, bibliotecas e ferramentas de desenvolvedor para ajudar programadores a acelerar suas aplicações.

CUDA é escrita na linguagem de programação C, mas é projetada para funcionar com uma ampla gama de outras linguagens de programação, incluindo C++, Fortran, Python e Julia. Essa acessibilidade torna mais fácil para especialistas em programação paralela usar recursos de GPU, em contraste com APIs anteriores como Direct3D e OpenGL, que exigem habilidades avançadas em programação gráfica.^[9] GPUs com CUDA também suportam frameworks de programação como OpenMP, OpenACC e OpenCL.^[10]^[7]

Antecedentes

A unidade de processamento gráfico (GPU), como um processador de computador especializado, atende às demandas de tarefas intensivas de computação de gráficos 3D de alta resolução em tempo real. Em 2012, as GPUs evoluíram para sistemas multi-core altamente paralelos permitindo a manipulação eficiente de grandes blocos de dados. Este design é mais eficaz do que unidades centrais de processamento (CPUs) de propósito geral para algoritmos em situações onde o processamento de grandes blocos de dados é feito em paralelo, como:

As origens da CUDA remontam ao início dos anos 2000, quando Ian Buck, um estudante de doutorado em ciência da computação na Universidade Stanford, começou a experimentar o uso de GPUs para fins além da renderização de gráficos. Buck tornou-se interessado em GPUs durante seus estudos de graduação na Universidade de Princeton, inicialmente através de jogos eletrônicos. Após a formatura, ele estagiou na Nvidia, ganhando maior exposição à arquitetura de GPU. Em Stanford, ele construiu um equipamento de jogos 8K usando 32 placas gráficas GeForce, originalmente para testar os limites do desempenho gráfico em jogos como Quake e Doom. No entanto, seus interesses mudaram para explorar o potencial das GPUs para computação paralela de propósito geral.^[11]

Para esse fim, Buck desenvolveu Brook, uma linguagem de programação projetada para permitir computação de propósito geral em GPUs. Seu trabalho atraiu apoio tanto da Nvidia quanto da Agência de Projetos de Pesquisa Avançada de Defesa (DARPA). Em 2004, a Nvidia contratou Buck e o emparelhou com John Nickolls,^[12] diretor de arquitetura da empresa para computação em GPU. Juntos, eles começaram a transformar Brook no que se tornaria a CUDA.^[11] A CUDA foi oficialmente lançada pela Nvidia em 2007.

Sob a liderança do CEO da Nvidia, Jensen Huang, a CUDA tornou-se central para a estratégia da empresa de posicionar GPUs como hardware versátil para aplicações científicas. Em 2015, o desenvolvimento da CUDA focou cada vez mais na aceleração de aprendizado de máquina e cargas de trabalho de redes neurais artificiais.^[13]

Ontologia

A tabela a seguir oferece uma descrição não exata para a ontologia da estrutura CUDA.

A ontologia da estrutura CUDA
memória (hardware)	memória (código, ou escopo de variável)	computação (hardware)	computação (sintaxe de código)	computação (semântica de código)
RAM	variáveis não-CUDA	host	programa	uma chamada de rotina
VRAM, cache L2 da GPU	global, const, textura	dispositivo	grade	chamada simultânea da mesma sub-rotina em muitos processadores
Cache L1 da GPU	local, compartilhada	SM ("multiprocessador de fluxo")	bloco	chamada de sub-rotina individual
		warp = 32 threads		instruções SIMD
Cache L0 da GPU, registrador		thread (também conhecido como "SP", "processador de fluxo", "núcleo cuda", mas esses nomes agora são obsoletos)		análogo a operações escalares individuais dentro de uma operação vetorial

Capacidades de programação

A plataforma CUDA é acessível a desenvolvedores de software através de bibliotecas aceleradas por CUDA, diretivas de compilador como OpenACC, e extensões para linguagens de programação padrão da indústria, incluindo C, C++, Fortran e Python. Programadores C/C++ podem usar 'CUDA C/C++', compilado para PTX com nvcc (compilador C/C++ baseado em LLVM da Nvidia)^[14] ou pelo próprio clang.^[15] Programadores Fortran podem usar 'CUDA Fortran', compilado com o compilador PGI CUDA Fortran da The Portland Group. Programadores Python podem usar a biblioteca cuPyNumeric para acelerar aplicações em GPUs Nvidia.

Além de bibliotecas, diretivas de compilador, CUDA C/C++ e CUDA Fortran, a plataforma CUDA suporta outras interfaces computacionais, incluindo OpenCL do Khronos Group,^[16] DirectCompute da Microsoft, OpenGL Compute Shader e C++ AMP.^[17] Wrappers de terceiros também estão disponíveis para Python, Perl, Fortran, Java, Ruby, Lua, Common Lisp, Haskell, R, MATLAB, IDL, Julia, e suporte nativo em Mathematica.

Na indústria de jogos de computador, as GPUs são usadas para renderização gráfica e para cálculos de física de jogos (efeitos físicos como detritos, fumaça, fogo, fluidos); exemplos incluem PhysX e Bullet. CUDA também tem sido usada para acelerar aplicações não gráficas em biologia computacional, criptografia e outros campos por uma ordem de magnitude ou mais.^[18]^[19]^[20]^[21]^[22]

CUDA fornece tanto uma API de baixo nível (API Driver CUDA, não single-source) quanto uma API de nível superior (API Runtime CUDA, single-source). O SDK inicial do CUDA foi tornado público em 15 de fevereiro de 2007, para Microsoft Windows e Linux. O suporte para Mac OS X foi adicionado posteriormente na versão 2.0,^[23] que substituiu a versão beta lançada em 14 de fevereiro de 2008.^[24] CUDA funciona com todas as GPUs Nvidia da série G8x em diante, incluindo as linhas GeForce, Quadro e Tesla. CUDA é compatível com a maioria dos sistemas operacionais padrão.

CUDA 8.0 vem com as seguintes bibliotecas (para compilação e tempo de execução, em ordem alfabética):

cuBLAS – biblioteca de sub-rotinas básicas de álgebra linear CUDA
CUDART – biblioteca de tempo de execução CUDA
cuFFT – biblioteca de transformada rápida de Fourier CUDA
cuRAND – biblioteca de geração de números aleatórios CUDA
cuSOLVER – coleção baseada em CUDA de solucionadores diretos densos e esparsos
cuSPARSE – biblioteca de matriz esparsa CUDA
NPP – biblioteca de primitivas de desempenho NVIDIA
nvGRAPH – biblioteca de análise de grafos NVIDIA
NVML – biblioteca de gerenciamento NVIDIA
NVRTC – biblioteca de compilação de tempo de execução NVIDIA para CUDA C++

CUDA 8.0 vem com estes outros componentes de software:

nView – software de gerenciamento de desktop NVIDIA nView
NVWMI – kit de ferramentas de gerenciamento empresarial NVIDIA
GameWorks PhysX – é um mecanismo de física de jogos multiplataforma

CUDA 9.0–9.2 vem com estes outros componentes:

CUTLASS 1.0 – algoritmos de álgebra linear personalizados,
NVIDIA Video Decoder foi descontinuado no CUDA 9.2; agora está disponível no NVIDIA Video Codec SDK

CUDA 10 vem com estes outros componentes:

nvJPEG – processamento JPEG híbrido (CPU e GPU)

CUDA 11.0–11.8 vem com estes outros componentes:^[25]^[26]^[27]^[28]

CUB é uma das novas bibliotecas C++ mais suportadas
suporte MIG para GPU de múltiplas instâncias
nvJPEG2000 – codificador e decodificador JPEG 2000

Vantagens

CUDA tem várias vantagens sobre a computação de propósito geral tradicional em GPUs (GPGPU) usando APIs gráficas:

Leituras dispersas – código pode ler de endereços arbitrários na memória
Memória virtual unificada (CUDA 4.0 e superior)
Memória unificada (CUDA 6.0 e superior)
Memória compartilhada – CUDA expõe uma região de memória compartilhada rápida que pode ser compartilhada entre threads. Isso pode ser usado como um cache gerenciado pelo usuário, permitindo maior largura de banda do que é possível usando buscas de textura.^[29]
Downloads e leituras de volta mais rápidos para e da GPU
Suporte total para operações inteiras e bit a bit, incluindo buscas de textura inteira

Limitações

Seja para o computador host ou para o dispositivo GPU, todo o código-fonte CUDA agora é processado de acordo com as regras de sintaxe C++.^[30] Este nem sempre foi o caso. Versões anteriores do CUDA eram baseadas em regras de sintaxe C.^[31] Como no caso mais geral de compilar código C com um compilador C++, é possível que código-fonte CUDA antigo no estilo C não compile ou não se comporte como originalmente pretendido.
A interoperabilidade com linguagens de renderização como OpenGL é unidirecional, com OpenGL tendo acesso à memória CUDA registrada, mas o CUDA não tendo acesso à memória OpenGL.
Copiar entre memória host e dispositivo pode incorrer em uma perda de desempenho devido à largura de banda e latência do barramento do sistema (isso pode ser parcialmente aliviado com transferências de memória assíncronas, tratadas pelo mecanismo DMA da GPU).
Os threads devem ser executados em grupos de pelo menos 32 para melhor desempenho, com o número total de threads na casa dos milhares. Ramos no código do programa não afetam significativamente o desempenho, desde que cada um dos 32 threads siga o mesmo caminho de execução; o modelo de execução SIMD torna-se uma limitação significativa para qualquer tarefa inerentemente divergente (por exemplo, percorrer uma estrutura de dados de particionamento espacial durante ray tracing).
Nenhuma emulação ou funcionalidade de fallback está disponível para revisões modernas.
C++ válido pode às vezes ser sinalizado e impedir a compilação devido à maneira como o compilador aborda a otimização para limitações do dispositivo GPU alvo.[carece de fontes]
As informações de tipo de tempo de execução (RTTI) do C++ e o tratamento de exceções no estilo C++ são suportados apenas em código host, não em código de dispositivo.
Em precisão simples em dispositivos CUDA de primeira geração com capacidade de computação 1.x, números denormais não são suportados e são, em vez disso, zerados, e a precisão das operações de divisão e raiz quadrada é ligeiramente inferior à matemática de precisão simples compatível com IEEE 754. Dispositivos que suportam capacidade de computação 2.0 e superior suportam números denormais, e as operações de divisão e raiz quadrada são compatíveis com IEEE 754 por padrão. No entanto, os usuários podem obter a matemática mais rápida do nível de jogos dos dispositivos de capacidade de computação 1.x, se desejado, definindo flags do compilador para desabilitar divisões precisas e raízes quadradas precisas, e habilitar o zeramento de números denormais.^[32]
Ao contrário do OpenCL, GPUs com CUDA estão disponíveis apenas na Nvidia, pois é proprietário.^[33]^[3] Tentativas de implementar CUDA em outras GPUs incluem:
- Projeto Coriander: Converte código-fonte CUDA C++11 para OpenCL 1.2 C. Um fork do CUDA-on-CL destinado a executar TensorFlow.^[34]^[35]^[36]
- CU2CL: Converte CUDA 3.2 C++ para OpenCL C.^[37]
- GPUOpen HIP: Uma fina camada de abstração sobre CUDA e ROCm destinada a GPUs AMD e Nvidia. Tem uma ferramenta de conversão para importar código-fonte CUDA C++. Suporta CUDA 4.0 mais C++11 e float16.
- ZLUDA é um substituto direto para CUDA em GPUs AMD e anteriormente GPUs Intel com desempenho próximo ao nativo.^[38] O desenvolvedor, Andrzej Janik, foi contratado separadamente pela Intel e AMD para desenvolver o software em 2021 e 2022, respectivamente. No entanto, nenhuma das empresas decidiu lançá-lo oficialmente devido à falta de um caso de uso comercial. O contrato da AMD incluía uma cláusula que permitia a Janik lançar seu código para a AMD independentemente, permitindo-lhe lançar a nova versão que suporta apenas GPUs AMD.^[39]
- ChipStar pode compilar e executar programas CUDA/HIP em plataformas OpenCL 3.0 ou Level Zero avançadas.^[40]
- SCALE é um kit de ferramentas de programação compatível com CUDA para compilação antecipada de código-fonte CUDA em GPUs AMD, visando expandir o suporte para outras GPUs no futuro.^[41]

Exemplo

Este código de exemplo em C++ carrega uma textura de uma imagem em uma matriz na GPU:

texture<float, 2, cudaReadModeElementType> tex;

void foo() {
    cudaArray* cu_array;

    // Alocar matriz
    cudaChannelFormatDesc description = cudaCreateChannelDesc<float>();
    cudaMallocArray(&cu_array, &description, width, height);

    // Copiar dados da imagem para a matriz
    cudaMemcpyToArray(cu_array, image, width*height*sizeof(float), cudaMemcpyHostToDevice);

    // Definir parâmetros de textura (padrão)
    tex.addressMode[0] = cudaAddressModeClamp;
    tex.addressMode[1] = cudaAddressModeClamp;
    tex.filterMode = cudaFilterModePoint;
    tex.normalized = false; // não normalizar coordenadas

    // Vincular a matriz à textura
    cudaBindTextureToArray(tex, cu_array);

    // Executar kernel
    dim3 blockDim(16, 16, 1);
    dim3 gridDim((width + blockDim.x - 1)/ blockDim.x, (height + blockDim.y - 1) / blockDim.y, 1);
    kernel<<< gridDim, blockDim, 0 >>>(d_data, height, width);

    // Desvincular a matriz da textura
    cudaUnbindTexture(tex);
}

__global__ void kernel(float* odata, int height, int width) {
    unsigned int x = blockIdx.x*blockDim.x + threadIdx.x;
    unsigned int y = blockIdx.y*blockDim.y + threadIdx.y;
    if (x < width && y < height) {
        float c = tex2D(tex, x, y);
        odata[y*width+x] = c;
    }
}

Abaixo está um exemplo dado em Python que calcula o produto de duas matrizes na GPU. As ligações não oficiais da linguagem Python podem ser obtidas do PyCUDA.^[42]

import numpy
import pycuda.autoinit

from numpy.typing import NDArray, float32
from pycuda.compiler import SourceModule
from pycuda.driver import Function, In, Out

mod: SourceModule = SourceModule(
    """
__global__ void multiply_them(float* dest, float* a, float* b) {
    const int i = threadIdx.x;
    dest[i] = a[i] * b[i];
}
"""
)

multiply_them: Function = mod.get_function("multiply_them")

a: NDArray[float32] = numpy.random.randn(400).astype(numpy.float32)
b: NDArray[float32] = numpy.random.randn(400).astype(numpy.float32)

dest: NDArray[float32] = numpy.zeros_like(a)
multiply_them(Out(dest), In(a), In(b), block=(400, 1, 1))

print(dest - a * b)

Ligações adicionais em Python para simplificar operações de multiplicação de matrizes podem ser encontradas no programa pycublas.^[43]

 
import numpy

from pycublas import CUBLASMatrix

A: CUBLASMatrix = CUBLASMatrix(numpy.mat([[1, 2, 3], [4, 5, 6]], numpy.float32))
B: CUBLASMatrix = CUBLASMatrix(numpy.mat([[2, 3], [4, 5], [6, 7]], numpy.float32))
C: CUBLASMatrix = A * B
print(C.np_mat())

enquanto CuPy substitui diretamente o NumPy:^[44]

import cupy

from cupy.typing import NDArray, float64

a: NDArray[float64] = cupy.random.randn(400)
b: NDArray[float64] = cupy.random.randn(400)

dest: NDArray[float64] = cupy.zeros_like(a)

print(dest - a * b)

GPUs suportadas

Nota sobre notação: a capacidade de computação X.Y também é escrita SMXY ou sm_xy (por exemplo, 10.3 como SM103 ou sm_103) no software profissional da Nvidia e no código que a Nvidia contribuiu para o LLVM.^[45]

Abaixo está uma tabela das capacidades de computação CUDA suportadas com base na versão do SDK CUDA e microarquitetura, listadas por nome de código:

Suporte do SDK CUDA vs. microarquitetura (célula: capacidade de computação)
Versão(s) do SDK CUDA	Tesla	Fermi	Kepler (inicial)	Kepler (tardio)	Maxwell	Pascal	Volta	Turing	Ampere	Ada Lovelace	Hopper	Blackwell
1.0^[46]	1.0 – 1.1
1.1	1.0 – 1.1+x
2.0	1.0 – 1.1+x
2.1 – 2.3.1^[47]^[48]^[49]^[50]	1.0 – 1.3
3.0 – 3.1^[51]^[52]	1.0	2.0
3.2^[53]	1.0	2.1
4.0 – 4.2	1.0	2.1
5.0 – 5.5	1.0		3.0	3.5
6.0	1.0		3.2	3.5
6.5	1.1			3.7	5.x
7.0 – 7.5		2.0			5.x
8.0		2.0				6.x
9.0 – 9.2			3.0				7.0 – 7.2
10.0 – 10.2			3.0					7.5
11.0^[54]				3.5					8.0
11.1 – 11.4^[55]				3.5					8.6
11.5 – 11.7.1^[56]				3.5					8.7
11.8^[57]				3.5						8.9	9.0
12.0 – 12.6					5.0						9.0
12.8^[58]								7.5				12.0
12.9								7.5				12.1
13.0^[59]								7.5				12.1

Nota: CUDA SDK 10.2 é o último lançamento oficial para macOS, pois o suporte não estará disponível para macOS em versões mais recentes.

Capacidade de computação CUDA por versão com semicondutores GPU associados e modelos de placa GPU (separados por suas várias áreas de aplicação):

Semicondutores GPU e produtos de placa Nvidia GPU classificados por capacidade de computação
Capacidade de computação (versão)	Micro- arquitetura	GPUs	GeForce	Quadro, NVS	Tesla/Datacenter	Tegra, Jetson, DRIVE
1.0	Tesla	G80	GeForce 8800 Ultra, GeForce 8800 GTX, GeForce 8800 GTS(G80)	Quadro FX 5600, Quadro FX 4600, Quadro Plex 2100 S4	Tesla C870, Tesla D870, Tesla S870
1.1		G92, G94, G96, G98, G84, G86	GeForce GTS 250, GeForce 9800 GX2, GeForce 9800 GTX, GeForce 9800 GT, GeForce 8800 GTS(G92), GeForce 8800 GT, GeForce 9600 GT, GeForce 9500 GT, GeForce 9400 GT, GeForce 8600 GTS, GeForce 8600 GT, GeForce 8500 GT, GeForce G110M, GeForce 9300M GS, GeForce 9200M GS, GeForce 9100M G, GeForce 8400M GT, GeForce G105M	Quadro FX 4700 X2, Quadro FX 3700, Quadro FX 1800, Quadro FX 1700, Quadro FX 580, Quadro FX 570, Quadro FX 470, Quadro FX 380, Quadro FX 370, Quadro FX 370 Low Profile, Quadro NVS 450, Quadro NVS 420, Quadro NVS 290, Quadro NVS 295, Quadro Plex 2100 D4, Quadro FX 3800M, Quadro FX 3700M, Quadro FX 3600M, Quadro FX 2800M, Quadro FX 2700M, Quadro FX 1700M, Quadro FX 1600M, Quadro FX 770M, Quadro FX 570M, Quadro FX 370M, Quadro FX 360M, Quadro NVS 320M, Quadro NVS 160M, Quadro NVS 150M, Quadro NVS 140M, Quadro NVS 135M, Quadro NVS 130M, Quadro NVS 450, Quadro NVS 420,^[60] Quadro NVS 295
1.2		GT218, GT216, GT215	GeForce GT 340, GeForce GT 330, GeForce GT 320, GeForce 315, GeForce 310*, GeForce GT 240, GeForce GT 220, GeForce 210, GeForce GTS 360M, GeForce GTS 350M, GeForce GT 335M, GeForce GT 330M, GeForce GT 325M, GeForce GT 240M, GeForce G210M, GeForce 310M, GeForce 305M	Quadro FX 380 Low Profile, Quadro FX 1800M, Quadro FX 880M, Quadro FX 380M, Nvidia NVS 300, NVS 5100M, NVS 3100M, NVS 2100M, ION
1.3		GT200, GT200b	GeForce GTX 295, GTX 285, GTX 280, GeForce GTX 275, GeForce GTX 260	Quadro FX 5800, Quadro FX 4800, Quadro FX 4800 for Mac, Quadro FX 3800, Quadro CX, Quadro Plex 2200 D2	Tesla C1060, Tesla S1070, Tesla M1060
2.0	Fermi	GF100, GF110	GeForce GTX 590, GeForce GTX 580, GeForce GTX 570, GeForce GTX 480, GeForce GTX 470, GeForce GTX 465, GeForce GTX 480M	Quadro 6000, Quadro 5000, Quadro 4000, Quadro 4000 for Mac, Quadro Plex 7000, Quadro 5010M, Quadro 5000M	Tesla C2075, Tesla C2050/C2070, Tesla M2050/M2070/M2075/M2090
2.1	Fermi	GF104, GF106 GF108, GF114, GF116, GF117, GF119	GeForce GTX 560 Ti, GeForce GTX 550 Ti, GeForce GTX 460, GeForce GTS 450, GeForce GTS 450, GeForce GT 640 (GDDR3), GeForce GT 630, GeForce GT 620, GeForce GT 610, GeForce GT 520, GeForce GT 440, GeForce GT 440, GeForce GT 430, GeForce GT 430, GeForce GT 420, GeForce GTX 675M, GeForce GTX 670M, GeForce GT 635M, GeForce GT 630M, GeForce GT 625M, GeForce GT 720M, GeForce GT 620M, GeForce 710M, GeForce 610M, GeForce 820M, GeForce GTX 580M, GeForce GTX 570M, GeForce GTX 560M, GeForce GT 555M, GeForce GT 550M, GeForce GT 540M, GeForce GT 525M, GeForce GT 520MX, GeForce GT 520M, GeForce GTX 485M, GeForce GTX 470M, GeForce GTX 460M, GeForce GT 445M, GeForce GT 435M, GeForce GT 420M, GeForce GT 415M, GeForce 710M, GeForce 410M	Quadro 2000, Quadro 2000D, Quadro 600, Quadro 4000M, Quadro 3000M, Quadro 2000M, Quadro 1000M, NVS 310, NVS 315, NVS 5400M, NVS 5200M, NVS 4200M
3.0	Kepler	GK104, GK106, GK107	GeForce GTX 770, GeForce GTX 760, GeForce GT 740, GeForce GTX 690, GeForce GTX 680, GeForce GTX 670, GeForce GTX 660 Ti, GeForce GTX 660, GeForce GTX 650 Ti BOOST, GeForce GTX 650 Ti, GeForce GTX 650, GeForce GTX 880M, GeForce GTX 870M, GeForce GTX 780M, GeForce GTX 770M, GeForce GTX 765M, GeForce GTX 760M, GeForce GTX 680MX, GeForce GTX 680M, GeForce GTX 675MX, GeForce GTX 670MX, GeForce GTX 660M, GeForce GT 750M, GeForce GT 650M, GeForce GT 745M, GeForce GT 645M, GeForce GT 740M, GeForce GT 730M, GeForce GT 640M, GeForce GT 640M LE, GeForce GT 735M, GeForce GT 730M	Quadro K5000, Quadro K4200, Quadro K4000, Quadro K2000, Quadro K2000D, Quadro K600, Quadro K420, Quadro K500M, Quadro K510M, Quadro K610M, Quadro K1000M, Quadro K2000M, Quadro K1100M, Quadro K2100M, Quadro K3000M, Quadro K3100M, Quadro K4000M, Quadro K5000M, Quadro K4100M, Quadro K5100M, NVS 510, Quadro 410	Tesla K10, GRID K340, GRID K520, GRID K2
3.2		GK20A				Tegra K1, Jetson TK1
3.5		GK110, GK208	GeForce GTX Titan Z, GeForce GTX Titan Black, GeForce GTX Titan, GeForce GTX 780 Ti, GeForce GTX 780, GeForce GT 640 (GDDR5), GeForce GT 630 v2, GeForce GT 730, GeForce GT 720, GeForce GT 710, GeForce GT 740M (64-bit, DDR3), GeForce GT 920M	Quadro K6000, Quadro K5200	Tesla K40, Tesla K20x, Tesla K20
3.7		GK210			Tesla K80
5.0	Maxwell	GM107, GM108	GeForce GTX 750 Ti, GeForce GTX 750, GeForce GTX 960M, GeForce GTX 950M, GeForce 940M, GeForce 930M, GeForce GTX 860M, GeForce GTX 850M, GeForce 845M, GeForce 840M, GeForce 830M	Quadro K1200, Quadro K2200, Quadro K620, Quadro M2000M, Quadro M1000M, Quadro M600M, Quadro K620M, NVS 810	Tesla M10
5.2		GM200, GM204, GM206	GeForce GTX Titan X, GeForce GTX 980 Ti, GeForce GTX 980, GeForce GTX 970, GeForce GTX 960, GeForce GTX 950, GeForce GTX 750 SE, GeForce GTX 980M, GeForce GTX 970M, GeForce GTX 965M	Quadro M6000 24GB, Quadro M6000, Quadro M5000, Quadro M4000, Quadro M2000, Quadro M5500, Quadro M5000M, Quadro M4000M, Quadro M3000M	Tesla M4, Tesla M40, Tesla M6, Tesla M60
5.3		GM20B				Tegra X1, Jetson TX1, Jetson Nano, DRIVE CX, DRIVE PX
6.0	Pascal	GP100		Quadro GP100	Tesla P100
6.1		GP102, GP104, GP106, GP107, GP108	Nvidia TITAN Xp, Titan X, GeForce GTX 1080 Ti, GTX 1080, GTX 1070 Ti, GTX 1070, GTX 1060, GTX 1050 Ti, GTX 1050, GT 1030, GT 1010, MX350, MX330, MX250, MX230, MX150, MX130, MX110	Quadro P6000, Quadro P5000, Quadro P4000, Quadro P2200, Quadro P2000, Quadro P1000, Quadro P400, Quadro P500, Quadro P520, Quadro P600, Quadro P5000 (mobile), Quadro P4000 (mobile), Quadro P3000 (mobile)	Tesla P40, Tesla P6, Tesla P4
6.2		GP10B^[61]				Tegra X2, Jetson TX2, DRIVE PX 2
7.0	Volta	GV100	NVIDIA TITAN V	Quadro GV100	Tesla V100, Tesla V100S
7.2	Volta	GV10B^[62] GV11B^[63]^[64]				Tegra Xavier, Jetson Xavier NX, Jetson AGX Xavier, DRIVE AGX Xavier, DRIVE AGX Pegasus, Clara AGX
7.5	Turing	TU102, TU104, TU106, TU116, TU117	NVIDIA TITAN RTX, GeForce RTX 2080 Ti, RTX 2080 Super, RTX 2080, RTX 2070 Super, RTX 2070, RTX 2060 Super, RTX 2060 12GB, RTX 2060, GeForce GTX 1660 Ti, GTX 1660 Super, GTX 1660, GTX 1650 Super, GTX 1650, MX550, MX450	Quadro RTX 8000, Quadro RTX 6000, Quadro RTX 5000, Quadro RTX 4000, T1000, T600, T400 T1200 (mobile), T600 (mobile), T500 (mobile), Quadro T2000 (mobile), Quadro T1000 (mobile)	Tesla T4
8.0	Ampere	GA100			A100 80GB, A100 40GB, A30
8.6		GA102, GA103, GA104, GA106, GA107	GeForce RTX 3090 Ti, RTX 3090, RTX 3080 Ti, RTX 3080 12GB, RTX 3080, RTX 3070 Ti, RTX 3070, RTX 3060 Ti, RTX 3060, RTX 3050, RTX 3050 Ti (mobile), RTX 3050 (mobile), RTX 2050 (mobile), MX570	RTX A6000, RTX A5500, RTX A5000, RTX A4500, RTX A4000, RTX A2000 RTX A5000 (mobile), RTX A4000 (mobile), RTX A3000 (mobile), RTX A2000 (mobile)	A40, A16, A10, A2
8.7		GA10B				Jetson Orin Nano, Jetson Orin NX, Jetson AGX Orin, DRIVE AGX Orin, IGX Orin
8.9	Ada Lovelace^[65]	AD102, AD103, AD104, AD106, AD107	GeForce RTX 4090, RTX 4080 Super, RTX 4080, RTX 4070 Ti Super, RTX 4070 Ti, RTX 4070 Super, RTX 4070, RTX 4060 Ti, RTX 4060, RTX 4050 (mobile)	RTX 6000 Ada, RTX 5880 Ada, RTX 5000 Ada, RTX 4500 Ada, RTX 4000 Ada, RTX 4000 SFF Ada, RTX 2000 Ada, RTX 5000 Ada (mobile), RTX 4000 Ada (mobile), RTX 3500 Ada (mobile), RTX 2000 Ada (mobile)	L40S, L40, L20, L4, L2
9.0	Hopper	GH100			H200, H100, GH200
10.0	Blackwell	GB100			B200, B100, GB200
10.3		GB110			B300, GB300
11.0^[a]		GB10B				Jetson AGX Thor, DRIVE AGX Thor
12.0		GB202, GB203, GB205, GB206, GB207	GeForce RTX 5090, RTX 5080, RTX 5070 Ti, RTX 5070, RTX 5060 Ti, RTX 5060, RTX 5050	RTX PRO 6000 Blackwell Workstation, RTX PRO 5000 Blackwell, RTX PRO 4500 Blackwell, RTX PRO 4000 Blackwell	RTX PRO 6000 Blackwell Server
12.1		GB20B		DGX Spark
Capacidade de computação (versão)	Micro- arquitetura	GPUs	GeForce	Quadro, NVS	Tesla/Datacenter	Tegra, Jetson, DRIVE

* – produtos apenas para OEM

↑ CUDA Toolkit 13.0 renomeou o SM101 para GPUs Thor para SM110.

Recursos e especificações por versão

Nota: Uma GPU com uma capacidade de computação maior é capaz de executar código PTX destinado a uma GPU de uma faixa menor de capacidades de computação. No entanto, é possível compilar o código CUDA de uma forma que funcione apenas em uma família específica (mesmo "X") de GPUs; se o código existente for compilado dessa maneira, será necessária a recompilação para que ele funcione em uma GPU mais nova.^[45]

Suporte a recursos (recursos não listados são suportados por todas as capacidades de computação)	Capacidade de computação (versão)
	1.0, 1.1	1.2, 1.3	2.x	3.0	3.2	3.5, 3.7, 5.x, 6.x, 7.0, 7.2	7.5	8.x	9.0, 10.x, 12.x
Funções de votação de warp (__all(), __any())	Não	Sim
Funções de votação de warp (__ballot())	Não		Sim
Funções de barreira de memória (__threadfence_system())
Funções de sincronização (__syncthreads_count(), __syncthreads_and(), __syncthreads_or())
Funções de superfície (surface)
Grid 3D de blocos de threads
Funções de embaralhamento de warp (warp shuffle)	Não			Sim
Programação de memória unificada (unified memory)	Não			Sim
Deslocamento de funil (funnel shift)	Não				Sim
Paralelismo dinâmico	Não					Sim
Caminho de dados uniforme (Uniform Datapath)^[66]	Não						Sim
Cópia assíncrona acelerada por hardware	Não							Sim
Barreira assíncrona de divisão de chegada/espera (split arrive/wait barrier) acelerada por hardware
Suporte em nível de warp para operações de redução
Gerenciamento de residência em cache L2
Instruções DPX para programação dinâmica acelerada	Não								Sim
Memória compartilhada distribuída
Cluster de blocos de threads (Thread block cluster)
Unidade aceleradora de memória de tensor (TMA)
Suporte a recursos (recursos não listados são suportados por todas as capacidades de computação)	1.0, 1.1	1.2, 1.3	2.x	3.0	3.2	3.5, 3.7, 5.x, 6.x, 7.0, 7.2	7.5	8.x	9.0, 10.x, 12.x
	Capacidade de computação (versão)

^[67]

Tipos de dados

Tipos de ponto flutuante

Tipo de dados	Tipos vetoriais suportados	Bits					Comentários
Tipo de dados	Tipos vetoriais suportados	Comprimento de armazenamento (vetor completo)	Comprimento utilizado (valor único)	Sinal	Expoente	Mantissa	Comentários
E2M1 = FP4	e2m1x2 / e2m1x4	8 / 16	4	1	2	1
E2M3 = variante FP6	e2m3x2 / e2m3x4	16 / 32	6	1	2	3
E3M2 = variante FP6	e3m2x2 / e3m2x4	16 / 32	6	1	3	2
UE4M3	ue4m3	8	7	0	4	3	Usado para dimensionamento (apenas E2M1)
E4M3 = variante FP8	e4m3 / e4m3x2 / e4m3x4	8 / 16 / 32	8	1	4	3
E5M2 = variante FP8	e5m2 / e5m2x2 / e5m2x4	8 / 16 / 32	8	1	5	2	Expoente/faixa do FP16, cabe em 8 bits
UE8M0	ue8m0x2	16	8	0	8	0	Usado para dimensionamento (qualquer formato FP4, FP6 ou FP8)
FP16	f16 / f16x2	16 / 32	16	1	5	10
BF16	bf16 / bf16x2	16 / 32	16	1	8	7	Expoente/faixa do FP32, cabe em 16 bits
TF32	tf32	32	19	1	8	10	Expoente/faixa do FP32, mantissa/precisão do FP16
FP32	f32 / f32x2	32 / 64	32	1	8	23
FP64	f64	64	64	1	11	52

Suporte de versão

Tipo de dados	Operações básicas	Suportado desde	Operações atômicas	Suportado desde para memória global	Suportado desde para memória compartilhada
Inteiro de 8 bits com/sem sinal	leitura, escrita, conversão	1.0	N/A	N/A
Inteiro de 16 bits com/sem sinal	operações gerais	1.0	atomicCAS()	3.5
Inteiro de 32 bits com/sem sinal	operações gerais	1.0	funções atômicas	1.1	1.2
Inteiro de 64 bits com/sem sinal	operações gerais	1.0	funções atômicas	1.2	2.0
Qualquer tipo trivialmente copiável de 128 bits	operações gerais	Não	atomicExch, atomicCAS	9.0
Ponto flutuante de 16 bits FP16	adição, subtração, multiplicação, comparação, funções de embaralhamento de warp, conversão	5.3	adição atômica half2	6.0
Ponto flutuante de 16 bits FP16		5.3	adição atômica	7.0
Ponto flutuante de 16 bits BF16	adição, subtração, multiplicação, comparação, funções de embaralhamento de warp, conversão	8.0	adição atômica	8.0
Ponto flutuante de 32 bits	operações gerais	1.0	atomicExch()	1.1	1.2
Ponto flutuante de 32 bits	operações gerais	1.0	adição atômica	2.0
Ponto flutuante de 32 bits float2 e float4	operações gerais	Não	adição atômica	9.0
Ponto flutuante de 64 bits	operações gerais	1.3	adição atômica	6.0

Nota: Quaisquer linhas ausentes ou entradas vazias refletem a falta de informações sobre aquele item exato.^[68]

Tensor cores

FMA por ciclo por tensor core^[69]	Suportado desde		7.0	7.2	7.5 Workstation	7.5 Desktop	8.0	8.6 Workstation	8.6 Desktop	8.9 Desktop	8.9 Workstation	9.0	10.0	10.1	12.0
Tipo de dados	Para matrizes densas	Para matrizes esparsas	1ª Ger (8x/SM)	1ª Ger? (8x/SM)	2ª Ger (8x/SM)		3ª Ger (4x/SM)			4ª Ger (4x/SM)			5ª Ger (4x/SM)
Valores de 1 bit (AND)	8.0 como experimental	Não	Não				4096		2048			8192	Não
Valores de 1 bit (XOR)	7.5–8.9 como experimental	Não	Não		1024		4096		2048			Não	Não
Inteiros de 4 bits	7.5–8.9 como experimental	8.0–8.9 como experimental	Não		256		1024		512			mma.sync legado	Não
Ponto flutuante de 4 bits FP4 (E2M1)	10.0		Não										4096	a definir	512
Ponto flutuante de 6 bits FP6 (E3M2 e E2M3)	10.0		Não										2048		a definir
Inteiros de 8 bits	7.2	8.0	Não	128	128		512		256			1024	2048		256
Ponto flutuante de 8 bits FP8 (E4M3 e E5M2) com acúmulo em FP16	8.9		Não							256					256
Ponto flutuante de 8 bits FP8 (E4M3 e E5M2) com acúmulo em FP32	8.9		Não							128					128
Ponto flutuante de 16 bits FP16 com acúmulo em FP16	7.0	8.0	64		64	64	256		128			512	1024		128
Ponto flutuante de 16 bits FP16 com acúmulo em FP32	7.0	8.0	64		64	32			64		128				64
Ponto flutuante de 16 bits BF16 com acúmulo em FP32	7.5^[70]	8.0	Não		64^[71]				64		128				64
Ponto flutuante de 32 bits (19 bits utilizados) TF32	7.5^[70]	8.0			vel. a definir (32?)^[71]		128		32		64	256	512		32
Ponto flutuante de 64 bits	8.0	Não			Não		16	velocidade a definir				32	16		a definir

Nota: Quaisquer linhas ausentes ou entradas vazias refletem a falta de informações sobre aquele item exato.^[72]

Composição do Tensor Core	7.0	7.2, 7.5	8.0, 8.6	8.7	9.0
Largura da unidade de produto escalar em unidades FP16 (em bytes)^[73]	4 (8)		8 (16)	4 (8)	16 (32)
Unidades de produto escalar por Tensor Core	16		32
Tensor Cores por partição de SM	2		1
Taxa de transferência total (Bytes/ciclo)^[74] por partição de SM^[75]	256		512	256	1024
FP Tensor Cores: Ciclos mínimos para cálculo de matriz em todo o warp	8		4	8
FP Tensor Cores: Forma mínima de matriz para taxa de transferência total (Bytes)^[76]	2048
INT Tensor Cores: Ciclos mínimos para cálculo de matriz em todo o warp	Não	4
INT Tensor Cores: Forma mínima de matriz para taxa de transferência total (Bytes)	Não	1024	2048	1024

Composição do FP64 Tensor Core	8.0	8.6	9.0
Largura da unidade de produto escalar em unidades FP64 (em bytes)	4 (32)	a definir	4 (32)
Unidades de produto escalar por Tensor Core	4	a definir	8
Tensor Cores por partição de SM	1
Taxa de transferência total (Bytes/ciclo)^[74] por partição de SM^[75]	128	a definir	256
Ciclos mínimos para cálculo de matriz em todo o warp	16	a definir
Forma mínima de matriz para taxa de transferência total (Bytes)^[76]	2048

Especificações técnicas

Especificações técnicas	Capacidade de computação (versão)
Especificações técnicas	1.0	1.1	1.2	1.3	2.x	3.0	3.2	3.5	3.7	5.0	5.2	5.3	6.0	6.1	6.2	7.0	7.2	7.5	8.0	8.6	8.7	8.9	9.0	10.x	12.x
Número máximo de grids residentes por dispositivo (execução simultânea de kernels, pode ser menor para dispositivos específicos)	1				16		4	32				16	128	32	16	128	16	128
Dimensionalidade máxima do grid de blocos de threads	2				3
Dimensão X máxima de um grid de blocos de threads	65535					2³¹ − 1
Dimensão Y ou Z máxima de um grid de blocos de threads	65535
Dimensionalidade máxima do bloco de threads	3
Dimensão X ou Y máxima de um bloco	512				1024
Dimensão Z máxima de um bloco	64
Número máximo de threads por bloco	512				1024
Tamanho do Warp	32
Número máximo de blocos residentes por multiprocessador	8					16				32								16	32	16		24	32
Número máximo de warps residentes por multiprocessador	24		32		48	64												32	64	48			64		48
Número máximo de threads residentes por multiprocessador	768		1024		1536	2048												1024	2048	1536			2048		1536
Número de registradores regulares de 32 bits por multiprocessador	8 K		16 K		32 K	64 K			128 K	64 K
Número de registradores uniformes de 32 bits por multiprocessador	Não																	2 K^[77]
Número máximo de registradores de 32 bits por bloco de threads	8 K		16 K		32 K	64 K	32 K	64 K				32 K	64 K		32 K	64 K
Número máximo de registradores regulares de 32 bits por thread	124				63		255
Número máximo de registradores uniformes de 32 bits por warp	Não																	63
Quantidade de memória compartilhada por multiprocessador (do total de memória compartilhada + cache L1, quando aplicável)	16 KiB				16 / 48 KiB (de 64 KiB)	16 / 32 / 48 KiB (de 64 KiB)			80 / 96 / 112 KiB (de 128 KiB)	64 KiB	96 KiB	64 KiB		96 KiB	64 KiB	0 / 8 / 16 / 32 / 64 / 96 KiB (de 128 KiB)		32 / 64 KiB (de 96 KiB)	0 / 8 / 16 / 32 / 64 / 100 / 132 / 164 KiB (de 192 KiB)	0 / 8 / 16 / 32 / 64 / 100 KiB (de 128 KiB)	0 / 8 / 16 / 32 / 64 / 100 / 132 / 164 KiB (de 192 KiB)	0 / 8 / 16 / 32 / 64 / 100 KiB (de 128 KiB)	0 / 8 / 16 / 32 / 64 / 100 / 132 / 164 / 196 / 228 KiB (de 256 KiB)		0 / 8 / 16 / 32 / 64 / 100 KiB (de 128 KiB)
Quantidade máxima de memória compartilhada por bloco de threads	16 KiB				48 KiB											96 KiB	48 KiB	64 KiB	163 KiB	99 KiB	163 KiB	99 KiB	227 KiB		99 KiB
Número de bancos de memória compartilhada	16				32
Quantidade de memória local por thread	16 KiB				512 KiB
Tamanho da memória constante acessível por CUDA C/C++	64 KiB
Conjunto de trabalho do cache (working set) por multiprocessador para memória constante	8 KiB												4 KiB	8 KiB
Conjunto de trabalho do cache (working set) por multiprocessador para memória de textura	16 KiB por TPC			24 KiB por TPC	12 KiB	12 – 48 KiB				24 KiB	48 KiB	32 KiB	24 KiB	48 KiB	24 KiB	32 – 128 KiB		32 – 64 KiB	28 – 192 KiB	28 – 128 KiB	28 – 192 KiB	28 – 128 KiB	28 – 256 KiB
Largura máxima para uma referência de textura 1D vinculada a uma matriz CUDA (CUDA array)	8192				65536								131072
Largura máxima para uma referência de textura 1D vinculada a uma memória linear	2²⁷												2²⁸	2²⁷		2²⁸	2²⁷	2²⁸
Largura máxima e número de camadas para uma referência de textura linearizada (layered) 1D	8192 × 512				16384 × 2048								32768 x 2048
Largura e altura máximas para uma referência de textura 2D vinculada a uma matriz CUDA	65536 × 32768				65536 × 65535								131072 x 65536
Largura e altura máximas para uma referência de textura 2D vinculada a uma memória linear	65000 x 65000									65536 x 65536			131072 x 65000
Largura e altura máximas para uma referência de textura 2D vinculada a uma matriz CUDA com suporte a coleta de textura	N/A				16384 x 16384								32768 x 32768
Largura, altura máxima e número de camadas para uma referência de textura linearizada (layered) 2D	8192 × 8192 × 512				16384 × 16384 × 2048								32768 x 32768 x 2048
Largura, altura e profundidade máximas para uma referência de textura 3D vinculada a memória linear ou matriz CUDA	2048³					4096³							16384³
Largura (e altura) máxima para uma referência de textura de mapa de cubo (cubemap)	N/A				16384								32768
Largura (e altura) máxima e número de camadas para uma referência de textura linearizada de mapa de cubo (cubemap layered)	N/A				16384 × 2046								32768 × 2046
Número máximo de texturas que podem ser vinculadas a um kernel	128					256
Largura máxima para uma referência de superfície (surface) 1D vinculada a uma matriz CUDA	Não suportado				65536					16384			32768
Largura máxima e número de camadas para uma referência de superfície linearizada (layered) 1D					65536 × 2048					16384 × 2048			32768 × 2048
Largura e altura máximas para uma referência de superfície 2D vinculada a uma matriz CUDA					65536 × 32768					16384 × 65536			131072 × 65536
Largura, altura máxima e número de camadas para uma referência de superfície linearizada (layered) 2D					65536 × 32768 × 2048					16384 × 16384 × 2048			32768 × 32768 × 2048
Largura, altura e profundidade máximas para uma referência de superfície 3D vinculada a uma matriz CUDA					65536 × 32768 × 2048					4096 × 4096 × 4096			16384 × 16384 × 16384
Largura (e altura) máxima para uma referência de superfície de mapa de cubo (cubemap) vinculada a uma matriz CUDA					32768					16384			32768
Largura máxima e número de camadas para uma referência de superfície linearizada de mapa de cubo (cubemap layered)					32768 × 2046					16384 × 2046			32768 × 2046
Número máximo de superfícies que podem ser vinculadas a um kernel					8	16										32
Número máximo de instruções por kernel	2 milhões				512 milhões
Número máximo de blocos de threads por cluster de blocos de threads (Thread Block Cluster)^[78]	Não																						16		8
Especificações técnicas	1.0	1.1	1.2	1.3	2.x	3.0	3.2	3.5	3.7	5.0	5.2	5.3	6.0	6.1	6.2	7.0	7.2	7.5	8.0	8.6	8.7	8.9	9.0	10.x	12.x
Especificações técnicas	Capacidade de computação (versão)

Arquitetura do multiprocessador

Especificações de arquitetura	Capacidade de computação (versão)
Especificações de arquitetura	1.0	1.1	1.2	1.3	2.0	2.1	3.0	3.2	3.5	3.7	5.0	5.2	5.3	6.0	6.1	6.2	7.0	7.2	7.5	8.0	8.6	8.7	8.9	9.0	10.x	12.x
Número de vias ALU para operações aritméticas INT32	8				32	48	192				128		128	64	128	128	64				64		64		128
Número de vias ALU para qualquer operação aritmética INT32 ou FP32																	N/A				64		N/A
Número de vias ALU para operações aritméticas FP32																	64			64			128	128
Número de vias ALU para operações aritméticas FP16x2	Não														1		64			128	128		64	128
Número de vias ALU para operações aritméticas FP64	Não			1	16 por FP32	4 por FP32	8		8 / 64	64	4			32	4		32		2	32	2			64		2
Número de unidades de leitura/escrita (Load/Store Units)	4 por 2 SM	8 por 2 SM	8 por 2 SM / 3 SM	8 por 3 SM	16		32							16	32					16				32
Número de unidades de funções especiais (SFU) para funções transcendentais	2				4	8	32						16		32		16
Número de unidades de mapeamento de textura (TMU)	4 por 2 SM	8 por 2 SM	8 por 2 / 3SM	8 por 3 SM	4	4 / 8	16	8	16		8						4
Número de vias ALU para operações aritméticas INT32 uniformes	Não																		2
Número de tensor cores	Não																8 (1ª ger.)		0 / 8 (2ª ger.)	4 (3ª ger.)			4 (4ª ger.)
Número de núcleos de raytracing (RT Cores)	Não																		0 / 1 (1ª ger.)	Não	1 (2ª ger.)	Não	1 (3ª ger.)	Não
Número de partições de SM = Blocos de processamento	1										4			2	4
Número de escalonadores de warp (warp schedulers) por partição de SM	1				2		4				1
Número máximo de novas instruções emitidas a cada ciclo por um único escalonador	2				1	2	2										1
Tamanho da memória unificada para cache de dados e memória compartilhada	16 KiB			16 KiB	64 KiB					128 KiB	64 KiB SM + 24 KiB L1 (separado)	96 KiB SM + 24 KiB L1 (separado)	64 KiB SM + 24 KiB L1 (separado)	64 KiB SM + 24 KiB L1 (separado)	96 KiB SM + 24 KiB L1 (separado)	64 KiB SM + 24 KiB L1 (separado)	128 KiB		96 KiB	192 KiB	128 KiB	192 KiB	128 KiB	256 KiB
Tamanho do cache de instruções L3 por GPU				32 KiB			usa Cache de Dados L2
Tamanho do cache de instruções L2 por Cluster de Processador de Textura (TPC)				8 KiB			usa Cache de Dados L2
Tamanho do cache de instruções L1.5 por SM				4 KiB						32 KiB		32 KiB	48 KiB	128 KiB	32 KiB		128 KiB		~46 KiB	128 KiB
Tamanho do cache de instruções L1 por SM				4 KiB						8 KiB				8 KiB			128 KiB		~46 KiB	128 KiB
Tamanho do cache de instruções L0 por partição de SM	apenas 1 partição por SM										Não						12 KiB		16 KiB?	32 KiB
Largura da instrução	instruções de 32 bits e 64 bits						instruções de 64 bits + lógica de controle a cada 7 instruções				instruções de 64 bits + lógica de controle a cada 3 instruções						instrução combinada de 128 bits e lógica de controle
Largura do barramento de memória por partição de memória em bits	64 ((G)DDR)												32 ((G)DDR)	512 (HBM)	32 ((G)DDR)		512 (HBM)	32 ((G)DDR)		512 (HBM)	32 ((G)DDR)			512 (HBM)		32 ((G)DDR)
Cache L2 por partição de memória	16 KiB			32 KiB	128 KiB				256 KiB		1 MiB	512 KiB	128 KiB	512 KiB	256 KiB	128 KiB	768 KiB	64 KiB	512 KiB	4 MiB	512 KiB		8 MiB	5 MiB	6.25 MiB	8 MiB
Número de unidades de saída de renderização (ROP) por partição	4				8			4	8			16	8	12	8	4	16	2	8	16	16 por GPC	3 por GPC	16 por GPC
Especificações de arquitetura	1.0	1.1	1.2	1.3	2.0	2.1	3.0	3.2	3.5	3.7	5.0	5.2	5.3	6.0	6.1	6.2	7.0	7.2	7.5	8.0	8.6	8.7	8.9	9.0	10.x	12.x
Especificações de arquitetura	Capacidade de computação (versão)

Para mais informações, leia o Guia de Programação Nvidia CUDA C++.^[79]

Usos da arquitetura CUDA

Renderização acelerada de gráficos 3D
Interconversão acelerada de formatos de arquivo de vídeo
Criptografia, descriptografia e compressão aceleradas
Bioinformática, por exemplo, sequenciamento de DNA NGS BarraCUDA^[80]
Cálculos distribuídos, como prever a conformação nativa de proteínas
Simulações de análise médica, por exemplo, realidade virtual baseada em imagens de tomografia computadorizada (TC) e ressonância magnética (RM)
Simulações físicas,^[81] particularmente em dinâmica dos fluidos
Treinamento de redes neurais em problemas de aprendizado de máquina
Inferência de Modelos de Linguagem Grande
Reconhecimento facial
Projetos de computação voluntária, como SETI@home e outros projetos usando software BOINC
Dinâmica molecular
Mineração de criptomoedas
Software de estrutura a partir do movimento (SfM)

Comparação com concorrentes

CUDA compete com outras pilhas de computação GPU: Intel OneAPI e AMD ROCm.

Enquanto a CUDA da Nvidia é de código fechado, a OneAPI da Intel e a ROCm da AMD são de código aberto.

Intel OneAPI

oneAPI é uma iniciativa baseada em padrões abertos, criada para apoiar o desenvolvimento de software para múltiplas arquiteturas de hardware.^[82] As bibliotecas oneAPI devem implementar especificações abertas que são discutidas publicamente pelos Grupos de Interesse Especial, oferecendo a possibilidade de qualquer desenvolvedor ou organização implementar suas próprias versões das bibliotecas oneAPI.^[83]^[84]

Originalmente feita pela Intel, outros adotantes de hardware incluem Fujitsu e Huawei.

Fundação de Aceleração Unificada (UXL)

A Fundação de Aceleração Unificada (UXL) é um novo consórcio de tecnologia que trabalha na continuação da iniciativa OneAPI, com o objetivo de criar um novo ecossistema de software acelerador de padrão aberto, projetos de padrões abertos relacionados e especificações através de Grupos de Trabalho e Grupos de Interesse Especial (SIGs). O objetivo é oferecer alternativas abertas à CUDA da Nvidia. As principais empresas por trás disso são Intel, Google, ARM, Qualcomm, Samsung, Imagination e VMware.^[85]

AMD ROCm

ROCm^[86] é uma pilha de software de código aberto para programação de unidade de processamento gráfico (GPU) da Advanced Micro Devices (AMD).

Ver também

SYCL – um padrão aberto do Khronos Group para programar uma variedade de plataformas, incluindo GPUs, com C++ moderno single-source, semelhante à API Runtime CUDA de nível superior (single-source)
Computação paralela
Vulkan – API de computação e gráficos 3D de baixo nível e alto desempenho

Referências

↑ «Index of /compute/cuda/redist». Consultado em 10 março 2026
↑ «NVIDIA® CUDA™ Unleashes Power of GPU Computing - Press Release». nvidia.com. Consultado em 26 de janeiro de 2025. Cópia arquivada em 29 de março de 2007
↑ ^a ^b Shah, Agam. «Nvidia not totally against third parties making CUDA chips». www.theregister.com (em inglês). Consultado em 25 de abril de 2024. Cópia arquivada em 16 de novembro de 2025
↑ «Nvidia CUDA Home Page». 18 de julho de 2017. Cópia arquivada em 16 de novembro de 2025
↑ Shimpi, Anand Lal; Wilson, Derek (8 de novembro de 2006). «Nvidia's GeForce 8800 (G80): GPUs Re-architected for DirectX 10». AnandTech. Consultado em 16 de maio de 2015. Arquivado do original em 24 de abril de 2010
↑ «Introduction – nsight-visual-studio-edition 12.6 documentation». docs.nvidia.com. Consultado em 10 de outubro de 2024. Cópia arquivada em 23 de maio de 2026
↑ ^a ^b Abi-Chahla, Fedy (18 de junho de 2008). «Nvidia's CUDA: The End of the CPU?». Tom's Hardware. Consultado em 17 de maio de 2015. Cópia arquivada em 28 de maio de 2026
↑ Jones, Stephen (22 de abril de 2025). What is CUDA? (Vídeo). Computerphile. Consultado em 24 de julho de 2025. Cópia arquivada em 8 de março de 2026 – via YouTube
↑ Zunitch, Peter (24 de janeiro de 2018). «CUDA vs. OpenCL vs. OpenGL». Videomaker (em inglês). Consultado em 16 de setembro de 2018
↑ «OpenCL». NVIDIA Developer (em inglês). 24 de abril de 2013. Consultado em 4 de novembro de 2019
↑ ^a ^b Cosgrove, Emma. «Ian Buck built Nvidia's secret weapon. He may spend the rest of his career defending it.». Business Insider (em inglês). Consultado em 24 de julho de 2025. Cópia arquivada em 28 de maio de 2026
↑ «John Nickolls Obituary – Los Altos, CA». The Mercury News (em inglês). 29 de setembro de 2011. Consultado em 23 de novembro de 2025. John Richard Nickolls, who passed away in Los Altos, California on August 13, 2011 after a courageous battle against cancer. He was born on March 6, 1950 to Kenneth and Kathryn Nickolls and grew up in Wilbraham, Massachusetts.
↑ Witt, Stephen (27 de novembro de 2023). «How Jensen Huang's Nvidia Is Powering the A.I. Revolution». The New Yorker (em inglês). ISSN 0028-792X. Consultado em 10 de dezembro de 2023. Cópia arquivada em 28 de maio de 2026
↑ «CUDA LLVM Compiler». 7 de maio de 2012. Cópia arquivada em 28 de maio de 2026
↑ «Compiling CUDA with clang – LLVM 22.0.0git documentation». llvm.org
↑ First OpenCL demo on a GPU no YouTube
↑ DirectCompute Ocean Demo Running on Nvidia CUDA-enabled GPU no YouTube
↑ Vasiliadis, Giorgos; Antonatos, Spiros; Polychronakis, Michalis; Markatos, Evangelos P.; Ioannidis, Sotiris (setembro de 2008). «Gnort: High Performance Network Intrusion Detection Using Graphics Processors» (PDF). Recent Advances in Intrusion Detection. Col: Lecture Notes in Computer Science. 5230. [S.l.: s.n.] pp. 116–134. ISBN 978-3-540-87402-7. doi:10.1007/978-3-540-87403-4_7
↑ Schatz, Michael C.; Trapnell, Cole; Delcher, Arthur L.; Varshney, Amitabh (2007). «High-throughput sequence alignment using Graphics Processing Units». BMC Bioinformatics. 8. PMC 2222658. PMID 18070356. doi:10.1186/1471-2105-8-474
↑ Manavski, Svetlin A.; Giorgio, Valle (2008). «CUDA compatible GPU cards as efficient hardware accelerators for Smith-Waterman sequence alignment». BMC Bioinformatics. 10 (Suppl 2): S10. PMC 2323659. PMID 18387198. doi:10.1186/1471-2105-9-S2-S10
↑ «Pyrit – Google Code». Cópia arquivada em 14 de agosto de 2016
↑ «Use your Nvidia GPU for scientific computing». boinc.berkeley.edu. Berkeley Open Infrastructure for Network Computing (BOINC). 18 de dezembro de 2008. Consultado em 8 de agosto de 2017. Arquivado do original em 28 de dezembro de 2008
↑ «Nvidia CUDA Software Development Kit (CUDA SDK) – Release Notes Version 2.0 for MAC OS X». Arquivado do original em 6 de janeiro de 2009
↑ «CUDA 1.1 – Now on Mac OS X». 14 de fevereiro de 2008. Arquivado do original em 22 de novembro de 2008
↑ «CUDA 11 Features Revealed». 14 de maio de 2020. Cópia arquivada em 28 de maio de 2026
↑ «CUDA Toolkit 11.1 Introduces Support for GeForce RTX 30 Series and Quadro RTX Series GPUs». 23 de setembro de 2020. Cópia arquivada em 28 de maio de 2026
↑ «Enhancing Memory Allocation with New NVIDIA CUDA 11.2 Features». 16 de dezembro de 2020. Cópia arquivada em 28 de maio de 2026
↑ «Exploring the New Features of CUDA 11.3». 16 de abril de 2021. Cópia arquivada em 28 de maio de 2026
↑ Silberstein, Mark; Schuster, Assaf; Geiger, Dan; Patney, Anjul; Owens, John D. (2008). «Efficient computation of sum-products on GPUs through software-managed cache» (PDF). Proceedings of the 22nd annual international conference on Supercomputing – ICS '08 (PDF). Proceedings of the 22nd annual international conference on Supercomputing – ICS '08. pp. 309–318. ISBN 978-1-60558-158-3. doi:10.1145/1375527.1375572
↑ «CUDA C Programming Guide v8.0» (PDF). nVidia Developer Zone. Janeiro de 2017. p. 19. Consultado em 22 de março de 2017. Cópia arquivada (PDF) em 28 de maio de 2026
↑ «NVCC forces c++ compilation of .cu files». 29 de novembro de 2011. Cópia arquivada em 23 de setembro de 2019
↑ Whitehead, Nathan; Fit-Florea, Alex. «Precision & Performance: Floating Point and IEEE 754 Compliance for Nvidia GPUs» (PDF). Nvidia. Consultado em 18 de novembro de 2014. Cópia arquivada (PDF) em 23 de abril de 2024
↑ «CUDA-Enabled Products». CUDA Zone. Nvidia Corporation. Consultado em 3 de novembro de 2008. Cópia arquivada em 6 de janeiro de 2010
↑ «Coriander Project: Compile CUDA Codes To OpenCL, Run Everywhere». Phoronix. Cópia arquivada em 22 de setembro de 2021
↑ Perkins, Hugh (2017). «cuda-on-cl» (PDF). IWOCL. Consultado em 8 de agosto de 2017
↑ «hughperkins/coriander: Build NVIDIA® CUDA™ code for OpenCL™ 1.2 devices». GitHub. 6 de maio de 2019. Cópia arquivada em 28 de maio de 2026
↑ «CU2CL Documentation». chrec.cs.vt.edu
↑ «GitHub – vosen/ZLUDA». GitHub. Cópia arquivada em 28 de maio de 2026
↑ Citação:
↑ «GitHub – chip-spv/chipStar». GitHub. Cópia arquivada em 28 de maio de 2026
↑ «New SCALE tool enables CUDA applications to run on AMD GPUs». Tom's Hardware. 17 de julho de 2024
↑ «PyCUDA». Cópia arquivada em 28 de maio de 2026
↑ «pycublas». Consultado em 8 de agosto de 2017. Arquivado do original em 20 de abril de 2009
↑ «CuPy». cupy.dev (em inglês). Consultado em 23 de setembro de 2025
↑ ^a ^b «User Guide for NVPTX Back-end — LLVM 22.0.0git documentation». llvm.org. Cópia arquivada em 28 de maio de 2026
↑ «NVIDIA CUDA Programming Guide. Version 1.0» (PDF). 23 de junho de 2007. Cópia arquivada (PDF) em 28 de maio de 2026
↑ «NVIDIA CUDA Programming Guide. Version 2.1» (PDF). 8 de dezembro de 2008. Cópia arquivada (PDF) em 24 de fevereiro de 2021
↑ «NVIDIA CUDA Programming Guide. Version 2.2» (PDF). 2 de abril de 2009. Cópia arquivada (PDF) em 21 de abril de 2021
↑ «NVIDIA CUDA Programming Guide. Version 2.2.1» (PDF). 26 de maio de 2009. Cópia arquivada (PDF) em 7 de março de 2021
↑ «NVIDIA CUDA Programming Guide. Version 2.3.1» (PDF). 26 de agosto de 2009. Cópia arquivada (PDF) em 24 de fevereiro de 2021
↑ «NVIDIA CUDA Programming Guide. Version 3.0» (PDF). 20 de fevereiro de 2010. Cópia arquivada (PDF) em 28 de julho de 2021
↑ «NVIDIA CUDA C Programming Guide. Version 3.1.1» (PDF). 21 de julho de 2010. Cópia arquivada (PDF) em 15 de julho de 2021
↑ «NVIDIA CUDA C Programming Guide. Version 3.2» (PDF). 9 de novembro de 2010
↑ «CUDA 11.0 Release Notes». NVIDIA Developer. Cópia arquivada em 28 de maio de 2026
↑ «CUDA 11.1 Release Notes». NVIDIA Developer. Cópia arquivada em 28 de maio de 2026
↑ «CUDA 11.5 Release Notes». NVIDIA Developer. Cópia arquivada em 28 de maio de 2026
↑ «CUDA 11.8 Release Notes». NVIDIA Developer. Cópia arquivada em 28 de maio de 2026
↑ «pytorch/RELEASE.md at main · pytorch/pytorch Backend». github.com. Consultado em 28 de março de 2026. Cópia arquivada em 28 de maio de 2026
↑ «Support Matrix – NVIDIA cuDNN Backend». docs.nvidia.com. Consultado em 20 de agosto de 2025
↑ «NVIDIA Quadro NVS 420 Specs». TechPowerUp GPU Database. 25 de agosto de 2023
↑ Larabel, Michael (29 de março de 2017). «NVIDIA Rolls Out Tegra X2 GPU Support In Nouveau». Phoronix. Consultado em 8 de agosto de 2017. Cópia arquivada em 23 de abril de 2022
↑ Nvidia Xavier Specs on TechPowerUp (preliminary)
↑ «Welcome – Jetson LinuxDeveloper Guide 34.1 documentation». Cópia arquivada em 15 de abril de 2022
↑ «NVIDIA Bringing up Open-Source Volta GPU Support for Their Xavier SoC». Cópia arquivada em 3 de fevereiro de 2022
↑ «NVIDIA Ada Lovelace Architecture». Cópia arquivada em 28 de maio de 2026
↑ Dissecting the Turing GPU Architecture through Microbenchmarking
↑ «H.1. Features and Technical Specifications – Table 13. Feature Support per Compute Capability». docs.nvidia.com (em inglês). Consultado em 23 de setembro de 2020
↑ «CUDA C++ Programming Guide»
↑ Fused-Multiply-Add, realmente executado, Matriz Densa
↑ como SASS desde 7.5, como PTX desde 8.0
↑ ^a ^b suporte não oficial em SASS
↑ «Technical brief. NVIDIA Jetson AGX Orin Series» (PDF). nvidia.com. Consultado em 5 setembro 2023
↑ Nos Whitepapers...
↑ ^a ^b forma x tamanho do operando convertido...
↑ ^a ^b = produto das primeiras 3 linhas da tabela
↑ ^a ^b = produto das 2 linhas anteriores...
↑ ...
↑ ...
↑ «CUDA C++ Programming Guide, Compute Capabilities». docs.nvidia.com (em inglês). Consultado em 6 de fevereiro de 2025. Cópia arquivada em 24 de maio de 2026
↑ «nVidia CUDA Bioinformatics: BarraCUDA». BioCentric (em inglês). 19 de julho de 2019. Consultado em 15 de outubro de 2019. Cópia arquivada em 28 de maio de 2026
↑ «Part V: Physics Simulation». NVIDIA Developer (em inglês). Consultado em 11 de setembro de 2020. Cópia arquivada em 28 de maio de 2026
↑ «oneAPI Programming Model». oneAPI.io (em inglês). Consultado em 27 de julho de 2024. Cópia arquivada em 28 de maio de 2026
↑ «Specifications | oneAPI». oneAPI.io (em inglês). Consultado em 27 de julho de 2024. Cópia arquivada em 28 de maio de 2026
↑ «oneAPI Specification – oneAPI Specification 1.3-rev-1 documentation». oneapi-spec.uxlfoundation.org. Consultado em 27 de julho de 2024. Cópia arquivada em 28 de maio de 2026
↑ Cherney, Max A. (26 de março de 2024). «Exclusive: Behind the plot to break Nvidia's grip on AI by targeting software». Reuters. Consultado em 5 de abril de 2024
↑ «Question: What does ROCm stand for? · Issue #1628 · RadeonOpenCompute/ROCm». Github.com. Consultado em 18 de janeiro de 2022. Cópia arquivada em 6 de novembro de 2023

Leitura adicional

Buck, Ian; Foley, Tim; Horn, Daniel; Sugerman, Jeremy; Fatahalian, Kayvon; Houston, Mike; Hanrahan, Pat (1 de agosto de 2004). «Brook for GPUs: stream computing on graphics hardware». ACM Transactions on Graphics. 23 (3): 777–786. ISSN 0730-0301. doi:10.1145/1015706.1015800. Cópia arquivada em 14 de junho de 2025
Nickolls, John; Buck, Ian; Garland, Michael; Skadron, Kevin (1 de março de 2008). «Scalable Parallel Programming with CUDA: Is CUDA the parallel programming model that application developers have been waiting for?». ACM Queue. 6 (2): 40–53. ISSN 1542-7730. doi:10.1145/1365490.1365500. Cópia arquivada em 20 de fevereiro de 2025

Ligações externas

[SM101to110-66] CUDA Toolkit 13.0 renomeou o SM101 para GPUs Thor para SM110.

[wikidata-fd25e7eca08a5f4e2dd9da9e9dd9b82c30340600-v3-1] «Index of /compute/cuda/redist». Consultado em 10 março 2026

[2] «NVIDIA® CUDA™ Unleashes Power of GPU Computing - Press Release». nvidia.com. Consultado em 26 de janeiro de 2025. Cópia arquivada em 29 de março de 2007

[:0-3] Shah, Agam. «Nvidia not totally against third parties making CUDA chips». www.theregister.com (em inglês). Consultado em 25 de abril de 2024. Cópia arquivada em 16 de novembro de 2025

[4] «Nvidia CUDA Home Page». 18 de julho de 2017. Cópia arquivada em 16 de novembro de 2025

[CUDA_intro_-_AnandTech-5] Shimpi, Anand Lal; Wilson, Derek (8 de novembro de 2006). «Nvidia's GeForce 8800 (G80): GPUs Re-architected for DirectX 10». AnandTech. Consultado em 16 de maio de 2015. Arquivado do original em 24 de abril de 2010

[6] «Introduction – nsight-visual-studio-edition 12.6 documentation». docs.nvidia.com. Consultado em 10 de outubro de 2024. Cópia arquivada em 23 de maio de 2026

[CUDA_intro_-_TomsHardware-7] Abi-Chahla, Fedy (18 de junho de 2008). «Nvidia's CUDA: The End of the CPU?». Tom's Hardware. Consultado em 17 de maio de 2015. Cópia arquivada em 28 de maio de 2026

[8] Jones, Stephen (22 de abril de 2025). What is CUDA? (Vídeo). Computerphile. Consultado em 24 de julho de 2025. Cópia arquivada em 8 de março de 2026 – via YouTube

[9] Zunitch, Peter (24 de janeiro de 2018). «CUDA vs. OpenCL vs. OpenGL». Videomaker (em inglês). Consultado em 16 de setembro de 2018

[10] «OpenCL». NVIDIA Developer (em inglês). 24 de abril de 2013. Consultado em 4 de novembro de 2019

[:1-11] Cosgrove, Emma. «Ian Buck built Nvidia's secret weapon. He may spend the rest of his career defending it.». Business Insider (em inglês). Consultado em 24 de julho de 2025. Cópia arquivada em 28 de maio de 2026

[12] «John Nickolls Obituary – Los Altos, CA». The Mercury News (em inglês). 29 de setembro de 2011. Consultado em 23 de novembro de 2025. John Richard Nickolls, who passed away in Los Altos, California on August 13, 2011 after a courageous battle against cancer. He was born on March 6, 1950 to Kenneth and Kathryn Nickolls and grew up in Wilbraham, Massachusetts.

[13] Witt, Stephen (27 de novembro de 2023). «How Jensen Huang's Nvidia Is Powering the A.I. Revolution». The New Yorker (em inglês). ISSN 0028-792X. Consultado em 10 de dezembro de 2023. Cópia arquivada em 28 de maio de 2026

[14] «CUDA LLVM Compiler». 7 de maio de 2012. Cópia arquivada em 28 de maio de 2026

[CompileCudaWithLLVM-15] «Compiling CUDA with clang – LLVM 22.0.0git documentation». llvm.org

[16] First OpenCL demo on a GPU no YouTube

[17] DirectCompute Ocean Demo Running on Nvidia CUDA-enabled GPU no YouTube

[Ioannidis08-18] Vasiliadis, Giorgos; Antonatos, Spiros; Polychronakis, Michalis; Markatos, Evangelos P.; Ioannidis, Sotiris (setembro de 2008). «Gnort: High Performance Network Intrusion Detection Using Graphics Processors» (PDF). Recent Advances in Intrusion Detection. Col: Lecture Notes in Computer Science. 5230. [S.l.: s.n.] pp. 116–134. ISBN 978-3-540-87402-7. doi:10.1007/978-3-540-87403-4_7

[19] Schatz, Michael C.; Trapnell, Cole; Delcher, Arthur L.; Varshney, Amitabh (2007). «High-throughput sequence alignment using Graphics Processing Units». BMC Bioinformatics. 8. PMC 2222658. PMID 18070356. doi:10.1186/1471-2105-8-474

[Manavski2008-20] Manavski, Svetlin A.; Giorgio, Valle (2008). «CUDA compatible GPU cards as efficient hardware accelerators for Smith-Waterman sequence alignment». BMC Bioinformatics. 10 (Suppl 2): S10. PMC 2323659. PMID 18387198. doi:10.1186/1471-2105-9-S2-S10

[21] «Pyrit – Google Code». Cópia arquivada em 14 de agosto de 2016

[22] «Use your Nvidia GPU for scientific computing». boinc.berkeley.edu. Berkeley Open Infrastructure for Network Computing (BOINC). 18 de dezembro de 2008. Consultado em 8 de agosto de 2017. Arquivado do original em 28 de dezembro de 2008

[23] «Nvidia CUDA Software Development Kit (CUDA SDK) – Release Notes Version 2.0 for MAC OS X». Arquivado do original em 6 de janeiro de 2009

[24] «CUDA 1.1 – Now on Mac OS X». 14 de fevereiro de 2008. Arquivado do original em 22 de novembro de 2008

[25] «CUDA 11 Features Revealed». 14 de maio de 2020. Cópia arquivada em 28 de maio de 2026

[26] «CUDA Toolkit 11.1 Introduces Support for GeForce RTX 30 Series and Quadro RTX Series GPUs». 23 de setembro de 2020. Cópia arquivada em 28 de maio de 2026

[27] «Enhancing Memory Allocation with New NVIDIA CUDA 11.2 Features». 16 de dezembro de 2020. Cópia arquivada em 28 de maio de 2026

[28] «Exploring the New Features of CUDA 11.3». 16 de abril de 2021. Cópia arquivada em 28 de maio de 2026

[29] Silberstein, Mark; Schuster, Assaf; Geiger, Dan; Patney, Anjul; Owens, John D. (2008). «Efficient computation of sum-products on GPUs through software-managed cache» (PDF). Proceedings of the 22nd annual international conference on Supercomputing – ICS '08 (PDF). Proceedings of the 22nd annual international conference on Supercomputing – ICS '08. pp. 309–318. ISBN 978-1-60558-158-3. doi:10.1145/1375527.1375572

[CUDA_Prog_v8-30] «CUDA C Programming Guide v8.0» (PDF). nVidia Developer Zone. Janeiro de 2017. p. 19. Consultado em 22 de março de 2017. Cópia arquivada (PDF) em 28 de maio de 2026

[31] «NVCC forces c++ compilation of .cu files». 29 de novembro de 2011. Cópia arquivada em 23 de setembro de 2019

[32] Whitehead, Nathan; Fit-Florea, Alex. «Precision & Performance: Floating Point and IEEE 754 Compliance for Nvidia GPUs» (PDF). Nvidia. Consultado em 18 de novembro de 2014. Cópia arquivada (PDF) em 23 de abril de 2024

[CUDA_products-33] «CUDA-Enabled Products». CUDA Zone. Nvidia Corporation. Consultado em 3 de novembro de 2008. Cópia arquivada em 6 de janeiro de 2010

[34] «Coriander Project: Compile CUDA Codes To OpenCL, Run Everywhere». Phoronix. Cópia arquivada em 22 de setembro de 2021

[35] Perkins, Hugh (2017). «cuda-on-cl» (PDF). IWOCL. Consultado em 8 de agosto de 2017

[36] «hughperkins/coriander: Build NVIDIA® CUDA™ code for OpenCL™ 1.2 devices». GitHub. 6 de maio de 2019. Cópia arquivada em 28 de maio de 2026

[37] «CU2CL Documentation». chrec.cs.vt.edu

[38] «GitHub – vosen/ZLUDA». GitHub. Cópia arquivada em 28 de maio de 2026

[39] Citação:

[40] «GitHub – chip-spv/chipStar». GitHub. Cópia arquivada em 28 de maio de 2026

[41] «New SCALE tool enables CUDA applications to run on AMD GPUs». Tom's Hardware. 17 de julho de 2024

[42] «PyCUDA». Cópia arquivada em 28 de maio de 2026

[43] «pycublas». Consultado em 8 de agosto de 2017. Arquivado do original em 20 de abril de 2009

[44] «CuPy». cupy.dev (em inglês). Consultado em 23 de setembro de 2025

[NVPTXUsage-45] «User Guide for NVPTX Back-end — LLVM 22.0.0git documentation». llvm.org. Cópia arquivada em 28 de maio de 2026

[46] «NVIDIA CUDA Programming Guide. Version 1.0» (PDF). 23 de junho de 2007. Cópia arquivada (PDF) em 28 de maio de 2026

[47] «NVIDIA CUDA Programming Guide. Version 2.1» (PDF). 8 de dezembro de 2008. Cópia arquivada (PDF) em 24 de fevereiro de 2021

[48] «NVIDIA CUDA Programming Guide. Version 2.2» (PDF). 2 de abril de 2009. Cópia arquivada (PDF) em 21 de abril de 2021

[49] «NVIDIA CUDA Programming Guide. Version 2.2.1» (PDF). 26 de maio de 2009. Cópia arquivada (PDF) em 7 de março de 2021

[50] «NVIDIA CUDA Programming Guide. Version 2.3.1» (PDF). 26 de agosto de 2009. Cópia arquivada (PDF) em 24 de fevereiro de 2021

[51] «NVIDIA CUDA Programming Guide. Version 3.0» (PDF). 20 de fevereiro de 2010. Cópia arquivada (PDF) em 28 de julho de 2021

[52] «NVIDIA CUDA C Programming Guide. Version 3.1.1» (PDF). 21 de julho de 2010. Cópia arquivada (PDF) em 15 de julho de 2021

[53] «NVIDIA CUDA C Programming Guide. Version 3.2» (PDF). 9 de novembro de 2010

[54] «CUDA 11.0 Release Notes». NVIDIA Developer. Cópia arquivada em 28 de maio de 2026

[55] «CUDA 11.1 Release Notes». NVIDIA Developer. Cópia arquivada em 28 de maio de 2026

[56] «CUDA 11.5 Release Notes». NVIDIA Developer. Cópia arquivada em 28 de maio de 2026

[57] «CUDA 11.8 Release Notes». NVIDIA Developer. Cópia arquivada em 28 de maio de 2026

[58] «pytorch/RELEASE.md at main · pytorch/pytorch Backend». github.com. Consultado em 28 de março de 2026. Cópia arquivada em 28 de maio de 2026

[59] «Support Matrix – NVIDIA cuDNN Backend». docs.nvidia.com. Consultado em 20 de agosto de 2025

[60] «NVIDIA Quadro NVS 420 Specs». TechPowerUp GPU Database. 25 de agosto de 2023

[61] Larabel, Michael (29 de março de 2017). «NVIDIA Rolls Out Tegra X2 GPU Support In Nouveau». Phoronix. Consultado em 8 de agosto de 2017. Cópia arquivada em 23 de abril de 2022

[62] Nvidia Xavier Specs on TechPowerUp (preliminary)

[63] «Welcome – Jetson LinuxDeveloper Guide 34.1 documentation». Cópia arquivada em 15 de abril de 2022

[64] «NVIDIA Bringing up Open-Source Volta GPU Support for Their Xavier SoC». Cópia arquivada em 3 de fevereiro de 2022

[65] «NVIDIA Ada Lovelace Architecture». Cópia arquivada em 28 de maio de 2026

[67] Dissecting the Turing GPU Architecture through Microbenchmarking

[68] «H.1. Features and Technical Specifications – Table 13. Feature Support per Compute Capability». docs.nvidia.com (em inglês). Consultado em 23 de setembro de 2020

[69] «CUDA C++ Programming Guide»

[70] Fused-Multiply-Add, realmente executado, Matriz Densa

[71] SASS desde 7.5, como PTX desde 8.0

[unofficial_support_in_SASS-72] suporte não oficial em SASS

[73] «Technical brief. NVIDIA Jetson AGX Orin Series» (PDF). nvidia.com. Consultado em 5 setembro 2023

[74] Nos Whitepapers...

[ReferenceC-75] rma x tamanho do operando convertido...

[product_first_3_table_rows-76] = produto das primeiras 3 linhas da tabela

[ReferenceD-77] = produto das 2 linhas anteriores...

[ReferenceE-78] ...

[79] ...

[80] «CUDA C++ Programming Guide, Compute Capabilities». docs.nvidia.com (em inglês). Consultado em 6 de fevereiro de 2025. Cópia arquivada em 24 de maio de 2026

[81] «nVidia CUDA Bioinformatics: BarraCUDA». BioCentric (em inglês). 19 de julho de 2019. Consultado em 15 de outubro de 2019. Cópia arquivada em 28 de maio de 2026

[82] «Part V: Physics Simulation». NVIDIA Developer (em inglês). Consultado em 11 de setembro de 2020. Cópia arquivada em 28 de maio de 2026

[83] «oneAPI Programming Model». oneAPI.io (em inglês). Consultado em 27 de julho de 2024. Cópia arquivada em 28 de maio de 2026

[84] «Specifications | oneAPI». oneAPI.io (em inglês). Consultado em 27 de julho de 2024. Cópia arquivada em 28 de maio de 2026

[85] «oneAPI Specification – oneAPI Specification 1.3-rev-1 documentation». oneapi-spec.uxlfoundation.org. Consultado em 27 de julho de 2024. Cópia arquivada em 28 de maio de 2026

[86] Cherney, Max A. (26 de março de 2024). «Exclusive: Behind the plot to break Nvidia's grip on AI by targeting software». Reuters. Consultado em 5 de abril de 2024

[87] «Question: What does ROCm stand for? · Issue #1628 · RadeonOpenCompute/ROCm». Github.com. Consultado em 18 de janeiro de 2022. Cópia arquivada em 6 de novembro de 2023

[1]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[a]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[83]

[84]

[85]

[86]

CUDA

Autores	Ian Buck John Nickolls
Desenvolvedor	Nvidia

Lançamento estável	13.2.0^[1] / 9 março 2026}

Escrito em	C
Sistema operacional	Windows, Linux
Plataforma	GPUs suportadas
Tipo	GPGPU
Licença	Proprietária
Website	developer.nvidia.com/cuda-zone

CUDA