CUDA
| CUDA | |
|---|---|
| Autores | Ian Buck John Nickolls |
| Desenvolvedor | Nvidia |
| Lançamento estável | 13.2.0[1] |
| Escrito em | C |
| Sistema operacional | Windows, Linux |
| Plataforma | GPUs suportadas |
| Tipo | GPGPU |
| Licença | Proprietária |
| Website | developer |
CUDA (Compute Unified Device Architecture) é uma plataforma de computação paralela proprietária[3] e interface de programação de aplicações (API) desenvolvida pela empresa de tecnologia americana Nvidia que permite que software utilize certos tipos de unidades de processamento gráfico (GPUs) para processamento de propósito geral acelerado, ampliando significativamente sua utilidade em computação científica e de alto desempenho. A CUDA foi criada pela Nvidia a partir de 2004 e foi oficialmente lançada em 2007.[4] Quando foi introduzida pela primeira vez, o nome era um acrônimo para Compute Unified Device Architecture,[5] mas a Nvidia posteriormente abandonou o uso comum do acrônimo e raramente o expande atualmente.[6]
CUDA é tanto uma camada de software que gerencia dados, dando acesso direto à GPU e CPU conforme necessário, quanto uma biblioteca de APIs que permitem computação paralela para várias necessidades.[7][8] Além de drivers e kernels de tempo de execução, a plataforma CUDA inclui compiladores, bibliotecas e ferramentas de desenvolvedor para ajudar programadores a acelerar suas aplicações.
CUDA é escrita na linguagem de programação C, mas é projetada para funcionar com uma ampla gama de outras linguagens de programação, incluindo C++, Fortran, Python e Julia. Essa acessibilidade torna mais fácil para especialistas em programação paralela usar recursos de GPU, em contraste com APIs anteriores como Direct3D e OpenGL, que exigem habilidades avançadas em programação gráfica.[9] GPUs com CUDA também suportam frameworks de programação como OpenMP, OpenACC e OpenCL.[10][7]
Antecedentes
A unidade de processamento gráfico (GPU), como um processador de computador especializado, atende às demandas de tarefas intensivas de computação de gráficos 3D de alta resolução em tempo real. Em 2012, as GPUs evoluíram para sistemas multi-core altamente paralelos permitindo a manipulação eficiente de grandes blocos de dados. Este design é mais eficaz do que unidades centrais de processamento (CPUs) de propósito geral para algoritmos em situações onde o processamento de grandes blocos de dados é feito em paralelo, como:
- funções hash criptográficas
- aprendizado de máquina
- simulações de dinâmica molecular
- motores de física
As origens da CUDA remontam ao início dos anos 2000, quando Ian Buck, um estudante de doutorado em ciência da computação na Universidade Stanford, começou a experimentar o uso de GPUs para fins além da renderização de gráficos. Buck tornou-se interessado em GPUs durante seus estudos de graduação na Universidade de Princeton, inicialmente através de jogos eletrônicos. Após a formatura, ele estagiou na Nvidia, ganhando maior exposição à arquitetura de GPU. Em Stanford, ele construiu um equipamento de jogos 8K usando 32 placas gráficas GeForce, originalmente para testar os limites do desempenho gráfico em jogos como Quake e Doom. No entanto, seus interesses mudaram para explorar o potencial das GPUs para computação paralela de propósito geral.[11]
Para esse fim, Buck desenvolveu Brook, uma linguagem de programação projetada para permitir computação de propósito geral em GPUs. Seu trabalho atraiu apoio tanto da Nvidia quanto da Agência de Projetos de Pesquisa Avançada de Defesa (DARPA). Em 2004, a Nvidia contratou Buck e o emparelhou com John Nickolls,[12] diretor de arquitetura da empresa para computação em GPU. Juntos, eles começaram a transformar Brook no que se tornaria a CUDA.[11] A CUDA foi oficialmente lançada pela Nvidia em 2007.
Sob a liderança do CEO da Nvidia, Jensen Huang, a CUDA tornou-se central para a estratégia da empresa de posicionar GPUs como hardware versátil para aplicações científicas. Em 2015, o desenvolvimento da CUDA focou cada vez mais na aceleração de aprendizado de máquina e cargas de trabalho de redes neurais artificiais.[13]
Ontologia
A tabela a seguir oferece uma descrição não exata para a ontologia da estrutura CUDA.
| memória (hardware) |
memória (código, ou escopo de variável) | computação (hardware) |
computação (sintaxe de código) |
computação (semântica de código) |
|---|---|---|---|---|
| RAM | variáveis não-CUDA | host | programa | uma chamada de rotina |
| VRAM, cache L2 da GPU |
global, const, textura | dispositivo | grade | chamada simultânea da mesma sub-rotina em muitos processadores |
| Cache L1 da GPU | local, compartilhada | SM ("multiprocessador de fluxo") | bloco | chamada de sub-rotina individual |
| warp = 32 threads | instruções SIMD | |||
| Cache L0 da GPU, registrador |
thread (também conhecido como "SP", "processador de fluxo", "núcleo cuda", mas esses nomes agora são obsoletos) | análogo a operações escalares individuais dentro de uma operação vetorial |
Capacidades de programação
- Copiar dados da memória principal para a memória da GPU
- CPU inicia o núcleo de computação da GPU
- Núcleos CUDA da GPU executam o núcleo em paralelo
- Copiar os dados resultantes da memória da GPU para a memória principal
A plataforma CUDA é acessível a desenvolvedores de software através de bibliotecas aceleradas por CUDA, diretivas de compilador como OpenACC, e extensões para linguagens de programação padrão da indústria, incluindo C, C++, Fortran e Python. Programadores C/C++ podem usar 'CUDA C/C++', compilado para PTX com nvcc (compilador C/C++ baseado em LLVM da Nvidia)[14] ou pelo próprio clang.[15] Programadores Fortran podem usar 'CUDA Fortran', compilado com o compilador PGI CUDA Fortran da The Portland Group. Programadores Python podem usar a biblioteca cuPyNumeric para acelerar aplicações em GPUs Nvidia.
Além de bibliotecas, diretivas de compilador, CUDA C/C++ e CUDA Fortran, a plataforma CUDA suporta outras interfaces computacionais, incluindo OpenCL do Khronos Group,[16] DirectCompute da Microsoft, OpenGL Compute Shader e C++ AMP.[17] Wrappers de terceiros também estão disponíveis para Python, Perl, Fortran, Java, Ruby, Lua, Common Lisp, Haskell, R, MATLAB, IDL, Julia, e suporte nativo em Mathematica.
Na indústria de jogos de computador, as GPUs são usadas para renderização gráfica e para cálculos de física de jogos (efeitos físicos como detritos, fumaça, fogo, fluidos); exemplos incluem PhysX e Bullet. CUDA também tem sido usada para acelerar aplicações não gráficas em biologia computacional, criptografia e outros campos por uma ordem de magnitude ou mais.[18][19][20][21][22]
CUDA fornece tanto uma API de baixo nível (API Driver CUDA, não single-source) quanto uma API de nível superior (API Runtime CUDA, single-source). O SDK inicial do CUDA foi tornado público em 15 de fevereiro de 2007, para Microsoft Windows e Linux. O suporte para Mac OS X foi adicionado posteriormente na versão 2.0,[23] que substituiu a versão beta lançada em 14 de fevereiro de 2008.[24] CUDA funciona com todas as GPUs Nvidia da série G8x em diante, incluindo as linhas GeForce, Quadro e Tesla. CUDA é compatível com a maioria dos sistemas operacionais padrão.
CUDA 8.0 vem com as seguintes bibliotecas (para compilação e tempo de execução, em ordem alfabética):
- cuBLAS – biblioteca de sub-rotinas básicas de álgebra linear CUDA
- CUDART – biblioteca de tempo de execução CUDA
- cuFFT – biblioteca de transformada rápida de Fourier CUDA
- cuRAND – biblioteca de geração de números aleatórios CUDA
- cuSOLVER – coleção baseada em CUDA de solucionadores diretos densos e esparsos
- cuSPARSE – biblioteca de matriz esparsa CUDA
- NPP – biblioteca de primitivas de desempenho NVIDIA
- nvGRAPH – biblioteca de análise de grafos NVIDIA
- NVML – biblioteca de gerenciamento NVIDIA
- NVRTC – biblioteca de compilação de tempo de execução NVIDIA para CUDA C++
CUDA 8.0 vem com estes outros componentes de software:
- nView – software de gerenciamento de desktop NVIDIA nView
- NVWMI – kit de ferramentas de gerenciamento empresarial NVIDIA
- GameWorks PhysX – é um mecanismo de física de jogos multiplataforma
CUDA 9.0–9.2 vem com estes outros componentes:
- CUTLASS 1.0 – algoritmos de álgebra linear personalizados,
- NVIDIA Video Decoder foi descontinuado no CUDA 9.2; agora está disponível no NVIDIA Video Codec SDK
CUDA 10 vem com estes outros componentes:
- nvJPEG – processamento JPEG híbrido (CPU e GPU)
CUDA 11.0–11.8 vem com estes outros componentes:[25][26][27][28]
- CUB é uma das novas bibliotecas C++ mais suportadas
- suporte MIG para GPU de múltiplas instâncias
- nvJPEG2000 – codificador e decodificador JPEG 2000
Vantagens
CUDA tem várias vantagens sobre a computação de propósito geral tradicional em GPUs (GPGPU) usando APIs gráficas:
- Leituras dispersas – código pode ler de endereços arbitrários na memória
- Memória virtual unificada (CUDA 4.0 e superior)
- Memória unificada (CUDA 6.0 e superior)
- Memória compartilhada – CUDA expõe uma região de memória compartilhada rápida que pode ser compartilhada entre threads. Isso pode ser usado como um cache gerenciado pelo usuário, permitindo maior largura de banda do que é possível usando buscas de textura.[29]
- Downloads e leituras de volta mais rápidos para e da GPU
- Suporte total para operações inteiras e bit a bit, incluindo buscas de textura inteira
Limitações
- Seja para o computador host ou para o dispositivo GPU, todo o código-fonte CUDA agora é processado de acordo com as regras de sintaxe C++.[30] Este nem sempre foi o caso. Versões anteriores do CUDA eram baseadas em regras de sintaxe C.[31] Como no caso mais geral de compilar código C com um compilador C++, é possível que código-fonte CUDA antigo no estilo C não compile ou não se comporte como originalmente pretendido.
- A interoperabilidade com linguagens de renderização como OpenGL é unidirecional, com OpenGL tendo acesso à memória CUDA registrada, mas o CUDA não tendo acesso à memória OpenGL.
- Copiar entre memória host e dispositivo pode incorrer em uma perda de desempenho devido à largura de banda e latência do barramento do sistema (isso pode ser parcialmente aliviado com transferências de memória assíncronas, tratadas pelo mecanismo DMA da GPU).
- Os threads devem ser executados em grupos de pelo menos 32 para melhor desempenho, com o número total de threads na casa dos milhares. Ramos no código do programa não afetam significativamente o desempenho, desde que cada um dos 32 threads siga o mesmo caminho de execução; o modelo de execução SIMD torna-se uma limitação significativa para qualquer tarefa inerentemente divergente (por exemplo, percorrer uma estrutura de dados de particionamento espacial durante ray tracing).
- Nenhuma emulação ou funcionalidade de fallback está disponível para revisões modernas.
- C++ válido pode às vezes ser sinalizado e impedir a compilação devido à maneira como o compilador aborda a otimização para limitações do dispositivo GPU alvo.[carece de fontes]
- As informações de tipo de tempo de execução (RTTI) do C++ e o tratamento de exceções no estilo C++ são suportados apenas em código host, não em código de dispositivo.
- Em precisão simples em dispositivos CUDA de primeira geração com capacidade de computação 1.x, números denormais não são suportados e são, em vez disso, zerados, e a precisão das operações de divisão e raiz quadrada é ligeiramente inferior à matemática de precisão simples compatível com IEEE 754. Dispositivos que suportam capacidade de computação 2.0 e superior suportam números denormais, e as operações de divisão e raiz quadrada são compatíveis com IEEE 754 por padrão. No entanto, os usuários podem obter a matemática mais rápida do nível de jogos dos dispositivos de capacidade de computação 1.x, se desejado, definindo flags do compilador para desabilitar divisões precisas e raízes quadradas precisas, e habilitar o zeramento de números denormais.[32]
- Ao contrário do OpenCL, GPUs com CUDA estão disponíveis apenas na Nvidia, pois é proprietário.[33][3] Tentativas de implementar CUDA em outras GPUs incluem:
- Projeto Coriander: Converte código-fonte CUDA C++11 para OpenCL 1.2 C. Um fork do CUDA-on-CL destinado a executar TensorFlow.[34][35][36]
- CU2CL: Converte CUDA 3.2 C++ para OpenCL C.[37]
- GPUOpen HIP: Uma fina camada de abstração sobre CUDA e ROCm destinada a GPUs AMD e Nvidia. Tem uma ferramenta de conversão para importar código-fonte CUDA C++. Suporta CUDA 4.0 mais C++11 e float16.
- ZLUDA é um substituto direto para CUDA em GPUs AMD e anteriormente GPUs Intel com desempenho próximo ao nativo.[38] O desenvolvedor, Andrzej Janik, foi contratado separadamente pela Intel e AMD para desenvolver o software em 2021 e 2022, respectivamente. No entanto, nenhuma das empresas decidiu lançá-lo oficialmente devido à falta de um caso de uso comercial. O contrato da AMD incluía uma cláusula que permitia a Janik lançar seu código para a AMD independentemente, permitindo-lhe lançar a nova versão que suporta apenas GPUs AMD.[39]
- ChipStar pode compilar e executar programas CUDA/HIP em plataformas OpenCL 3.0 ou Level Zero avançadas.[40]
- SCALE é um kit de ferramentas de programação compatível com CUDA para compilação antecipada de código-fonte CUDA em GPUs AMD, visando expandir o suporte para outras GPUs no futuro.[41]
Exemplo
Este código de exemplo em C++ carrega uma textura de uma imagem em uma matriz na GPU:
texture<float, 2, cudaReadModeElementType> tex;
void foo() {
cudaArray* cu_array;
// Alocar matriz
cudaChannelFormatDesc description = cudaCreateChannelDesc<float>();
cudaMallocArray(&cu_array, &description, width, height);
// Copiar dados da imagem para a matriz
cudaMemcpyToArray(cu_array, image, width*height*sizeof(float), cudaMemcpyHostToDevice);
// Definir parâmetros de textura (padrão)
tex.addressMode[0] = cudaAddressModeClamp;
tex.addressMode[1] = cudaAddressModeClamp;
tex.filterMode = cudaFilterModePoint;
tex.normalized = false; // não normalizar coordenadas
// Vincular a matriz à textura
cudaBindTextureToArray(tex, cu_array);
// Executar kernel
dim3 blockDim(16, 16, 1);
dim3 gridDim((width + blockDim.x - 1)/ blockDim.x, (height + blockDim.y - 1) / blockDim.y, 1);
kernel<<< gridDim, blockDim, 0 >>>(d_data, height, width);
// Desvincular a matriz da textura
cudaUnbindTexture(tex);
}
__global__ void kernel(float* odata, int height, int width) {
unsigned int x = blockIdx.x*blockDim.x + threadIdx.x;
unsigned int y = blockIdx.y*blockDim.y + threadIdx.y;
if (x < width && y < height) {
float c = tex2D(tex, x, y);
odata[y*width+x] = c;
}
}
Abaixo está um exemplo dado em Python que calcula o produto de duas matrizes na GPU. As ligações não oficiais da linguagem Python podem ser obtidas do PyCUDA.[42]
import numpy
import pycuda.autoinit
from numpy.typing import NDArray, float32
from pycuda.compiler import SourceModule
from pycuda.driver import Function, In, Out
mod: SourceModule = SourceModule(
"""
__global__ void multiply_them(float* dest, float* a, float* b) {
const int i = threadIdx.x;
dest[i] = a[i] * b[i];
}
"""
)
multiply_them: Function = mod.get_function("multiply_them")
a: NDArray[float32] = numpy.random.randn(400).astype(numpy.float32)
b: NDArray[float32] = numpy.random.randn(400).astype(numpy.float32)
dest: NDArray[float32] = numpy.zeros_like(a)
multiply_them(Out(dest), In(a), In(b), block=(400, 1, 1))
print(dest - a * b)
Ligações adicionais em Python para simplificar operações de multiplicação de matrizes podem ser encontradas no programa pycublas.[43]
import numpy
from pycublas import CUBLASMatrix
A: CUBLASMatrix = CUBLASMatrix(numpy.mat([[1, 2, 3], [4, 5, 6]], numpy.float32))
B: CUBLASMatrix = CUBLASMatrix(numpy.mat([[2, 3], [4, 5], [6, 7]], numpy.float32))
C: CUBLASMatrix = A * B
print(C.np_mat())
enquanto CuPy substitui diretamente o NumPy:[44]
import cupy
from cupy.typing import NDArray, float64
a: NDArray[float64] = cupy.random.randn(400)
b: NDArray[float64] = cupy.random.randn(400)
dest: NDArray[float64] = cupy.zeros_like(a)
print(dest - a * b)
GPUs suportadas
Nota sobre notação: a capacidade de computação X.Y também é escrita SMXY ou sm_xy (por exemplo, 10.3 como SM103 ou sm_103) no software profissional da Nvidia e no código que a Nvidia contribuiu para o LLVM.[45]
Abaixo está uma tabela das capacidades de computação CUDA suportadas com base na versão do SDK CUDA e microarquitetura, listadas por nome de código:
| Versão(s) do SDK CUDA |
Tesla | Fermi | Kepler (inicial) |
Kepler (tardio) |
Maxwell | Pascal | Volta | Turing | Ampere | Ada Lovelace |
Hopper | Blackwell |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1.0[46] | ||||||||||||
| 1.1 | ||||||||||||
| 2.0 | ||||||||||||
| 2.1 – 2.3.1[47][48][49][50] | ||||||||||||
| 3.0 – 3.1[51][52] | ||||||||||||
| 3.2[53] | ||||||||||||
| 4.0 – 4.2 | ||||||||||||
| 5.0 – 5.5 | ||||||||||||
| 6.0 | ||||||||||||
| 6.5 | ||||||||||||
| 7.0 – 7.5 | ||||||||||||
| 8.0 | ||||||||||||
| 9.0 – 9.2 | ||||||||||||
| 10.0 – 10.2 | ||||||||||||
| 11.0[54] | ||||||||||||
| 11.1 – 11.4[55] | ||||||||||||
| 11.5 – 11.7.1[56] | ||||||||||||
| 11.8[57] | ||||||||||||
| 12.0 – 12.6 | ||||||||||||
| 12.8[58] | ||||||||||||
| 12.9 | ||||||||||||
| 13.0[59] |
Nota: CUDA SDK 10.2 é o último lançamento oficial para macOS, pois o suporte não estará disponível para macOS em versões mais recentes.
Capacidade de computação CUDA por versão com semicondutores GPU associados e modelos de placa GPU (separados por suas várias áreas de aplicação):
| Capacidade de computação (versão) |
Micro- arquitetura |
GPUs | GeForce | Quadro, NVS | Tesla/Datacenter | Tegra, Jetson, DRIVE |
|---|---|---|---|---|---|---|
| 1.0 | Tesla | G80 | GeForce 8800 Ultra, GeForce 8800 GTX, GeForce 8800 GTS(G80) | Quadro FX 5600, Quadro FX 4600, Quadro Plex 2100 S4 | Tesla C870, Tesla D870, Tesla S870 | |
| 1.1 | G92, G94, G96, G98, G84, G86 | GeForce GTS 250, GeForce 9800 GX2, GeForce 9800 GTX, GeForce 9800 GT, GeForce 8800 GTS(G92), GeForce 8800 GT, GeForce 9600 GT, GeForce 9500 GT, GeForce 9400 GT, GeForce 8600 GTS, GeForce 8600 GT, GeForce 8500 GT, GeForce G110M, GeForce 9300M GS, GeForce 9200M GS, GeForce 9100M G, GeForce 8400M GT, GeForce G105M |
Quadro FX 4700 X2, Quadro FX 3700, Quadro FX 1800, Quadro FX 1700, Quadro FX 580, Quadro FX 570, Quadro FX 470, Quadro FX 380, Quadro FX 370, Quadro FX 370 Low Profile, Quadro NVS 450, Quadro NVS 420, Quadro NVS 290, Quadro NVS 295, Quadro Plex 2100 D4, Quadro FX 3800M, Quadro FX 3700M, Quadro FX 3600M, Quadro FX 2800M, Quadro FX 2700M, Quadro FX 1700M, Quadro FX 1600M, Quadro FX 770M, Quadro FX 570M, Quadro FX 370M, Quadro FX 360M, Quadro NVS 320M, Quadro NVS 160M, Quadro NVS 150M, Quadro NVS 140M, Quadro NVS 135M, Quadro NVS 130M, Quadro NVS 450, Quadro NVS 420,[60] Quadro NVS 295 |
|||
| 1.2 | GT218, GT216, GT215 | GeForce GT 340*, GeForce GT 330*, GeForce GT 320*, GeForce 315*, GeForce 310*, GeForce GT 240, GeForce GT 220, GeForce 210, GeForce GTS 360M, GeForce GTS 350M, GeForce GT 335M, GeForce GT 330M, GeForce GT 325M, GeForce GT 240M, GeForce G210M, GeForce 310M, GeForce 305M |
Quadro FX 380 Low Profile, Quadro FX 1800M, Quadro FX 880M, Quadro FX 380M, Nvidia NVS 300, NVS 5100M, NVS 3100M, NVS 2100M, ION |
|||
| 1.3 | GT200, GT200b | GeForce GTX 295, GTX 285, GTX 280, GeForce GTX 275, GeForce GTX 260 | Quadro FX 5800, Quadro FX 4800, Quadro FX 4800 for Mac, Quadro FX 3800, Quadro CX, Quadro Plex 2200 D2 | Tesla C1060, Tesla S1070, Tesla M1060 | ||
| 2.0 | Fermi | GF100, GF110 | GeForce GTX 590, GeForce GTX 580, GeForce GTX 570, GeForce GTX 480, GeForce GTX 470, GeForce GTX 465, GeForce GTX 480M |
Quadro 6000, Quadro 5000, Quadro 4000, Quadro 4000 for Mac, Quadro Plex 7000, Quadro 5010M, Quadro 5000M |
Tesla C2075, Tesla C2050/C2070, Tesla M2050/M2070/M2075/M2090 | |
| 2.1 | GF104, GF106 GF108, GF114, GF116, GF117, GF119 | GeForce GTX 560 Ti, GeForce GTX 550 Ti, GeForce GTX 460, GeForce GTS 450, GeForce GTS 450*, GeForce GT 640 (GDDR3), GeForce GT 630, GeForce GT 620, GeForce GT 610, GeForce GT 520, GeForce GT 440, GeForce GT 440*, GeForce GT 430, GeForce GT 430*, GeForce GT 420*, GeForce GTX 675M, GeForce GTX 670M, GeForce GT 635M, GeForce GT 630M, GeForce GT 625M, GeForce GT 720M, GeForce GT 620M, GeForce 710M, GeForce 610M, GeForce 820M, GeForce GTX 580M, GeForce GTX 570M, GeForce GTX 560M, GeForce GT 555M, GeForce GT 550M, GeForce GT 540M, GeForce GT 525M, GeForce GT 520MX, GeForce GT 520M, GeForce GTX 485M, GeForce GTX 470M, GeForce GTX 460M, GeForce GT 445M, GeForce GT 435M, GeForce GT 420M, GeForce GT 415M, GeForce 710M, GeForce 410M |
Quadro 2000, Quadro 2000D, Quadro 600, Quadro 4000M, Quadro 3000M, Quadro 2000M, Quadro 1000M, NVS 310, NVS 315, NVS 5400M, NVS 5200M, NVS 4200M |
|||
| 3.0 | Kepler | GK104, GK106, GK107 | GeForce GTX 770, GeForce GTX 760, GeForce GT 740, GeForce GTX 690, GeForce GTX 680, GeForce GTX 670, GeForce GTX 660 Ti, GeForce GTX 660, GeForce GTX 650 Ti BOOST, GeForce GTX 650 Ti, GeForce GTX 650, GeForce GTX 880M, GeForce GTX 870M, GeForce GTX 780M, GeForce GTX 770M, GeForce GTX 765M, GeForce GTX 760M, GeForce GTX 680MX, GeForce GTX 680M, GeForce GTX 675MX, GeForce GTX 670MX, GeForce GTX 660M, GeForce GT 750M, GeForce GT 650M, GeForce GT 745M, GeForce GT 645M, GeForce GT 740M, GeForce GT 730M, GeForce GT 640M, GeForce GT 640M LE, GeForce GT 735M, GeForce GT 730M |
Quadro K5000, Quadro K4200, Quadro K4000, Quadro K2000, Quadro K2000D, Quadro K600, Quadro K420, Quadro K500M, Quadro K510M, Quadro K610M, Quadro K1000M, Quadro K2000M, Quadro K1100M, Quadro K2100M, Quadro K3000M, Quadro K3100M, Quadro K4000M, Quadro K5000M, Quadro K4100M, Quadro K5100M, NVS 510, Quadro 410 |
Tesla K10, GRID K340, GRID K520, GRID K2 | |
| 3.2 | GK20A | Tegra K1, Jetson TK1 | ||||
| 3.5 | GK110, GK208 | GeForce GTX Titan Z, GeForce GTX Titan Black, GeForce GTX Titan, GeForce GTX 780 Ti, GeForce GTX 780, GeForce GT 640 (GDDR5), GeForce GT 630 v2, GeForce GT 730, GeForce GT 720, GeForce GT 710, GeForce GT 740M (64-bit, DDR3), GeForce GT 920M | Quadro K6000, Quadro K5200 | Tesla K40, Tesla K20x, Tesla K20 | ||
| 3.7 | GK210 | Tesla K80 | ||||
| 5.0 | Maxwell | GM107, GM108 | GeForce GTX 750 Ti, GeForce GTX 750, GeForce GTX 960M, GeForce GTX 950M, GeForce 940M, GeForce 930M, GeForce GTX 860M, GeForce GTX 850M, GeForce 845M, GeForce 840M, GeForce 830M | Quadro K1200, Quadro K2200, Quadro K620, Quadro M2000M, Quadro M1000M, Quadro M600M, Quadro K620M, NVS 810 | Tesla M10 | |
| 5.2 | GM200, GM204, GM206 | GeForce GTX Titan X, GeForce GTX 980 Ti, GeForce GTX 980, GeForce GTX 970, GeForce GTX 960, GeForce GTX 950, GeForce GTX 750 SE, GeForce GTX 980M, GeForce GTX 970M, GeForce GTX 965M |
Quadro M6000 24GB, Quadro M6000, Quadro M5000, Quadro M4000, Quadro M2000, Quadro M5500, Quadro M5000M, Quadro M4000M, Quadro M3000M |
Tesla M4, Tesla M40, Tesla M6, Tesla M60 | ||
| 5.3 | GM20B | Tegra X1, Jetson TX1, Jetson Nano, DRIVE CX, DRIVE PX | ||||
| 6.0 | Pascal | GP100 | Quadro GP100 | Tesla P100 | ||
| 6.1 | GP102, GP104, GP106, GP107, GP108 | Nvidia TITAN Xp, Titan X, GeForce GTX 1080 Ti, GTX 1080, GTX 1070 Ti, GTX 1070, GTX 1060, GTX 1050 Ti, GTX 1050, GT 1030, GT 1010, MX350, MX330, MX250, MX230, MX150, MX130, MX110 |
Quadro P6000, Quadro P5000, Quadro P4000, Quadro P2200, Quadro P2000, Quadro P1000, Quadro P400, Quadro P500, Quadro P520, Quadro P600, Quadro P5000 (mobile), Quadro P4000 (mobile), Quadro P3000 (mobile) |
Tesla P40, Tesla P6, Tesla P4 | ||
| 6.2 | GP10B[61] | Tegra X2, Jetson TX2, DRIVE PX 2 | ||||
| 7.0 | Volta | GV100 | NVIDIA TITAN V | Quadro GV100 | Tesla V100, Tesla V100S | |
| 7.2 | GV10B[62] |
Tegra Xavier, Jetson Xavier NX, Jetson AGX Xavier, DRIVE AGX Xavier, DRIVE AGX Pegasus, Clara AGX | ||||
| 7.5 | Turing | TU102, TU104, TU106, TU116, TU117 | NVIDIA TITAN RTX, GeForce RTX 2080 Ti, RTX 2080 Super, RTX 2080, RTX 2070 Super, RTX 2070, RTX 2060 Super, RTX 2060 12GB, RTX 2060, GeForce GTX 1660 Ti, GTX 1660 Super, GTX 1660, GTX 1650 Super, GTX 1650, MX550, MX450 |
Quadro RTX 8000, Quadro RTX 6000, Quadro RTX 5000, Quadro RTX 4000, T1000, T600, T400 T1200 (mobile), T600 (mobile), T500 (mobile), Quadro T2000 (mobile), Quadro T1000 (mobile) |
Tesla T4 | |
| 8.0 | Ampere | GA100 | A100 80GB, A100 40GB, A30 | |||
| 8.6 | GA102, GA103, GA104, GA106, GA107 | GeForce RTX 3090 Ti, RTX 3090, RTX 3080 Ti, RTX 3080 12GB, RTX 3080, RTX 3070 Ti, RTX 3070, RTX 3060 Ti, RTX 3060, RTX 3050, RTX 3050 Ti (mobile), RTX 3050 (mobile), RTX 2050 (mobile), MX570 | RTX A6000, RTX A5500, RTX A5000, RTX A4500, RTX A4000, RTX A2000 RTX A5000 (mobile), RTX A4000 (mobile), RTX A3000 (mobile), RTX A2000 (mobile) |
A40, A16, A10, A2 | ||
| 8.7 | GA10B | Jetson Orin Nano, Jetson Orin NX, Jetson AGX Orin, DRIVE AGX Orin, IGX Orin | ||||
| 8.9 | Ada Lovelace[65] | AD102, AD103, AD104, AD106, AD107 | GeForce RTX 4090, RTX 4080 Super, RTX 4080, RTX 4070 Ti Super, RTX 4070 Ti, RTX 4070 Super, RTX 4070, RTX 4060 Ti, RTX 4060, RTX 4050 (mobile) | RTX 6000 Ada, RTX 5880 Ada, RTX 5000 Ada, RTX 4500 Ada, RTX 4000 Ada, RTX 4000 SFF Ada, RTX 2000 Ada, RTX 5000 Ada (mobile), RTX 4000 Ada (mobile), RTX 3500 Ada (mobile), RTX 2000 Ada (mobile) | L40S, L40, L20, L4, L2 | |
| 9.0 | Hopper | GH100 | H200, H100, GH200 | |||
| 10.0 | Blackwell | GB100 | B200, B100, GB200 | |||
| 10.3 | GB110 | B300, GB300 | ||||
| 11.0[a] | GB10B | Jetson AGX Thor, DRIVE AGX Thor | ||||
| 12.0 | GB202, GB203, GB205, GB206, GB207 | GeForce RTX 5090, RTX 5080, RTX 5070 Ti, RTX 5070, RTX 5060 Ti, RTX 5060, RTX 5050 | RTX PRO 6000 Blackwell Workstation, RTX PRO 5000 Blackwell, RTX PRO 4500 Blackwell, RTX PRO 4000 Blackwell | RTX PRO 6000 Blackwell Server | ||
| 12.1 | GB20B | DGX Spark | ||||
| Capacidade de computação (versão) |
Micro- arquitetura |
GPUs | GeForce | Quadro, NVS | Tesla/Datacenter | Tegra, Jetson, DRIVE |
* – produtos apenas para OEM
- ↑ CUDA Toolkit 13.0 renomeou o SM101 para GPUs Thor para SM110.
Recursos e especificações por versão
Nota: Uma GPU com uma capacidade de computação maior é capaz de executar código PTX destinado a uma GPU de uma faixa menor de capacidades de computação. No entanto, é possível compilar o código CUDA de uma forma que funcione apenas em uma família específica (mesmo "X") de GPUs; se o código existente for compilado dessa maneira, será necessária a recompilação para que ele funcione em uma GPU mais nova.[45]
| Suporte a recursos (recursos não listados são suportados por todas as capacidades de computação) | Capacidade de computação (versão) | |||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1.0, 1.1 | 1.2, 1.3 | 2.x | 3.0 | 3.2 | 3.5, 3.7, 5.x, 6.x, 7.0, 7.2 | 7.5 | 8.x | 9.0, 10.x, 12.x | ||||||
| Funções de votação de warp (__all(), __any()) | Não | Sim | ||||||||||||
| Funções de votação de warp (__ballot()) | Não | Sim | ||||||||||||
| Funções de barreira de memória (__threadfence_system()) | ||||||||||||||
| Funções de sincronização (__syncthreads_count(), __syncthreads_and(), __syncthreads_or()) | ||||||||||||||
| Funções de superfície (surface) | ||||||||||||||
| Grid 3D de blocos de threads | ||||||||||||||
| Funções de embaralhamento de warp (warp shuffle) | Não | Sim | ||||||||||||
| Programação de memória unificada (unified memory) | ||||||||||||||
| Deslocamento de funil (funnel shift) | Não | Sim | ||||||||||||
| Paralelismo dinâmico | Não | Sim | ||||||||||||
| Caminho de dados uniforme (Uniform Datapath)[66] | Não | Sim | ||||||||||||
| Cópia assíncrona acelerada por hardware | Não | Sim | ||||||||||||
| Barreira assíncrona de divisão de chegada/espera (split arrive/wait barrier) acelerada por hardware | ||||||||||||||
| Suporte em nível de warp para operações de redução | ||||||||||||||
| Gerenciamento de residência em cache L2 | ||||||||||||||
| Instruções DPX para programação dinâmica acelerada | Não | Sim | ||||||||||||
| Memória compartilhada distribuída | ||||||||||||||
| Cluster de blocos de threads (Thread block cluster) | ||||||||||||||
| Unidade aceleradora de memória de tensor (TMA) | ||||||||||||||
| Suporte a recursos (recursos não listados são suportados por todas as capacidades de computação) | 1.0, 1.1 | 1.2, 1.3 | 2.x | 3.0 | 3.2 | 3.5, 3.7, 5.x, 6.x, 7.0, 7.2 | 7.5 | 8.x | 9.0, 10.x, 12.x | |||||
| Capacidade de computação (versão) | ||||||||||||||
Tipos de dados
Tipos de ponto flutuante
| Tipo de dados | Tipos vetoriais suportados | Bits | Comentários | ||||
|---|---|---|---|---|---|---|---|
| Comprimento de armazenamento (vetor completo) |
Comprimento utilizado (valor único) |
Sinal | Expoente | Mantissa | |||
| E2M1 = FP4 | e2m1x2 / e2m1x4 | 8 / 16 | 4 | 1 | 2 | 1 | |
| E2M3 = variante FP6 | e2m3x2 / e2m3x4 | 16 / 32 | 6 | 1 | 2 | 3 | |
| E3M2 = variante FP6 | e3m2x2 / e3m2x4 | 16 / 32 | 6 | 1 | 3 | 2 | |
| UE4M3 | ue4m3 | 8 | 7 | 0 | 4 | 3 | Usado para dimensionamento (apenas E2M1) |
| E4M3 = variante FP8 | e4m3 / e4m3x2 / e4m3x4 | 8 / 16 / 32 | 8 | 1 | 4 | 3 | |
| E5M2 = variante FP8 | e5m2 / e5m2x2 / e5m2x4 | 8 / 16 / 32 | 8 | 1 | 5 | 2 | Expoente/faixa do FP16, cabe em 8 bits |
| UE8M0 | ue8m0x2 | 16 | 8 | 0 | 8 | 0 | Usado para dimensionamento (qualquer formato FP4, FP6 ou FP8) |
| FP16 | f16 / f16x2 | 16 / 32 | 16 | 1 | 5 | 10 | |
| BF16 | bf16 / bf16x2 | 16 / 32 | 16 | 1 | 8 | 7 | Expoente/faixa do FP32, cabe em 16 bits |
| TF32 | tf32 | 32 | 19 | 1 | 8 | 10 | Expoente/faixa do FP32, mantissa/precisão do FP16 |
| FP32 | f32 / f32x2 | 32 / 64 | 32 | 1 | 8 | 23 | |
| FP64 | f64 | 64 | 64 | 1 | 11 | 52 | |
Suporte de versão
| Tipo de dados | Operações básicas | Suportado desde |
Operações atômicas | Suportado desde para memória global |
Suportado desde para memória compartilhada |
|---|---|---|---|---|---|
| Inteiro de 8 bits com/sem sinal |
leitura, escrita, conversão | 1.0 | N/A | N/A | |
| Inteiro de 16 bits com/sem sinal |
operações gerais | 1.0 | atomicCAS() | 3.5 | |
| Inteiro de 32 bits com/sem sinal |
operações gerais | 1.0 | funções atômicas | 1.1 | 1.2 |
| Inteiro de 64 bits com/sem sinal |
operações gerais | 1.0 | funções atômicas | 1.2 | 2.0 |
| Qualquer tipo trivialmente copiável de 128 bits | operações gerais | Não | atomicExch, atomicCAS | 9.0 | |
| Ponto flutuante de 16 bits FP16 |
adição, subtração, multiplicação, comparação, funções de embaralhamento de warp, conversão |
5.3 | adição atômica half2 | 6.0 | |
| adição atômica | 7.0 | ||||
| Ponto flutuante de 16 bits BF16 |
adição, subtração, multiplicação, comparação, funções de embaralhamento de warp, conversão |
8.0 | adição atômica | 8.0 | |
| Ponto flutuante de 32 bits | operações gerais | 1.0 | atomicExch() | 1.1 | 1.2 |
| adição atômica | 2.0 | ||||
| Ponto flutuante de 32 bits float2 e float4 | operações gerais | Não | adição atômica | 9.0 | |
| Ponto flutuante de 64 bits | operações gerais | 1.3 | adição atômica | 6.0 | |
Nota: Quaisquer linhas ausentes ou entradas vazias refletem a falta de informações sobre aquele item exato.[68]
Tensor cores
| FMA por ciclo por tensor core[69] | Suportado desde | 7.0 | 7.2 | 7.5 Workstation | 7.5 Desktop | 8.0 | 8.6 Workstation | 8.7 | 8.6 Desktop | 8.9 Desktop | 8.9 Workstation | 9.0 | 10.0 | 10.1 | 12.0 | ||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Tipo de dados | Para matrizes densas | Para matrizes esparsas | 1ª Ger (8x/SM) | 1ª Ger? (8x/SM) | 2ª Ger (8x/SM) | 3ª Ger (4x/SM) | 4ª Ger (4x/SM) | 5ª Ger (4x/SM) | |||||||||
| Valores de 1 bit (AND) | 8.0 como experimental |
Não | Não | 4096 | 2048 | 8192 | Não | ||||||||||
| Valores de 1 bit (XOR) | 7.5–8.9 como experimental |
Não | 1024 | Não | |||||||||||||
| Inteiros de 4 bits | 8.0–8.9 como experimental |
256 | 1024 | 512 | mma.sync legado | Não | |||||||||||
| Ponto flutuante de 4 bits FP4 (E2M1) | 10.0 | Não | 4096 | a definir | 512 | ||||||||||||
| Ponto flutuante de 6 bits FP6 (E3M2 e E2M3) | 10.0 | Não | 2048 | a definir | |||||||||||||
| Inteiros de 8 bits | 7.2 | 8.0 | Não | 128 | 128 | 512 | 256 | 1024 | 2048 | 256 | |||||||
| Ponto flutuante de 8 bits FP8 (E4M3 e E5M2) com acúmulo em FP16 | 8.9 | Não | 256 | ||||||||||||||
| Ponto flutuante de 8 bits FP8 (E4M3 e E5M2) com acúmulo em FP32 | 128 | 128 | |||||||||||||||
| Ponto flutuante de 16 bits FP16 com acúmulo em FP16 | 7.0 | 8.0 | 64 | 64 | 64 | 256 | 128 | 512 | 1024 | 128 | |||||||
| Ponto flutuante de 16 bits FP16 com acúmulo em FP32 | 32 | 64 | 128 | 64 | |||||||||||||
| Ponto flutuante de 16 bits BF16 com acúmulo em FP32 | 7.5[70] | 8.0 | Não | 64[71] | |||||||||||||
| Ponto flutuante de 32 bits (19 bits utilizados) TF32 | vel. a definir (32?)[71] | 128 | 32 | 64 | 256 | 512 | 32 | ||||||||||
| Ponto flutuante de 64 bits | 8.0 | Não | Não | 16 | velocidade a definir | 32 | 16 | a definir | |||||||||
Nota: Quaisquer linhas ausentes ou entradas vazias refletem a falta de informações sobre aquele item exato.[72]
| Composição do Tensor Core | 7.0 | 7.2, 7.5 | 8.0, 8.6 | 8.7 | 8.9 | 9.0 |
|---|---|---|---|---|---|---|
| Largura da unidade de produto escalar em unidades FP16 (em bytes)[73] | 4 (8) | 8 (16) | 4 (8) | 16 (32) | ||
| Unidades de produto escalar por Tensor Core | 16 | 32 | ||||
| Tensor Cores por partição de SM | 2 | 1 | ||||
| Taxa de transferência total (Bytes/ciclo)[74] por partição de SM[75] | 256 | 512 | 256 | 1024 | ||
| FP Tensor Cores: Ciclos mínimos para cálculo de matriz em todo o warp | 8 | 4 | 8 | |||
| FP Tensor Cores: Forma mínima de matriz para taxa de transferência total (Bytes)[76] | 2048 | |||||
| INT Tensor Cores: Ciclos mínimos para cálculo de matriz em todo o warp | Não | 4 | ||||
| INT Tensor Cores: Forma mínima de matriz para taxa de transferência total (Bytes) | Não | 1024 | 2048 | 1024 | ||
| Composição do FP64 Tensor Core | 8.0 | 8.6 | 8.7 | 8.9 | 9.0 |
|---|---|---|---|---|---|
| Largura da unidade de produto escalar em unidades FP64 (em bytes) | 4 (32) | a definir | 4 (32) | ||
| Unidades de produto escalar por Tensor Core | 4 | a definir | 8 | ||
| Tensor Cores por partição de SM | 1 | ||||
| Taxa de transferência total (Bytes/ciclo)[74] por partição de SM[75] | 128 | a definir | 256 | ||
| Ciclos mínimos para cálculo de matriz em todo o warp | 16 | a definir | |||
| Forma mínima de matriz para taxa de transferência total (Bytes)[76] | 2048 | ||||
Especificações técnicas
| Especificações técnicas | Capacidade de computação (versão) | ||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1.0 | 1.1 | 1.2 | 1.3 | 2.x | 3.0 | 3.2 | 3.5 | 3.7 | 5.0 | 5.2 | 5.3 | 6.0 | 6.1 | 6.2 | 7.0 | 7.2 | 7.5 | 8.0 | 8.6 | 8.7 | 8.9 | 9.0 | 10.x | 12.x | |
| Número máximo de grids residentes por dispositivo (execução simultânea de kernels, pode ser menor para dispositivos específicos) |
1 | 16 | 4 | 32 | 16 | 128 | 32 | 16 | 128 | 16 | 128 | ||||||||||||||
| Dimensionalidade máxima do grid de blocos de threads | 2 | 3 | |||||||||||||||||||||||
| Dimensão X máxima de um grid de blocos de threads | 65535 | 231 − 1 | |||||||||||||||||||||||
| Dimensão Y ou Z máxima de um grid de blocos de threads | 65535 | ||||||||||||||||||||||||
| Dimensionalidade máxima do bloco de threads | 3 | ||||||||||||||||||||||||
| Dimensão X ou Y máxima de um bloco | 512 | 1024 | |||||||||||||||||||||||
| Dimensão Z máxima de um bloco | 64 | ||||||||||||||||||||||||
| Número máximo de threads por bloco | 512 | 1024 | |||||||||||||||||||||||
| Tamanho do Warp | 32 | ||||||||||||||||||||||||
| Número máximo de blocos residentes por multiprocessador | 8 | 16 | 32 | 16 | 32 | 16 | 24 | 32 | |||||||||||||||||
| Número máximo de warps residentes por multiprocessador | 24 | 32 | 48 | 64 | 32 | 64 | 48 | 64 | 48 | ||||||||||||||||
| Número máximo de threads residentes por multiprocessador | 768 | 1024 | 1536 | 2048 | 1024 | 2048 | 1536 | 2048 | 1536 | ||||||||||||||||
| Número de registradores regulares de 32 bits por multiprocessador | 8 K | 16 K | 32 K | 64 K | 128 K | 64 K | |||||||||||||||||||
| Número de registradores uniformes de 32 bits por multiprocessador | Não | 2 K[77] | |||||||||||||||||||||||
| Número máximo de registradores de 32 bits por bloco de threads | 8 K | 16 K | 32 K | 64 K | 32 K | 64 K | 32 K | 64 K | 32 K | 64 K | |||||||||||||||
| Número máximo de registradores regulares de 32 bits por thread | 124 | 63 | 255 | ||||||||||||||||||||||
| Número máximo de registradores uniformes de 32 bits por warp | Não | 63 | |||||||||||||||||||||||
| Quantidade de memória compartilhada por multiprocessador (do total de memória compartilhada + cache L1, quando aplicável) |
16 KiB | 16 / 48 KiB (de 64 KiB) | 16 / 32 / 48 KiB (de 64 KiB) | 80 / 96 / 112 KiB (de 128 KiB) | 64 KiB | 96 KiB | 64 KiB | 96 KiB | 64 KiB | 0 / 8 / 16 / 32 / 64 / 96 KiB (de 128 KiB) | 32 / 64 KiB (de 96 KiB) | 0 / 8 / 16 / 32 / 64 / 100 / 132 / 164 KiB (de 192 KiB) | 0 / 8 / 16 / 32 / 64 / 100 KiB (de 128 KiB) | 0 / 8 / 16 / 32 / 64 / 100 / 132 / 164 KiB (de 192 KiB) | 0 / 8 / 16 / 32 / 64 / 100 KiB (de 128 KiB) | 0 / 8 / 16 / 32 / 64 / 100 / 132 / 164 / 196 / 228 KiB (de 256 KiB) | 0 / 8 / 16 / 32 / 64 / 100 KiB (de 128 KiB) | ||||||||
| Quantidade máxima de memória compartilhada por bloco de threads | 16 KiB | 48 KiB | 96 KiB | 48 KiB | 64 KiB | 163 KiB | 99 KiB | 163 KiB | 99 KiB | 227 KiB | 99 KiB | ||||||||||||||
| Número de bancos de memória compartilhada | 16 | 32 | |||||||||||||||||||||||
| Quantidade de memória local por thread | 16 KiB | 512 KiB | |||||||||||||||||||||||
| Tamanho da memória constante acessível por CUDA C/C++ | 64 KiB | ||||||||||||||||||||||||
| Conjunto de trabalho do cache (working set) por multiprocessador para memória constante | 8 KiB | 4 KiB | 8 KiB | ||||||||||||||||||||||
| Conjunto de trabalho do cache (working set) por multiprocessador para memória de textura | 16 KiB por TPC | 24 KiB por TPC | 12 KiB | 12 – 48 KiB | 24 KiB | 48 KiB | 32 KiB | 24 KiB | 48 KiB | 24 KiB | 32 – 128 KiB | 32 – 64 KiB | 28 – 192 KiB | 28 – 128 KiB | 28 – 192 KiB | 28 – 128 KiB | 28 – 256 KiB | ||||||||
| Largura máxima para uma referência de textura 1D vinculada a uma matriz CUDA (CUDA array) | 8192 | 65536 | 131072 | ||||||||||||||||||||||
| Largura máxima para uma referência de textura 1D vinculada a uma memória linear | 227 | 228 | 227 | 228 | 227 | 228 | |||||||||||||||||||
| Largura máxima e número de camadas para uma referência de textura linearizada (layered) 1D | 8192 × 512 | 16384 × 2048 | 32768 x 2048 | ||||||||||||||||||||||
| Largura e altura máximas para uma referência de textura 2D vinculada a uma matriz CUDA | 65536 × 32768 | 65536 × 65535 | 131072 x 65536 | ||||||||||||||||||||||
| Largura e altura máximas para uma referência de textura 2D vinculada a uma memória linear | 65000 x 65000 | 65536 x 65536 | 131072 x 65000 | ||||||||||||||||||||||
| Largura e altura máximas para uma referência de textura 2D vinculada a uma matriz CUDA com suporte a coleta de textura | N/A | 16384 x 16384 | 32768 x 32768 | ||||||||||||||||||||||
| Largura, altura máxima e número de camadas para uma referência de textura linearizada (layered) 2D | 8192 × 8192 × 512 | 16384 × 16384 × 2048 | 32768 x 32768 x 2048 | ||||||||||||||||||||||
| Largura, altura e profundidade máximas para uma referência de textura 3D vinculada a memória linear ou matriz CUDA | 20483 | 40963 | 163843 | ||||||||||||||||||||||
| Largura (e altura) máxima para uma referência de textura de mapa de cubo (cubemap) | N/A | 16384 | 32768 | ||||||||||||||||||||||
| Largura (e altura) máxima e número de camadas para uma referência de textura linearizada de mapa de cubo (cubemap layered) | N/A | 16384 × 2046 | 32768 × 2046 | ||||||||||||||||||||||
| Número máximo de texturas que podem ser vinculadas a um kernel | 128 | 256 | |||||||||||||||||||||||
| Largura máxima para uma referência de superfície (surface) 1D vinculada a uma matriz CUDA | Não suportado |
65536 | 16384 | 32768 | |||||||||||||||||||||
| Largura máxima e número de camadas para uma referência de superfície linearizada (layered) 1D | 65536 × 2048 | 16384 × 2048 | 32768 × 2048 | ||||||||||||||||||||||
| Largura e altura máximas para uma referência de superfície 2D vinculada a uma matriz CUDA | 65536 × 32768 | 16384 × 65536 | 131072 × 65536 | ||||||||||||||||||||||
| Largura, altura máxima e número de camadas para uma referência de superfície linearizada (layered) 2D | 65536 × 32768 × 2048 | 16384 × 16384 × 2048 | 32768 × 32768 × 2048 | ||||||||||||||||||||||
| Largura, altura e profundidade máximas para uma referência de superfície 3D vinculada a uma matriz CUDA | 65536 × 32768 × 2048 | 4096 × 4096 × 4096 | 16384 × 16384 × 16384 | ||||||||||||||||||||||
| Largura (e altura) máxima para uma referência de superfície de mapa de cubo (cubemap) vinculada a uma matriz CUDA | 32768 | 16384 | 32768 | ||||||||||||||||||||||
| Largura máxima e número de camadas para uma referência de superfície linearizada de mapa de cubo (cubemap layered) | 32768 × 2046 | 16384 × 2046 | 32768 × 2046 | ||||||||||||||||||||||
| Número máximo de superfícies que podem ser vinculadas a um kernel | 8 | 16 | 32 | ||||||||||||||||||||||
| Número máximo de instruções por kernel | 2 milhões | 512 milhões | |||||||||||||||||||||||
| Número máximo de blocos de threads por cluster de blocos de threads (Thread Block Cluster)[78] | Não | 16 | 8 | ||||||||||||||||||||||
| Especificações técnicas | 1.0 | 1.1 | 1.2 | 1.3 | 2.x | 3.0 | 3.2 | 3.5 | 3.7 | 5.0 | 5.2 | 5.3 | 6.0 | 6.1 | 6.2 | 7.0 | 7.2 | 7.5 | 8.0 | 8.6 | 8.7 | 8.9 | 9.0 | 10.x | 12.x |
| Capacidade de computação (versão) | |||||||||||||||||||||||||
Arquitetura do multiprocessador
| Especificações de arquitetura | Capacidade de computação (versão) | |||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1.0 | 1.1 | 1.2 | 1.3 | 2.0 | 2.1 | 3.0 | 3.2 | 3.5 | 3.7 | 5.0 | 5.2 | 5.3 | 6.0 | 6.1 | 6.2 | 7.0 | 7.2 | 7.5 | 8.0 | 8.6 | 8.7 | 8.9 | 9.0 | 10.x | 12.x | |
| Número de vias ALU para operações aritméticas INT32 | 8 | 32 | 48 | 192 | 128 | 128 | 64 | 128 | 128 | 64 | 64 | 64 | 128 | |||||||||||||
| Número de vias ALU para qualquer operação aritmética INT32 ou FP32 | N/A | N/A | ||||||||||||||||||||||||
| Número de vias ALU para operações aritméticas FP32 | 64 | 64 | 128 | 128 | ||||||||||||||||||||||
| Número de vias ALU para operações aritméticas FP16x2 | Não | 1 | 128 | 128 | 64 | |||||||||||||||||||||
| Número de vias ALU para operações aritméticas FP64 | Não | 1 | 16 por FP32 | 4 por FP32 | 8 | 8 / 64 | 64 | 4 | 32 | 4 | 32 | 2 | 32 | 2 | 64 | 2 | ||||||||||
| Número de unidades de leitura/escrita (Load/Store Units) | 4 por 2 SM | 8 por 2 SM | 8 por 2 SM / 3 SM | 8 por 3 SM | 16 | 32 | 16 | 32 | 16 | 32 | ||||||||||||||||
| Número de unidades de funções especiais (SFU) para funções transcendentais | 2 | 4 | 8 | 32 | 16 | 32 | 16 | |||||||||||||||||||
| Número de unidades de mapeamento de textura (TMU) | 4 por 2 SM | 8 por 2 SM | 8 por 2 / 3SM | 8 por 3 SM | 4 | 4 / 8 | 16 | 8 | 16 | 8 | 4 | |||||||||||||||
| Número de vias ALU para operações aritméticas INT32 uniformes | Não | 2 | ||||||||||||||||||||||||
| Número de tensor cores | Não | 8 (1ª ger.) | 0 / 8 (2ª ger.) | 4 (3ª ger.) | 4 (4ª ger.) | |||||||||||||||||||||
| Número de núcleos de raytracing (RT Cores) | Não | 0 / 1 (1ª ger.) | Não | 1 (2ª ger.) | Não | 1 (3ª ger.) | Não | |||||||||||||||||||
| Número de partições de SM = Blocos de processamento | 1 | 4 | 2 | 4 | ||||||||||||||||||||||
| Número de escalonadores de warp (warp schedulers) por partição de SM | 1 | 2 | 4 | 1 | ||||||||||||||||||||||
| Número máximo de novas instruções emitidas a cada ciclo por um único escalonador | 2 | 1 | 2 | 2 | 1 | |||||||||||||||||||||
| Tamanho da memória unificada para cache de dados e memória compartilhada | 16 KiB | 16 KiB | 64 KiB | 128 KiB | 64 KiB SM + 24 KiB L1 (separado) | 96 KiB SM + 24 KiB L1 (separado) | 64 KiB SM + 24 KiB L1 (separado) | 64 KiB SM + 24 KiB L1 (separado) | 96 KiB SM + 24 KiB L1 (separado) | 64 KiB SM + 24 KiB L1 (separado) | 128 KiB | 96 KiB | 192 KiB | 128 KiB | 192 KiB | 128 KiB | 256 KiB | |||||||||
| Tamanho do cache de instruções L3 por GPU | 32 KiB | usa Cache de Dados L2 | ||||||||||||||||||||||||
| Tamanho do cache de instruções L2 por Cluster de Processador de Textura (TPC) | 8 KiB | |||||||||||||||||||||||||
| Tamanho do cache de instruções L1.5 por SM | 4 KiB | 32 KiB | 32 KiB | 48 KiB | 128 KiB | 32 KiB | 128 KiB | ~46 KiB | 128 KiB | |||||||||||||||||
| Tamanho do cache de instruções L1 por SM | 8 KiB | 8 KiB | ||||||||||||||||||||||||
| Tamanho do cache de instruções L0 por partição de SM | apenas 1 partição por SM | Não | 12 KiB | 16 KiB? | 32 KiB | |||||||||||||||||||||
| Largura da instrução | instruções de 32 bits e 64 bits | instruções de 64 bits + lógica de controle a cada 7 instruções | instruções de 64 bits + lógica de controle a cada 3 instruções | instrução combinada de 128 bits e lógica de controle | ||||||||||||||||||||||
| Largura do barramento de memória por partição de memória em bits | 64 ((G)DDR) | 32 ((G)DDR) | 512 (HBM) | 32 ((G)DDR) | 512 (HBM) | 32 ((G)DDR) | 512 (HBM) | 32 ((G)DDR) | 512 (HBM) | 32 ((G)DDR) | ||||||||||||||||
| Cache L2 por partição de memória | 16 KiB | 32 KiB | 128 KiB | 256 KiB | 1 MiB | 512 KiB | 128 KiB | 512 KiB | 256 KiB | 128 KiB | 768 KiB | 64 KiB | 512 KiB | 4 MiB | 512 KiB | 8 MiB | 5 MiB | 6.25 MiB | 8 MiB | |||||||
| Número de unidades de saída de renderização (ROP) por partição | 4 | 8 | 4 | 8 | 16 | 8 | 12 | 8 | 4 | 16 | 2 | 8 | 16 | 16 por GPC | 3 por GPC | 16 por GPC | ||||||||||
| Especificações de arquitetura | 1.0 | 1.1 | 1.2 | 1.3 | 2.0 | 2.1 | 3.0 | 3.2 | 3.5 | 3.7 | 5.0 | 5.2 | 5.3 | 6.0 | 6.1 | 6.2 | 7.0 | 7.2 | 7.5 | 8.0 | 8.6 | 8.7 | 8.9 | 9.0 | 10.x | 12.x |
| Capacidade de computação (versão) | ||||||||||||||||||||||||||
Para mais informações, leia o Guia de Programação Nvidia CUDA C++.[79]
Usos da arquitetura CUDA
- Renderização acelerada de gráficos 3D
- Interconversão acelerada de formatos de arquivo de vídeo
- Criptografia, descriptografia e compressão aceleradas
- Bioinformática, por exemplo, sequenciamento de DNA NGS BarraCUDA[80]
- Cálculos distribuídos, como prever a conformação nativa de proteínas
- Simulações de análise médica, por exemplo, realidade virtual baseada em imagens de tomografia computadorizada (TC) e ressonância magnética (RM)
- Simulações físicas,[81] particularmente em dinâmica dos fluidos
- Treinamento de redes neurais em problemas de aprendizado de máquina
- Inferência de Modelos de Linguagem Grande
- Reconhecimento facial
- Projetos de computação voluntária, como SETI@home e outros projetos usando software BOINC
- Dinâmica molecular
- Mineração de criptomoedas
- Software de estrutura a partir do movimento (SfM)
Comparação com concorrentes
CUDA compete com outras pilhas de computação GPU: Intel OneAPI e AMD ROCm.
Enquanto a CUDA da Nvidia é de código fechado, a OneAPI da Intel e a ROCm da AMD são de código aberto.
Intel OneAPI
oneAPI é uma iniciativa baseada em padrões abertos, criada para apoiar o desenvolvimento de software para múltiplas arquiteturas de hardware.[82] As bibliotecas oneAPI devem implementar especificações abertas que são discutidas publicamente pelos Grupos de Interesse Especial, oferecendo a possibilidade de qualquer desenvolvedor ou organização implementar suas próprias versões das bibliotecas oneAPI.[83][84]
Originalmente feita pela Intel, outros adotantes de hardware incluem Fujitsu e Huawei.
Fundação de Aceleração Unificada (UXL)
A Fundação de Aceleração Unificada (UXL) é um novo consórcio de tecnologia que trabalha na continuação da iniciativa OneAPI, com o objetivo de criar um novo ecossistema de software acelerador de padrão aberto, projetos de padrões abertos relacionados e especificações através de Grupos de Trabalho e Grupos de Interesse Especial (SIGs). O objetivo é oferecer alternativas abertas à CUDA da Nvidia. As principais empresas por trás disso são Intel, Google, ARM, Qualcomm, Samsung, Imagination e VMware.[85]
AMD ROCm
ROCm[86] é uma pilha de software de código aberto para programação de unidade de processamento gráfico (GPU) da Advanced Micro Devices (AMD).
Ver também
- SYCL – um padrão aberto do Khronos Group para programar uma variedade de plataformas, incluindo GPUs, com C++ moderno single-source, semelhante à API Runtime CUDA de nível superior (single-source)
- Computação paralela
- Vulkan – API de computação e gráficos 3D de baixo nível e alto desempenho
Referências
- ↑ «Index of /compute/cuda/redist». Consultado em 10 março 2026
- ↑ «NVIDIA® CUDA™ Unleashes Power of GPU Computing - Press Release». nvidia.com. Consultado em 26 de janeiro de 2025. Cópia arquivada em 29 de março de 2007
- ↑ a b Shah, Agam. «Nvidia not totally against third parties making CUDA chips». www.theregister.com (em inglês). Consultado em 25 de abril de 2024. Cópia arquivada em 16 de novembro de 2025
- ↑ «Nvidia CUDA Home Page». 18 de julho de 2017. Cópia arquivada em 16 de novembro de 2025
- ↑ Shimpi, Anand Lal; Wilson, Derek (8 de novembro de 2006). «Nvidia's GeForce 8800 (G80): GPUs Re-architected for DirectX 10». AnandTech. Consultado em 16 de maio de 2015. Arquivado do original em 24 de abril de 2010
- ↑ «Introduction – nsight-visual-studio-edition 12.6 documentation». docs.nvidia.com. Consultado em 10 de outubro de 2024. Cópia arquivada em 23 de maio de 2026
- ↑ a b Abi-Chahla, Fedy (18 de junho de 2008). «Nvidia's CUDA: The End of the CPU?». Tom's Hardware. Consultado em 17 de maio de 2015. Cópia arquivada em 28 de maio de 2026
- ↑ Jones, Stephen (22 de abril de 2025). What is CUDA? (Vídeo). Computerphile. Consultado em 24 de julho de 2025. Cópia arquivada em 8 de março de 2026 – via YouTube
- ↑ Zunitch, Peter (24 de janeiro de 2018). «CUDA vs. OpenCL vs. OpenGL». Videomaker (em inglês). Consultado em 16 de setembro de 2018
- ↑ «OpenCL». NVIDIA Developer (em inglês). 24 de abril de 2013. Consultado em 4 de novembro de 2019
- ↑ a b Cosgrove, Emma. «Ian Buck built Nvidia's secret weapon. He may spend the rest of his career defending it.». Business Insider (em inglês). Consultado em 24 de julho de 2025. Cópia arquivada em 28 de maio de 2026
- ↑ «John Nickolls Obituary – Los Altos, CA». The Mercury News (em inglês). 29 de setembro de 2011. Consultado em 23 de novembro de 2025.
John Richard Nickolls, who passed away in Los Altos, California on August 13, 2011 after a courageous battle against cancer. He was born on March 6, 1950 to Kenneth and Kathryn Nickolls and grew up in Wilbraham, Massachusetts.
- ↑ Witt, Stephen (27 de novembro de 2023). «How Jensen Huang's Nvidia Is Powering the A.I. Revolution». The New Yorker (em inglês). ISSN 0028-792X. Consultado em 10 de dezembro de 2023. Cópia arquivada em 28 de maio de 2026
- ↑ «CUDA LLVM Compiler». 7 de maio de 2012. Cópia arquivada em 28 de maio de 2026
- ↑ «Compiling CUDA with clang – LLVM 22.0.0git documentation». llvm.org
- ↑ First OpenCL demo on a GPU no YouTube
- ↑ DirectCompute Ocean Demo Running on Nvidia CUDA-enabled GPU no YouTube
- ↑ Vasiliadis, Giorgos; Antonatos, Spiros; Polychronakis, Michalis; Markatos, Evangelos P.; Ioannidis, Sotiris (setembro de 2008). «Gnort: High Performance Network Intrusion Detection Using Graphics Processors» (PDF). Recent Advances in Intrusion Detection. Col: Lecture Notes in Computer Science. 5230. [S.l.: s.n.] pp. 116–134. ISBN 978-3-540-87402-7. doi:10.1007/978-3-540-87403-4_7
- ↑ Schatz, Michael C.; Trapnell, Cole; Delcher, Arthur L.; Varshney, Amitabh (2007). «High-throughput sequence alignment using Graphics Processing Units». BMC Bioinformatics. 8. PMC 2222658
. PMID 18070356. doi:10.1186/1471-2105-8-474
- ↑ «Pyrit – Google Code». Cópia arquivada em 14 de agosto de 2016
- ↑ «Use your Nvidia GPU for scientific computing». boinc.berkeley.edu. Berkeley Open Infrastructure for Network Computing (BOINC). 18 de dezembro de 2008. Consultado em 8 de agosto de 2017. Arquivado do original em 28 de dezembro de 2008
- ↑ «Nvidia CUDA Software Development Kit (CUDA SDK) – Release Notes Version 2.0 for MAC OS X». Arquivado do original em 6 de janeiro de 2009
- ↑ «CUDA 1.1 – Now on Mac OS X». 14 de fevereiro de 2008. Arquivado do original em 22 de novembro de 2008
- ↑ «CUDA 11 Features Revealed». 14 de maio de 2020. Cópia arquivada em 28 de maio de 2026
- ↑ «CUDA Toolkit 11.1 Introduces Support for GeForce RTX 30 Series and Quadro RTX Series GPUs». 23 de setembro de 2020. Cópia arquivada em 28 de maio de 2026
- ↑ «Enhancing Memory Allocation with New NVIDIA CUDA 11.2 Features». 16 de dezembro de 2020. Cópia arquivada em 28 de maio de 2026
- ↑ «Exploring the New Features of CUDA 11.3». 16 de abril de 2021. Cópia arquivada em 28 de maio de 2026
- ↑ Silberstein, Mark; Schuster, Assaf; Geiger, Dan; Patney, Anjul; Owens, John D. (2008). «Efficient computation of sum-products on GPUs through software-managed cache» (PDF). Proceedings of the 22nd annual international conference on Supercomputing – ICS '08 (PDF). Proceedings of the 22nd annual international conference on Supercomputing – ICS '08. pp. 309–318. ISBN 978-1-60558-158-3. doi:10.1145/1375527.1375572
- ↑ «CUDA C Programming Guide v8.0» (PDF). nVidia Developer Zone. Janeiro de 2017. p. 19. Consultado em 22 de março de 2017. Cópia arquivada (PDF) em 28 de maio de 2026
- ↑ «NVCC forces c++ compilation of .cu files». 29 de novembro de 2011. Cópia arquivada em 23 de setembro de 2019
- ↑ Whitehead, Nathan; Fit-Florea, Alex. «Precision & Performance: Floating Point and IEEE 754 Compliance for Nvidia GPUs» (PDF). Nvidia. Consultado em 18 de novembro de 2014. Cópia arquivada (PDF) em 23 de abril de 2024
- ↑ «CUDA-Enabled Products». CUDA Zone. Nvidia Corporation. Consultado em 3 de novembro de 2008. Cópia arquivada em 6 de janeiro de 2010
- ↑ «Coriander Project: Compile CUDA Codes To OpenCL, Run Everywhere». Phoronix. Cópia arquivada em 22 de setembro de 2021
- ↑ Perkins, Hugh (2017). «cuda-on-cl» (PDF). IWOCL. Consultado em 8 de agosto de 2017
- ↑ «hughperkins/coriander: Build NVIDIA® CUDA™ code for OpenCL™ 1.2 devices». GitHub. 6 de maio de 2019. Cópia arquivada em 28 de maio de 2026
- ↑ «CU2CL Documentation». chrec.cs.vt.edu
- ↑ «GitHub – vosen/ZLUDA». GitHub. Cópia arquivada em 28 de maio de 2026
- ↑ Citação:
- ↑ «GitHub – chip-spv/chipStar». GitHub. Cópia arquivada em 28 de maio de 2026
- ↑ «New SCALE tool enables CUDA applications to run on AMD GPUs». Tom's Hardware. 17 de julho de 2024
- ↑ «PyCUDA». Cópia arquivada em 28 de maio de 2026
- ↑ «pycublas». Consultado em 8 de agosto de 2017. Arquivado do original em 20 de abril de 2009
- ↑ «CuPy». cupy.dev (em inglês). Consultado em 23 de setembro de 2025
- ↑ a b «User Guide for NVPTX Back-end — LLVM 22.0.0git documentation». llvm.org. Cópia arquivada em 28 de maio de 2026
- ↑ «NVIDIA CUDA Programming Guide. Version 1.0» (PDF). 23 de junho de 2007. Cópia arquivada (PDF) em 28 de maio de 2026
- ↑ «NVIDIA CUDA Programming Guide. Version 2.1» (PDF). 8 de dezembro de 2008. Cópia arquivada (PDF) em 24 de fevereiro de 2021
- ↑ «NVIDIA CUDA Programming Guide. Version 2.2» (PDF). 2 de abril de 2009. Cópia arquivada (PDF) em 21 de abril de 2021
- ↑ «NVIDIA CUDA Programming Guide. Version 2.2.1» (PDF). 26 de maio de 2009. Cópia arquivada (PDF) em 7 de março de 2021
- ↑ «NVIDIA CUDA Programming Guide. Version 2.3.1» (PDF). 26 de agosto de 2009. Cópia arquivada (PDF) em 24 de fevereiro de 2021
- ↑ «NVIDIA CUDA Programming Guide. Version 3.0» (PDF). 20 de fevereiro de 2010. Cópia arquivada (PDF) em 28 de julho de 2021
- ↑ «NVIDIA CUDA C Programming Guide. Version 3.1.1» (PDF). 21 de julho de 2010. Cópia arquivada (PDF) em 15 de julho de 2021
- ↑ «NVIDIA CUDA C Programming Guide. Version 3.2» (PDF). 9 de novembro de 2010
- ↑ «CUDA 11.0 Release Notes». NVIDIA Developer. Cópia arquivada em 28 de maio de 2026
- ↑ «CUDA 11.1 Release Notes». NVIDIA Developer. Cópia arquivada em 28 de maio de 2026
- ↑ «CUDA 11.5 Release Notes». NVIDIA Developer. Cópia arquivada em 28 de maio de 2026
- ↑ «CUDA 11.8 Release Notes». NVIDIA Developer. Cópia arquivada em 28 de maio de 2026
- ↑ «pytorch/RELEASE.md at main · pytorch/pytorch Backend». github.com. Consultado em 28 de março de 2026. Cópia arquivada em 28 de maio de 2026
- ↑ «Support Matrix – NVIDIA cuDNN Backend». docs.nvidia.com. Consultado em 20 de agosto de 2025
- ↑ «NVIDIA Quadro NVS 420 Specs». TechPowerUp GPU Database. 25 de agosto de 2023
- ↑ Larabel, Michael (29 de março de 2017). «NVIDIA Rolls Out Tegra X2 GPU Support In Nouveau». Phoronix. Consultado em 8 de agosto de 2017. Cópia arquivada em 23 de abril de 2022
- ↑ Nvidia Xavier Specs on TechPowerUp (preliminary)
- ↑ «Welcome – Jetson LinuxDeveloper Guide 34.1 documentation». Cópia arquivada em 15 de abril de 2022
- ↑ «NVIDIA Bringing up Open-Source Volta GPU Support for Their Xavier SoC». Cópia arquivada em 3 de fevereiro de 2022
- ↑ «NVIDIA Ada Lovelace Architecture». Cópia arquivada em 28 de maio de 2026
- ↑ Dissecting the Turing GPU Architecture through Microbenchmarking
- ↑ «H.1. Features and Technical Specifications – Table 13. Feature Support per Compute Capability». docs.nvidia.com (em inglês). Consultado em 23 de setembro de 2020
- ↑ «CUDA C++ Programming Guide»
- ↑ Fused-Multiply-Add, realmente executado, Matriz Densa
- ↑ como SASS desde 7.5, como PTX desde 8.0
- ↑ a b suporte não oficial em SASS
- ↑ «Technical brief. NVIDIA Jetson AGX Orin Series» (PDF). nvidia.com. Consultado em 5 setembro 2023
- ↑ Nos Whitepapers...
- ↑ a b forma x tamanho do operando convertido...
- ↑ a b = produto das primeiras 3 linhas da tabela
- ↑ a b = produto das 2 linhas anteriores...
- ↑ ...
- ↑ ...
- ↑ «CUDA C++ Programming Guide, Compute Capabilities». docs.nvidia.com (em inglês). Consultado em 6 de fevereiro de 2025. Cópia arquivada em 24 de maio de 2026
- ↑ «nVidia CUDA Bioinformatics: BarraCUDA». BioCentric (em inglês). 19 de julho de 2019. Consultado em 15 de outubro de 2019. Cópia arquivada em 28 de maio de 2026
- ↑ «Part V: Physics Simulation». NVIDIA Developer (em inglês). Consultado em 11 de setembro de 2020. Cópia arquivada em 28 de maio de 2026
- ↑ «oneAPI Programming Model». oneAPI.io (em inglês). Consultado em 27 de julho de 2024. Cópia arquivada em 28 de maio de 2026
- ↑ «Specifications | oneAPI». oneAPI.io (em inglês). Consultado em 27 de julho de 2024. Cópia arquivada em 28 de maio de 2026
- ↑ «oneAPI Specification – oneAPI Specification 1.3-rev-1 documentation». oneapi-spec.uxlfoundation.org. Consultado em 27 de julho de 2024. Cópia arquivada em 28 de maio de 2026
- ↑ Cherney, Max A. (26 de março de 2024). «Exclusive: Behind the plot to break Nvidia's grip on AI by targeting software». Reuters. Consultado em 5 de abril de 2024
- ↑ «Question: What does ROCm stand for? · Issue #1628 · RadeonOpenCompute/ROCm». Github.com. Consultado em 18 de janeiro de 2022. Cópia arquivada em 6 de novembro de 2023
Leitura adicional
- Buck, Ian; Foley, Tim; Horn, Daniel; Sugerman, Jeremy; Fatahalian, Kayvon; Houston, Mike; Hanrahan, Pat (1 de agosto de 2004). «Brook for GPUs: stream computing on graphics hardware»
. ACM Transactions on Graphics. 23 (3): 777–786. ISSN 0730-0301. doi:10.1145/1015706.1015800. Cópia arquivada em 14 de junho de 2025 - Nickolls, John; Buck, Ian; Garland, Michael; Skadron, Kevin (1 de março de 2008). «Scalable Parallel Programming with CUDA: Is CUDA the parallel programming model that application developers have been waiting for?». ACM Queue. 6 (2): 40–53. ISSN 1542-7730. doi:10.1145/1365490.1365500. Cópia arquivada em 20 de fevereiro de 2025
Ligações externas
Content Disclaimer
Informasi ini disarikan dari Wikipedia dan disajikan kembali untuk tujuan edukasi. Konten tersedia di bawah lisensi CC BY-SA 3.0. Kami tidak bertanggung jawab atas ketidakakuratan data yang bersumber dari kontribusi publik tersebut.
- The information displayed on this website is sourced in part or in whole from Wikipedia and has been adapted for the purpose of restating it. We strive to provide accurate and relevant information, however:
- There is no guarantee of absolute accuracy. Wikipedia is an open, collaborative project that can be edited by anyone, so information is subject to change.
- It is not intended to constitute professional advice. The content displayed is for informational and educational purposes only. For important decisions (e.g., medical, legal, or financial), please consult a professional.
- Content copyright. Wikipedia is licensed under the Creative Commons Attribution-ShareAlike License (CC BY-SA). This means that content may be reused with appropriate attribution and shared under a similar license.
- Responsible use. Any risk arising from the use of information from this website is entirely the responsibility of the user.