Kort svar: Använd NVIDIA GPU:er för AI-träning genom att först bekräfta att drivrutinen och GPU:n är synliga med nvidia-smi , sedan installera ett kompatibelt ramverk/CUDA-stack och köra ett litet "modell + batch på cuda"-test. Om du får slut på minne, minska batchstorleken och använd blandad precision, samtidigt som du övervakar användning, minne och temperaturer.
Viktiga slutsatser:
Baslinjekontroller : Börja med nvidia-smi ; fixa drivrutinssynligheten innan du installerar ramverk.
Stackkompatibilitet : Håll drivrutin-, CUDA-körtids- och ramverksversionerna justerade för att förhindra krascher och osäkra installationer.
Liten framgång : Bekräfta att en enda framåtriktad körning på CUDA innan du skalar upp experimenten.
VRAM-disciplin : Luta dig mot blandad precision, gradientackumulering och kontrollpunkter för att passa större modeller.
Övervakningsvanor : Spåra användning, minnesmönster, strömförbrukning och temperaturer så att du upptäcker flaskhalsar tidigt.

Artiklar du kanske vill läsa efter den här:
🔗 Hur man bygger en AI-agent
Utforma din agents arbetsflöde, verktyg, minne och säkerhetsåtgärder.
🔗 Hur man distribuerar AI-modeller
Konfigurera miljöer, paketera modeller och skicka till produktion på ett tillförlitligt sätt.
🔗 Hur man mäter AI-prestanda
Välj mätvärden, kör utvärderingar och följ upp prestanda över tid.
🔗 Hur man automatiserar uppgifter med AI
Automatisera repetitivt arbete med prompter, arbetsflöden och integrationer.
1) Helhetsbilden - vad du gör när du "tränar på GPU" 🧠⚡
När du tränar AI-modeller gör du mestadels en massa matrismatematik. GPU:er är byggda för den typen av parallellt arbete, så ramverk som PyTorch, TensorFlow och JAX kan avlasta det tunga arbetet till GPU:n. ( PyTorch CUDA-dokumentation , TensorFlow-installation (pip) , JAX Quickstart )
I praktiken betyder "använda NVIDIA GPU:er för träning" vanligtvis:
-
Dina modellparametrar finns (mestadels) i GPU VRAM
-
Dina batcher flyttas från RAM till VRAM i varje steg
-
Din forward pass och backprop körs på CUDA-kärnor ( CUDA Programming Guide )
-
Dina optimeringsuppdateringar sker (helst) på GPU:n
-
Du övervakar temperaturer, minne och användning så att du inte lagar mat 🔥 ( NVIDIA nvidia-smi-dokumentation )
Om det låter mycket, oroa dig inte. Det är mest en checklista och några vanor man bygger upp över tid.
2) Vad kännetecknar en bra version av en NVIDIA GPU AI-träningsuppsättning 🤌
Det här är avsnittet "bygg inte ett hus på gelé". En bra uppställning för Hur man använder NVIDIA GPU:er för AI-träning är en som är lågdramatisk. Lågdramatisk är stabil. Stabil är snabb. Snabb är... ja, snabb 😄
En gedigen träningsupplägg har vanligtvis:
-
Tillräckligt med VRAM för din batchstorlek + modell + optimeringslägen
-
VRAM är som resväskeutrymme. Du kan packa smartare, men du kan inte packa oändligt.
-
-
En matchande programvarustack (drivrutin + CUDA-körtid + ramverkskompatibilitet) ( PyTorch Get Started (CUDA-väljare) , TensorFlow-installation (pip) )
-
Snabb lagring (NVMe hjälper mycket för stora datamängder)
-
Hyfsad CPU + RAM så att datainläsningen inte svälter ut GPU:n ( PyTorch Performance Tuning Guide )
-
Kylning och effektutrymme (underskattat tills det inte är det 😬)
-
Reproducerbar miljö (venv/conda eller containrar) så att uppgraderingar inte blir kaos ( översikt över NVIDIA Container Toolkit )
Och en sak till som folk hoppar över:
-
En övervakningsvana – du kontrollerar GPU-minne och användning på samma sätt som du kontrollerar backspeglar när du kör. ( NVIDIA nvidia-smi docs )
3) Jämförelsetabell - populära sätt att träna med NVIDIA GPU:er (med egenheter) 📊
Nedan följer en snabb "vilken passar?"-ruta. Priserna är ungefärliga (eftersom verkligheten varierar), och ja, en av dessa celler är lite ojämn, med flit.
| Verktyg / Metod | Bäst för | Pris | Varför det fungerar (för det mesta) |
|---|---|---|---|
| PyTorch (vanilj) PyTorch | de flesta människor, de flesta projekt | Gratis | Flexibelt, enormt ekosystem, enkel felsökning - alla har också åsikter |
| PyTorch Lightning Lightning-dokumentation | team, strukturerad träning | Gratis | Minskar standardschemat, renar loopar; ibland känns det som "magi", tills det inte längre gör det |
| Krama ansikte Transformers + Tränare Tränardokument | NLP + LLM finjustering | Gratis | Batterier ingår i träningen, bra standardinställningar, snabba vinster 👍 |
| Accelerera Accelerera dokument | multi-GPU utan problem | Gratis | Gör DDP mindre irriterande, bra för att skala upp utan att skriva om allt |
| DeepSpeed ZeRO-dokument | stora modeller, minnesknep | Gratis | Noll, avlastning, skalning - kan vara krångligt men tillfredsställande när det klickar |
| TensorFlow + Keras TF-installation | produktionsliknande rörledningar | Gratis | Starka verktyg, bra driftsättningshistoria; vissa älskar det, andra gör det i tysthet inte |
| JAX + Flax JAX Snabbstart / Flax-dokumentation | forskning + hastighetsnördar | Gratis | XLA-kompilering kan vara otroligt snabb, men felsökning kan kännas ... abstrakt |
| NVIDIA NeMo NeMo-översikt | tal + LLM-arbetsflöden | Gratis | NVIDIA-optimerad stack, bra recept - känns som att laga mat med en snygg ugn 🍳 |
| Docker + NVIDIA Container Toolkit Översikt över verktygssatsen | reproducerbara miljöer | Gratis | ”Fungerar på min maskin” blir ”fungerar på våra maskiner” (för det mesta, igen) |
4) Steg ett - bekräfta att din GPU syns korrekt 🕵️♂️
Innan du installerar ett dussin saker, verifiera grunderna.
Saker du vill ska vara sanna:
-
Maskinen ser GPU:n
-
NVIDIA-drivrutinen är korrekt installerad
-
GPU:n har inte fastnat och gör något annat
-
Du kan fråga det på ett tillförlitligt sätt
Den klassiska kontrollen är:
-
nvidia-smi( NVIDIA nvidia-smi-dokumentation )
Vad du letar efter:
-
GPU-namn (t.ex. RTX, A-serien, etc.)
-
Drivrutinsversion
-
Minnesanvändning
-
Processer som körs ( NVIDIA nvidia-smi-dokumentation )
Om nvidia-smi misslyckas, sluta där. Installera inte ramverk än. Det är som att försöka baka bröd när ugnen inte är inkopplad. ( NVIDIA System Management Interface (NVSMI) )
Liten mänsklig anmärkning: ibland nvidia-smi men din träning misslyckas fortfarande eftersom CUDA-körtiden som används av ditt ramverk inte matchar drivrutinens förväntningar. Det är inte du som är dum. Det är... bara så det är 😭 ( PyTorch Get Started (CUDA selector) , TensorFlow install (pip) )
5) Bygg programvarustacken - drivrutiner, CUDA, cuDNN och "kompatibilitetsdansen" 💃
Det är här folk förlorar timmar. Knepet är: välj en väg och håll dig till den .
Alternativ A: Ramverksbundlad CUDA (ofta enklast)
Många PyTorch-versioner levereras med sin egen CUDA-körtid, vilket innebär att du inte behöver en komplett CUDA-verktygslåda installerad över hela systemet. Du behöver oftast bara en kompatibel NVIDIA-drivrutin. ( PyTorch Kom igång (CUDA-väljare) , Tidigare PyTorch-versioner (CUDA-hjul) )
Fördelar:
-
Färre rörliga delar
-
Enklare installationer
-
Mer reproducerbar per miljö
Nackdelar:
-
Om man blandar miljöer slentrianmässigt kan man bli förvirrad
Alternativ B: System CUDA-verktygslåda (mer kontroll)
Du installerar CUDA-verktygslådan på systemet och anpassar allt efter den. ( CUDA Toolkit-dokumentation )
Fördelar:
-
Mer kontroll för specialbyggen, vissa specialverktyg
-
Praktiskt för att kompilera vissa operationer
Nackdelar:
-
Fler sätt att missmatcha versioner och gråta tyst
cuDNN och NCCL, i mänskliga termer
-
cuDNN snabbar upp djupinlärningsprimitiver (konvolutioner, RNN-bitar, etc.) ( NVIDIA cuDNN-dokumentation )
-
NCCL är det snabba biblioteket för "GPU-till-GPU-kommunikation" för träning med flera GPU:er ( NCCL-översikt )
Om du tränar med flera GPU:er är NCCL din bästa vän – och ibland din temperamentsfulla rumskamrat. ( NCCL-översikt )
6) Din första GPU-träningskörning (PyTorch-exempel på tankesätt) ✅🔥
För att följa instruktionerna för hur man använder NVIDIA GPU:er för AI-träning behöver du inte ett stort projekt först. Du behöver en liten framgång.
Kärnidéer:
-
Identifiera enhet
-
Flytta modellen till GPU:n
-
Flytta tensorer till GPU
-
Bekräfta att forward pass-körningarna körs där ( PyTorch CUDA-dokumentation )
Saker jag alltid kontrollerar min mentala hälsa tidigt:
-
torch.cuda.is_available()returnerarTrue( torch.cuda.is_available ) -
next(model.parameters()).devicevisarCUDA( PyTorch Forum: kontrollera modell på CUDA ) -
En enskild batch framåt ger inget fel
-
GPU-minnet ökar när du börjar träna (ett gott tecken!) ( NVIDIA nvidia-smi-dokumentation )
Vanliga "varför är det långsamt?"-frågeställningar
-
Din dataladare är för långsam (GPU väntar inaktiv) ( PyTorch prestandajusteringsguide )
-
Du glömde att flytta data till GPU:n (oops)
-
Batchstorleken är liten (GPU underutnyttjad)
-
Du utför tung CPU-förbehandling i träningssteget
Dessutom, ja, din grafikkort kommer ofta att se "inte så upptagen" ut om flaskhalsen är data. Det är som att anlita en racerförare och sedan låta dem vänta på bränsle varje varv.
7) VRAM-spelet - batchstorlek, blandad precision och att det inte exploderar 💥🧳
De flesta praktiska träningsproblem kokar ner till minnet. Om du lär dig en färdighet, lär dig VRAM-hantering.
Snabba sätt att minska minnesanvändningen
-
Blandad precision (FP16/BF16)
-
Vanligtvis en stor hastighetsökning också. Win-win-aktig 😌 ( PyTorch AMP-dokumentation , TensorFlow-guide för blandad precision )
-
-
Gradientackumulering
-
Simulera större batchstorlek genom att ackumulera gradienter över flera steg ( Transformers träningsdokumentation (gradientackumulering, fp16) )
-
-
Kortare sekvenslängd/beskärningsstorlek
-
Brutalt men effektivt
-
-
Aktiveringskontrollpunkt
-
Byt ut beräkning mot minne (beräkna om aktiveringar under bakåtkörning) ( torch.utils.checkpoint )
-
-
Använd en lättare optimerare
-
Vissa optimerare lagrar extra tillstånd som tuggar på VRAM
-
"Varför är VRAM fortfarande fullt efter att jag har stoppat?"-ögonblicket
Ramverk cachar ofta minne för prestanda. Detta är normalt. Det ser läskigt ut men det är inte alltid en läcka. Man lär sig att läsa mönstren. ( PyTorch CUDA semantik: cachningsallokering )
Praktisk vana:
-
Övervaka allokerat kontra reserverat minne (ramverksspecifikt) ( PyTorch CUDA-semantik: cachningsallokering )
-
Få inte panik vid den första läskiga siffran 😅
8) Få GPU:n att fungera – prestandajustering som är värd din tid 🏎️
Att få "GPU-träning att fungera" är steg ett. Att få det att fungera snabbt är steg två.
Effektiva optimeringar
-
Öka satsstorleken (tills det gör ont, sedan backa lite)
-
Använd pinnat minne i dataladdare (snabbare kopior från värd till enhet) ( PyTorch-guide för prestandajustering , PyTorch-handledning för pin_memory/non_blocking )
-
Öka antalet datalastare (var försiktig, för många kan ge bakslag) ( PyTorch Performance Tuning Guide )
-
Förhämta batchar så att GPU:n inte går i viloläge
-
Använd fused ops / optimerade kärnor när det är tillgängligt
-
Använd blandad precision (återigen, det är så bra) ( PyTorch AMP-dokumentation )
Den mest förbisedda flaskhalsen
Din lagrings- och förbehandlingspipeline. Om din datamängd är enorm och lagras på en långsam disk blir din GPU en dyr rymdvärmare. En mycket avancerad, mycket glänsande rymdvärmare.
Och en liten bekännelse: Jag har "optimerat" en modell i en timme bara för att inse att loggning var flaskhalsen. Att skriva ut för mycket kan bromsa träningen. Ja, det kan det.
9) Multi-GPU-träning - DDP, NCCL och skalning utan kaos 🧩🤝
När du vill ha mer hastighet eller större modeller, väljer du multi-GPU. Det är här det blir riktigt hett.
Vanliga tillvägagångssätt
-
Parallell data (DDP)
-
Dela upp batcher över GPU:er, synkronisera gradienter
-
Vanligtvis standardalternativet "bra" ( PyTorch DDP-dokumentation )
-
-
Modell Parallell / Tensor Parallell
-
Dela upp modellen över GPU:er (för mycket stora modeller)
-
-
Parallell rörledning
-
Dela upp modellager i steg (som ett monteringsband, men för tensorer)
-
Om du precis har börjat är DDP-liknande utbildning det perfekta valet. ( PyTorch DDP-handledning )
Praktiska tips för flera GPU:er
-
Se till att GPU:erna har liknande kapacitet (mixning kan orsaka flaskhalsar)
-
Watch-sammankoppling: NVLink kontra PCIe spelar roll för synkroniseringstunga arbetsbelastningar ( översikt över NVIDIA NVLink , dokumentation av NVIDIA NVLink )
-
Håll batchstorlekarna per GPU balanserade
-
Ignorera inte CPU och lagring – flera GPU:er kan förstärka flaskhalsar i data
Och ja, NCCL-fel kan kännas som en gåta insvept i ett mysterium insvept i "varför nu". Du är inte förbannad. Förmodligen. ( NCCL-översikt )
10) Övervakning och profilering – det oglamorösa som sparar timmar 📈🧯
Du behöver inga avancerade dashboards för att komma igång. Du måste märka när något är fel.
Viktiga signaler att hålla koll på
-
GPU-utnyttjande : är det konsekvent högt eller ojämnt?
-
Minnesanvändning : stabil, stigande eller konstig?
-
Strömförbrukning : ovanligt låg kan innebära underutnyttjande
-
Temperaturer : ihållande höga temperaturer kan sänka prestandan
-
CPU-användning : problem med datapipeline visas här ( PyTorch Performance Tuning Guide )
Profileringstänkande (enkel version)
-
Om GPU:n utnyttjar lågt – flaskhals i data eller CPU
-
Om GPU:n är hög men långsam - kärnans ineffektivitet, precision eller modellarkitektur
-
Om träningshastigheten sjunker slumpmässigt - termisk strypning, bakgrundsprocesser, I/O-problem
Jag vet, övervakning låter inte roligt. Men det är som att använda tandtråd. Irriterande, och plötsligt blir livet bättre.
11) Felsökning - de vanliga misstänkta (och de mindre vanliga) 🧰😵💫
Det här avsnittet är i grunden: ”samma fem nummer, för alltid.”
Problem: CUDA har slut på minne
Åtgärder:
-
minska batchstorleken
-
använd blandad precision ( PyTorch AMP-dokumentation , TensorFlow-guide för blandad precision )
-
gradientackumulering ( Transformers träningsdokumentation (gradientackumulering, fp16) )
-
kontrollpunktsaktiveringar ( torch.utils.checkpoint )
-
stäng andra GPU-processer
Problem: Träning körs av misstag på processorn
Åtgärder:
-
se till att modellen flyttades till
CUDA -
se till att tensorerna flyttas till
CUDA -
kontrollera konfigurationen av ramverkets enheter ( PyTorch CUDA-dokumentation )
Problem: Konstiga krascher eller olaglig minnesåtkomst
Åtgärder:
-
bekräfta drivrutin + runtime-kompatibilitet ( PyTorch Get Started (CUDA-väljare) , TensorFlow-installation (pip) )
-
prova en ren miljö
-
minska anpassade operationer
-
kör om med deterministiska inställningar för att reproducera
Problem: Långsammare än väntat
Åtgärder:
-
kontrollera dataladdarens genomströmning ( PyTorch prestandajusteringsguide )
-
öka batchstorleken
-
minska avverkning
-
aktivera blandad precision ( PyTorch AMP-dokumentation )
-
uppdelning av profilstegstid
Problem: Flera GPU-enheter hänger sig
Åtgärder:
-
bekräfta korrekta backend-inställningar ( distribuerade PyTorch-dokument )
-
kontrollera NCCL-miljökonfigurationerna (var försiktig) ( NCCL-översikt )
-
testa en enda GPU först
-
se till att nätverket/sammankopplingen är felfri
En liten tillbakablick: ibland är lösningen bokstavligen att starta om. Det känns fånigt. Det fungerar. Datorer är så.
12) Kostnad och praktisk användning - att välja rätt NVIDIA GPU och installation utan att övertänka 💸🧠
Inte alla projekt behöver den största GPU:n. Ibland behöver man tillräckligt med GPU.
Om du finjusterar mellanstora modeller
-
Prioritera VRAM och stabilitet
-
Blandad precision hjälper mycket ( PyTorch AMP-dokumentation , TensorFlow-guide för blandad precision )
-
Man kan ofta komma undan med ett enda starkt grafikkort
Om du tränar större modeller från grunden
-
Du behöver flera grafikkort eller mycket stort VRAM
-
Du kommer att bry dig om NVLink och kommunikationshastighet ( översikt över NVIDIA NVLink , översikt över NCCL )
-
Du kommer förmodligen att använda minnesoptimerare (ZeRO, offload, etc.) ( DeepSpeed ZeRO-dokumentation , Microsoft Research: ZeRO/DeepSpeed )
Om du experimenterar
-
Du vill ha snabb iteration
-
Lägg inte alla dina pengar på GPU och svält sedan lagring och RAM
-
Ett balanserat system slår ett snedvridet (de flesta dagar)
Och sanningen är att du kan slösa veckor på att jaga "perfekta" hårdvaruval. Bygg något fungerande, mät och justera sedan. Den verkliga fienden är att inte ha en återkopplingsslinga.
Avslutande anteckningar - Hur man använder NVIDIA GPU:er för AI-träning utan att bli galen 😌✅
Om du inte får med dig något annat från den här guiden om hur man använder NVIDIA GPU:er för AI-träning , ta den här:
-
Se till att
nvidia-smifungerar först ( NVIDIA nvidia-smi-dokumentation ) -
Välj en ren programvarusökväg (CUDA med ramverk är ofta enklast) ( PyTorch Kom igång (CUDA-väljare) )
-
Validera en liten GPU-träningskörning innan uppskalning ( torch.cuda.is_available )
-
Hantera VRAM som om det vore en begränsad skafferihylla
-
Använd blandad precision tidigt – det är inte bara "avancerat" ( PyTorch AMP-dokumentation , TensorFlow-guide för blandad precision )
-
Om den är långsam, misstänk dataladdaren och I/O innan du skyller på GPU:n ( PyTorch Performance Tuning Guide )
-
Multi-GPU är kraftfullt men ökar komplexiteten – skala gradvis ( PyTorch DDP-dokumentation , NCCL-översikt )
-
Övervaka användning och temperaturer så att problem upptäcks tidigt ( NVIDIA nvidia-smi-dokumentation )
Att träna på NVIDIA-grafikkort är en av de där färdigheterna som känns skrämmande, men plötsligt är det bara... normalt. Som att lära sig köra bil. Först är allt högljutt och förvirrande och du greppar för hårt i ratten. Sedan en dag kör du bil, smuttar på kaffe och felsöker nonchalant ett batchstorleksproblem som om det inte vore någon stor sak ☕😄
Vanliga frågor
Vad det innebär att träna en AI-modell på en NVIDIA GPU
Träning på ett NVIDIA GPU innebär att dina modellparametrar och träningsbatchar finns i GPU VRAM, och den tunga matematiken (forward pass, backprop, optimeringssteg) körs via CUDA-kärnor. I praktiken handlar detta ofta om att säkerställa att modellen och tensorerna sitter på cuda , och sedan hålla ett öga på minne, användning och temperaturer så att dataflödet förblir konsekvent.
Hur man bekräftar att ett NVIDIA GPU fungerar innan man installerar något annat
Börja med nvidia-smi . Den ska visa GPU-namn, drivrutinsversion, aktuell minnesanvändning och alla pågående processer. Om nvidia-smi misslyckas, vänta med PyTorch/TensorFlow/JAX - fixa drivrutinssynligheten först. Det är den grundläggande kontrollen av "är ugnen inkopplad" för GPU-träning.
Att välja mellan system-CUDA och CUDA som ingår i PyTorch
Ett vanligt tillvägagångssätt är att använda ramverksbundlad CUDA (som många PyTorch-hjul) eftersom det minskar rörliga delar - du behöver främst en kompatibel NVIDIA-drivrutin. Att installera hela systemets CUDA-verktygslåda ger mer kontroll (anpassade byggen, kompileringsoperationer), men det introducerar också fler möjligheter till versionsavvikelser och förvirrande körtidsfel.
Varför träning fortfarande kan vara långsam även med en NVIDIA GPU
Ofta svälter GPU:n av inmatningspipelinen. Dataladdare som laggar, tung CPU-förbehandling i träningssteget, små batchstorlekar eller långsam lagring kan alla få en kraftfull GPU att bete sig som en inaktiv värmepumpare. Att öka antalet dataladdare, aktivera fast minne, lägga till förhämtning och trimma loggning är vanliga första steg innan man skyller på modellen.
Så här förhindrar du felmeddelandet "CUDA slut på minne" under NVIDIA GPU-träning
De flesta lösningar är VRAM-taktik: minska batchstorleken, aktivera blandad precision (FP16/BF16), använd gradientackumulering, förkorta sekvenslängden/beskärningsstorleken eller använd aktiveringskontrollpunkter. Kontrollera även om det finns andra GPU-processer som förbrukar minne. Viss trial and error är normalt – VRAM-budgetering blir en central vana i praktisk GPU-träning.
Varför VRAM fortfarande kan se fullt ut efter att ett träningsskript avslutats
Ramverk cachar ofta GPU-minne för hastighetens skull, så reserverat minne kan förbli högt även när det allokerade minnet minskar. Det kan likna en läcka, men det är ofta cachningsallokeraren som beter sig som avsett. Den praktiska vanan är att spåra mönstret över tid och jämföra "allokerat kontra reserverat" snarare än att fixera sig vid en enda alarmerande ögonblicksbild.
Hur man bekräftar att en modell inte tränar tyst på CPU:n
Förnuftskontroll tidigt: bekräfta att torch.cuda.is_available() returnerar True , verifiera att next(model.parameters()).device visar cuda och kör ett enda framåtpass utan fel. Om prestandan känns misstänkt långsam, bekräfta även att dina batchar flyttas till GPU:n. Det är vanligt att flytta modellen och av misstag lämna data kvar.
Den enklaste vägen till multi-GPU-träning
Data Parallel (DDP-liknande träning) är ofta det bästa första steget: dela upp batcher över GPU:er och synkronisera gradienter. Verktyg som Accelerate kan göra det mindre smärtsamt att använda flera GPU:er utan en fullständig omskrivning. Förvänta dig extra variabler – NCCL-kommunikation, skillnader i sammankopplingar (NVLink vs PCIe) och förstärkta dataflaskhalsar – så gradvis skalning efter en stabil körning med en enda GPU tenderar att gå bättre.
Vad man ska övervaka under NVIDIA GPU-träning för att upptäcka problem tidigt
Håll koll på GPU-användning, minnesanvändning (stabil kontra klättrande), strömförbrukning och temperaturer – strypning kan tyst dränera hastigheten. Håll även koll på CPU-användningen, eftersom problem med datapipeline ofta visar sig där först. Om användningen är ojämn eller låg, misstänk I/O eller dataladdare; om den är hög men stegtiden fortfarande är långsam, profilera kärnor, precisionsläge och stegtidsuppdelningen.
Referenser
-
NVIDIA - NVIDIA nvidia-smi-dokumentation - docs.nvidia.com
-
NVIDIA - NVIDIA System Management Interface (NVSMI) - developer.nvidia.com
-
NVIDIA - Översikt över NVIDIA NVLink - nvidia.com
-
PyTorch - Kom igång med PyTorch (CUDA-väljare) - pytorch.org
-
PyTorch - PyTorch CUDA-dokumentation - docs.pytorch.org
-
TensorFlow - TensorFlow-installation (pip) - tensorflow.org
-
JAX - JAX Snabbstart - docs.jax.dev
-
Kramande ansikte - Tränardokumentation - huggingface.co
-
Lightning AI - Lightning-dokumentation - lightning.ai
-
DeepSpeed - ZeRO-dokument - deepspeed.readthedocs.io
-
Microsoft Research - Microsoft Research: ZeRO/DeepSpeed - microsoft.com
-
PyTorch-forum - PyTorch-forum: kontrollera modell på CUDA - discuss.pytorch.org