Lightning-AI pytorch-lightning Ddp Multi Gpu Multi Node · Discussions · GitHub

Welcome to Lightning Discussions!
General williamFalcon

Sort by: Latest activity

DDP / multi-GPU / multi-node Discussions

Any questions about DDP or multi GPU things

You must be logged in to vote

Multi-GPUs DDP - How the dataset is distributed accross the GPUs
data handling Generic data-related topic strategy: ddp DistributedDataParallel
KevinCrp asked Jun 20, 2022 in DDP / multi-GPU / multi-node · Answered

1
You must be logged in to vote

DDP - Synchronization on DGX - Use CPUs or GPU-to-GPU interconnect
accelerator: cuda Compute Unified Device Architecture GPU
KevinCrp asked Jun 21, 2022 in DDP / multi-GPU / multi-node · Answered

1
You must be logged in to vote

self.log twice problem
logging Related to the `LoggerConnector` and `log()`
zcx-language asked Jun 10, 2022 in DDP / multi-GPU / multi-node · Unanswered

1
You must be logged in to vote

What's the relationship between number of gpu and batch size (global batch size))
distributed Generic distributed-related topic accelerator: cuda Compute Unified Device Architecture GPU
HuangChiEn asked Jun 16, 2022 in DDP / multi-GPU / multi-node · Answered

2
You must be logged in to vote

How to carry out validation loop on one single GPU
accelerator: cuda Compute Unified Device Architecture GPU trainer: validate
vionwinnie asked Apr 11, 2022 in DDP / multi-GPU / multi-node · Answered

4
You must be logged in to vote

DynamicBatchSampler
data handling Generic data-related topic
wangleiofficial asked Jun 6, 2022 in DDP / multi-GPU / multi-node · Unanswered

0
You must be logged in to vote

why always get the leaked semaphore warning?

jxchen01 asked Jun 3, 2022 in DDP / multi-GPU / multi-node · Unanswered

2
You must be logged in to vote

cannot use multigpus when running with torchrun

jxchen01 asked Jun 2, 2022 in DDP / multi-GPU / multi-node · Unanswered

0
You must be logged in to vote

RuntimeError: Expected to mark a variable ready only once - with .backward() in validation_step

kampelmuehler asked Jun 1, 2022 in DDP / multi-GPU / multi-node · Unanswered

0
You must be logged in to vote

Do we need torchrun for multigpu training?

jxchen01 asked May 31, 2022 in DDP / multi-GPU / multi-node · Unanswered

0
You must be logged in to vote

Shuffled batches' datapoints with multi-gpu

fmorenopino asked May 26, 2022 in DDP / multi-GPU / multi-node · Unanswered

0
You must be logged in to vote

Best practices for training Deep Ensembles with PL

CompRhys asked May 19, 2022 in DDP / multi-GPU / multi-node · Unanswered

0
You must be logged in to vote

How to train on multiple GPUs and then test on a single GPU?

nian-liu asked Apr 22, 2022 in DDP / multi-GPU / multi-node · Unanswered

1
You must be logged in to vote

DDP is not accelerating my training

nian-liu asked Apr 15, 2022 in DDP / multi-GPU / multi-node · Answered

2
You must be logged in to vote

Run Trainer.fit multiple times under DDP mode
strategy: ddp DistributedDataParallel
xmlyqing00 asked Mar 21, 2022 in DDP / multi-GPU / multi-node · Unanswered

4
You must be logged in to vote

Single-Node Multi-GPU Training Stuck

andrewssobral asked Mar 13, 2021 in DDP / multi-GPU / multi-node · Unanswered

12
You must be logged in to vote

DDP, Out of memory, How should I set batch size?

di0002ya asked Apr 10, 2022 in DDP / multi-GPU / multi-node · Unanswered

3
You must be logged in to vote

Doesn't it support bf16 when using Deepspeed?
strategy: deepspeed
toriving asked Mar 17, 2022 in DDP / multi-GPU / multi-node · Answered

4
You must be logged in to vote

Does DeepSpeed of Pytorch-Lightning support BFloat16 now?
strategy: deepspeed
ShaneTian asked Mar 28, 2022 in DDP / multi-GPU / multi-node · Unanswered

1
You must be logged in to vote

Implementing a Metric and including a nn.Module doesn't work correctly in parallel
strategy: ddp DistributedDataParallel accelerator: cuda Compute Unified Device Architecture GPU
import-antigravity asked Mar 26, 2021 in DDP / multi-GPU / multi-node · Unanswered

11
You must be logged in to vote

ModelCheckpoint in DDP
callback: model checkpoint strategy: ddp DistributedDataParallel
thomas0809 asked Apr 4, 2022 in DDP / multi-GPU / multi-node · Unanswered

0
You must be logged in to vote

Is there any way to cache the data when training with 'ddp' ?
data handling Generic data-related topic
seungtaek94 asked Mar 28, 2022 in DDP / multi-GPU / multi-node · Unanswered

0
You must be logged in to vote

save/load deepspeed checkpoint
strategy: deepspeed
Jiaxin-Wen asked Feb 28, 2022 in DDP / multi-GPU / multi-node · Unanswered

4
You must be logged in to vote

Should I configure FP16, optimizers, batch_size in DeepSpeed config of Pytorch-Lightning?
strategy: deepspeed
ShaneTian asked Mar 26, 2022 in DDP / multi-GPU / multi-node · Answered

3
You must be logged in to vote

Unable to load deepspeed checkpoint

lanx7 asked Mar 6, 2022 in DDP / multi-GPU / multi-node · Unanswered

7