[Cherry Pick][Transformers] Initialize with grad_sampler when no scaler (#630) (#631)

KSGulin · web-flow · commit fc208cb8ec95 · 2022-03-21T11:57:27.000-04:00
diff --git a/src/sparseml/transformers/sparsification/trainer.py b/src/sparseml/transformers/sparsification/trainer.py
@@ -231,13 +231,14 @@ def create_optimizer(self):
                 self.manager,
                 steps_per_epoch=self.manager_steps_per_epoch,
                 loggers=self.manager_loggers,
-                grad_sampler=self.grad_sampler,
+                initialize_kwargs={"grad_sampler": self.grad_sampler},
             )
             if not self.manager.initialized:
                 self.manager.initialize(
                     self.model,
                     loggers=self.manager_loggers,
                     distillation_teacher=self.teacher,
+                    grad_sampler=self.grad_sampler,
                 )
         self.manager_initialized = True
         _LOGGER.info(