start debugging swag

awslabs · gianlucadetommaso · May 15, 2023 · May 15, 2023 · May 15, 2023 · May 15, 2023
commit ed571de29e29e49f010953ff62df226c2afa9446
diff --git a/fortuna/calib_model/base.py b/fortuna/calib_model/base.py
@@ -30,7 +30,7 @@
     Targets,
     Uncertainties,
 )
-from pathlib import Path as _Path
+import pathlib
 from jax._src.prng import PRNGKeyArray
 from orbax.checkpoint import CheckpointManager
 from fortuna.utils.checkpoint import get_checkpoint_manager
@@ -105,7 +105,7 @@ def _calibrate(
         checkpoint_restorer = (
             get_checkpoint_manager(
                 str(
-                    _Path(config.checkpointer.restore_checkpoint_dir)
+                    pathlib.Path(config.checkpointer.restore_checkpoint_dir)
                     / config.checkpointer.checkpoint_type
                 ),
                 keep_top_n_checkpoints=config.checkpointer.keep_top_n_checkpoints,
@@ -163,7 +163,7 @@ def init_state_fn(rng):
             partition_manager=self.partition_manager,
             checkpoint_manager=get_checkpoint_manager(
                 checkpoint_dir=str(
-                    _Path(config.checkpointer.save_checkpoint_dir)
+                    pathlib.Path(config.checkpointer.save_checkpoint_dir)
                     / config.checkpointer.checkpoint_type
                 ),
                 keep_top_n_checkpoints=config.checkpointer.keep_top_n_checkpoints,

diff --git a/fortuna/prob_model/posterior/laplace/laplace_posterior.py b/fortuna/prob_model/posterior/laplace/laplace_posterior.py
@@ -7,16 +7,9 @@
     Optional,
     Tuple,
     Union,
-    Any,
-    Callable
 )
 from fortuna.data.loader.base import ShardedPrefetchedLoader
 from flax.core import FrozenDict
-from flax.training.common_utils import (
-    shard,
-    shard_prng_key,
-)
-import jax
 from jax.sharding import PartitionSpec
 from jax.experimental.pjit import pjit
 from jax import (
@@ -34,7 +27,7 @@
 import jax.numpy as jnp
 from jax.tree_util import tree_map
 import tqdm
-
+import pathlib
 from fortuna.data.loader import (
     DataLoader,
     DeviceDimensionAugmentedLoader,
@@ -64,16 +57,15 @@
     Mutable,
     Params,
     Status,
-    Array
 )
+import pathlib
 from fortuna.utils.checkpoint import get_checkpoint_manager
 from fortuna.utils.freeze import get_trainable_paths
 from fortuna.utils.nested_dicts import (
     nested_get,
     nested_set,
     nested_unpair,
 )
-from pathlib import Path
 from fortuna.utils.random import generate_random_normal_like_tree
 from fortuna.utils.strings import decode_encoded_tuple_of_lists_of_strings_to_array
 from fortuna.partitioner.partition_manager.base import PartitionManager
@@ -248,7 +240,7 @@ def fit(
         checkpoint_restorer = (
             get_checkpoint_manager(
                 str(
-                    Path(fit_config.checkpointer.restore_checkpoint_dir)
+                    pathlib.Path(fit_config.checkpointer.restore_checkpoint_dir)
                     / fit_config.checkpointer.checkpoint_type
                 ),
                 keep_top_n_checkpoints=fit_config.checkpointer.keep_top_n_checkpoints,
@@ -307,10 +299,10 @@ def fit(
         )
 
         self.state = PosteriorStateRepository(
-            partition_manager=self.partition_manager,
+            partition_manager=None,
             checkpoint_manager=get_checkpoint_manager(
                 checkpoint_dir=str(
-                    Path(fit_config.checkpointer.save_checkpoint_dir)
+                    pathlib.Path(fit_config.checkpointer.save_checkpoint_dir)
                     / fit_config.checkpointer.checkpoint_type
                 ),
                 keep_top_n_checkpoints=fit_config.checkpointer.keep_top_n_checkpoints,
@@ -319,7 +311,7 @@ def fit(
             and fit_config.checkpointer.dump_state
             else None,
         )
-        self.state.put(state, keep=fit_config.checkpointer.keep_top_n_checkpoints)
+        self.state.replace(state, keep=fit_config.checkpointer.keep_top_n_checkpoints)
         logging.info("Fit completed.")
         if (
             val_data_loader is not None
@@ -332,7 +324,7 @@ def fit(
                 shard=fit_config.processor.devices == -1,
             )
             state = state.replace(prior_log_var=opt_prior_log_var)
-            self.state.put(state, keep=fit_config.checkpointer.keep_top_n_checkpoints)
+            self.state.replace(state, keep=fit_config.checkpointer.keep_top_n_checkpoints)
             logging.info(f"Best prior log-variance found: {opt_prior_log_var}")
         return status
 
@@ -343,7 +335,7 @@ def sample(
     ) -> JointState:
         if rng is None:
             rng = self.rng.get()
-        state: LaplaceState = self.state.get()
+        state = self.state.get()
         if kwargs.get("prior_log_var") is not None:
             state = state.replace(prior_log_var=kwargs.get("prior_log_var"))
 
@@ -352,9 +344,9 @@ def sample(
                 state._encoded_which_params
             )
             mean, hess_lik_diag = nested_unpair(
-                state.params.unfreeze(),
-                which_params,
-                ("mean", "hess_lik_diag"),
+                d=state.params.unfreeze(),
+                key_paths=tuple(which_params),
+                labels=("mean", "hess_lik_diag"),
             )
             std = self._compute_std(
                 prior_log_var=state.prior_log_var, hess_lik_diag=hess_lik_diag
@@ -363,7 +355,7 @@ def sample(
             noise = generate_random_normal_like_tree(rng, std)
             params = nested_set(
                 d=mean,
-                key_paths=which_params,
+                key_paths=tuple(which_params),
                 objs=tuple(
                     [
                         tree_map(
@@ -418,7 +410,7 @@ def _init_map_state(
                     params=FrozenDict(
                         nested_unpair(
                             d=state.params.unfreeze(),
-                            key_paths=which_params,
+                            key_paths=tuple(which_params),
                             labels=("mean", "hess_lik_diag"),
                         )[0]
                     )
@@ -457,7 +449,7 @@ def _batched_log_prob(
         keys = random.split(rng, n_posterior_samples)
 
         def _lik_log_batched_prob(params, mutable, calib_params, calib_mutable):
-            return self.likelihood._batched_log_prob(
+            return self.joint.likelihood._batched_log_prob(
                 params,
                 batch,
                 mutable=mutable,
@@ -470,9 +462,9 @@ def _lik_log_batched_prob(params, mutable, calib_params, calib_mutable):
             _lik_log_batched_prob = pjit(
                 _lik_log_batched_prob,
                 in_shardings=(
+                    self.partition_manager.shardings.params,
                     self.partition_manager.shardings.mutable,
                     self.partition_manager.shardings.calib_params,
-                    self.partition_manager.shardings.params,
                     self.partition_manager.shardings.calib_mutable,
                 ),
                 out_shardings=PartitionSpec(("dp", "fsdp")),

diff --git a/fortuna/prob_model/posterior/map/map_posterior.py b/fortuna/prob_model/posterior/map/map_posterior.py
@@ -1,5 +1,5 @@
 import logging
-from pathlib import Path
+import pathlib
 from typing import Optional
 
 from jax import eval_shape
@@ -91,7 +91,7 @@ def fit(
         checkpoint_restorer = (
             get_checkpoint_manager(
                 str(
-                    Path(fit_config.checkpointer.restore_checkpoint_dir)
+                    pathlib.Path(fit_config.checkpointer.restore_checkpoint_dir)
                     / fit_config.checkpointer.checkpoint_type
                 ),
                 keep_top_n_checkpoints=fit_config.checkpointer.keep_top_n_checkpoints,
@@ -145,7 +145,7 @@ def init_state_fn(rng):
             partition_manager=self.partition_manager,
             checkpoint_manager=get_checkpoint_manager(
                 checkpoint_dir=str(
-                    Path(fit_config.checkpointer.save_checkpoint_dir)
+                    pathlib.Path(fit_config.checkpointer.save_checkpoint_dir)
                     / fit_config.checkpointer.checkpoint_type
                 ),
                 keep_top_n_checkpoints=fit_config.checkpointer.keep_top_n_checkpoints,

diff --git a/fortuna/prob_model/posterior/normalizing_flow/advi/advi_posterior.py b/fortuna/prob_model/posterior/normalizing_flow/advi/advi_posterior.py
@@ -14,7 +14,6 @@
 from jax._src.prng import PRNGKeyArray
 from jax.flatten_util import ravel_pytree
 import jax.numpy as jnp
-import numpy as np
 
 from fortuna.data.loader import (
     DataLoader,
@@ -39,7 +38,7 @@
     JittedADVITrainer,
     MultiDeviceADVITrainer,
 )
-from pathlib import Path
+import pathlib
 from fortuna.partitioner.partition_manager.base import PartitionManager
 from fortuna.prob_model.posterior.posterior_state_repository import (
     PosteriorStateRepository,
@@ -105,7 +104,7 @@ def fit(
         checkpoint_restorer = (
             get_checkpoint_manager(
                 str(
-                    Path(fit_config.checkpointer.restore_checkpoint_dir)
+                    pathlib.Path(fit_config.checkpointer.restore_checkpoint_dir)
                     / fit_config.checkpointer.checkpoint_type
                 ),
                 keep_top_n_checkpoints=fit_config.checkpointer.keep_top_n_checkpoints,
@@ -214,7 +213,7 @@ def fit(
             partition_manager=None,
             checkpoint_manager=get_checkpoint_manager(
                 checkpoint_dir=str(
-                    Path(fit_config.checkpointer.save_checkpoint_dir)
+                    pathlib.Path(fit_config.checkpointer.save_checkpoint_dir)
                     / fit_config.checkpointer.checkpoint_type
                 ),
                 keep_top_n_checkpoints=fit_config.checkpointer.keep_top_n_checkpoints,

diff --git a/fortuna/prob_model/posterior/sgmcmc/cyclical_sgld/cyclical_sgld_posterior.py b/fortuna/prob_model/posterior/sgmcmc/cyclical_sgld/cyclical_sgld_posterior.py
@@ -39,7 +39,6 @@
     nested_get,
     nested_set,
 )
-from pathlib import Path
 from fortuna.utils.checkpoint import get_checkpoint_manager
 
 logger = logging.getLogger(__name__)
@@ -145,7 +144,7 @@ def fit(
         checkpoint_restorer = (
             get_checkpoint_manager(
                 str(
-                    Path(fit_config.checkpointer.restore_checkpoint_dir)
+                    pathlib.Path(fit_config.checkpointer.restore_checkpoint_dir)
                     / fit_config.checkpointer.checkpoint_type
                 ),
                 keep_top_n_checkpoints=fit_config.checkpointer.keep_top_n_checkpoints,
@@ -179,7 +178,7 @@ def fit(
             partition_manager=self.partition_manager,
             checkpoint_manager=get_checkpoint_manager(
                 str(
-                    Path(fit_config.checkpointer.restore_checkpoint_dir)
+                    pathlib.Path(fit_config.checkpointer.restore_checkpoint_dir)
                     / fit_config.checkpointer.checkpoint_type
                 ),
                 keep_top_n_checkpoints=fit_config.checkpointer.keep_top_n_checkpoints,

diff --git a/fortuna/prob_model/posterior/sgmcmc/sghmc/sghmc_posterior.py b/fortuna/prob_model/posterior/sgmcmc/sghmc/sghmc_posterior.py
@@ -28,7 +28,6 @@
 from fortuna.prob_model.posterior.sgmcmc.sgmcmc_posterior_state_repository import (
     SGMCMCPosteriorStateRepository,
 )
-from pathlib import Path
 from fortuna.typing import Status
 from fortuna.utils.device import select_trainer_given_devices
 from fortuna.utils.freeze import get_trainable_paths
@@ -142,7 +141,7 @@ def fit(
         checkpoint_restorer = (
             get_checkpoint_manager(
                 str(
-                    Path(fit_config.checkpointer.restore_checkpoint_dir)
+                    pathlib.Path(fit_config.checkpointer.restore_checkpoint_dir)
                     / fit_config.checkpointer.checkpoint_type
                 ),
                 keep_top_n_checkpoints=fit_config.checkpointer.keep_top_n_checkpoints,
@@ -175,7 +174,7 @@ def fit(
             size=self.posterior_approximator.n_samples,
             checkpoint_manager=get_checkpoint_manager(
                 str(
-                    Path(fit_config.checkpointer.restore_checkpoint_dir)
+                    pathlib.Path(fit_config.checkpointer.restore_checkpoint_dir)
                     / fit_config.checkpointer.checkpoint_type
                 ),
                 keep_top_n_checkpoints=fit_config.checkpointer.keep_top_n_checkpoints,

diff --git a/fortuna/prob_model/posterior/swag/swag_posterior.py b/fortuna/prob_model/posterior/swag/swag_posterior.py
@@ -8,12 +8,11 @@
 from jax._src.prng import PRNGKeyArray
 from jax.flatten_util import ravel_pytree
 import jax.numpy as jnp
-
+import pathlib
 from fortuna.data.loader import (
     DataLoader,
     InputsLoader,
 )
-from pathlib import Path
 from fortuna.utils.checkpoint import get_checkpoint_manager
 from fortuna.prob_model.fit_config.base import FitConfig
 from fortuna.prob_model.joint.base import Joint
@@ -105,7 +104,7 @@ def fit(
         checkpoint_restorer = (
             get_checkpoint_manager(
                 str(
-                    Path(fit_config.checkpointer.restore_checkpoint_dir)
+                    pathlib.Path(fit_config.checkpointer.restore_checkpoint_dir)
                 ),
                 keep_top_n_checkpoints=fit_config.checkpointer.keep_top_n_checkpoints,
             )
@@ -200,7 +199,7 @@ def fit(
             partition_manager=self.partition_manager,
             checkpoint_manager=get_checkpoint_manager(
                 checkpoint_dir=str(
-                    Path(fit_config.checkpointer.save_checkpoint_dir)
+                    pathlib.Path(fit_config.checkpointer.save_checkpoint_dir)
                     / fit_config.checkpointer.checkpoint_type
                 ),
                 keep_top_n_checkpoints=fit_config.checkpointer.keep_top_n_checkpoints,

diff --git a/fortuna/prob_model/posterior/swag/swag_trainer.py b/fortuna/prob_model/posterior/swag/swag_trainer.py
@@ -23,6 +23,7 @@
     Batch,
     Path,
 )
+import pathlib
 from fortuna.partitioner.partition_manager.base import PartitionManager
 from orbax.checkpoint import CheckpointManager
 from fortuna.utils.strings import encode_tuple_of_lists_of_strings_to_numpy
@@ -114,7 +115,7 @@ def save_checkpoint(
     def on_train_end(self, state: SWAGState) -> SWAGState:
         self.save_checkpoint(
             state,
-            save_checkpoint_dir=self.save_checkpoint_dir,
+            save_checkpoint_dir=str(pathlib.Path(self.save_checkpoint_dir) / "last"),
             keep=self.keep_top_n_checkpoints,
             force_save=True,
         )

diff --git a/fortuna/training/train_state_repository.py b/fortuna/training/train_state_repository.py
@@ -64,6 +64,18 @@ def put(
         else:
             self._state = state
 
+    def remove(
+        self,
+        checkpoint_dir: Path = None,
+    ):
+        if checkpoint_dir or self.checkpoint_manager:
+            if checkpoint_dir is None:
+                step = self.checkpoint_manager.latest_step()
+                if step is not None:
+                    self.checkpoint_manager.delete(step)
+            else:
+                rmtree(checkpoint_dir)
+
     def pull(
         self,
         checkpoint_dir: Path = None,
@@ -73,13 +85,18 @@ def pull(
             checkpoint_dir=checkpoint_dir,
             optimizer=optimizer,
         )
-        if checkpoint_dir or self.checkpoint_manager:
-            if checkpoint_dir is None:
-                self.checkpoint_manager.delete(self.checkpoint_manager.latest_step())
-            else:
-                rmtree(checkpoint_dir)
+        self.remove(checkpoint_dir)
         return state
 
+    def replace(
+        self,
+        state: TrainState,
+        checkpoint_dir: Optional[Path] = None,
+        keep: int = 1,
+    ):
+        self.remove(checkpoint_dir)
+        self.put(state, checkpoint_dir, keep=keep)
+
     def update(
         self,
         variables: Dict,