Format

quic-akuruvil · quic-akuruvil · commit c9ada4ac9ae4 · 2025-08-05T10:20:30.000Z
Signed-off-by: Ann Kuruvilla &lt;quic_akuruvil@quicinc.com&gt;
diff --git a/QEfficient/finetune/utils/train_utils.py b/QEfficient/finetune/utils/train_utils.py
@@ -358,7 +358,6 @@ def train(
         logger.log_rank_zero(
             f"Epoch {epoch + 1}: Train epoch loss: {train_epoch_loss:.4f}, Train metric: {train_epoch_metric:.4f}, Epoch time {epoch_end_time:.2f} sec"
         )
-        breakpoint()
         # Saving the results every epoch to plot later
         if train_config.save_metrics:
             save_to_json(
diff --git a/QEfficient/utils/constants.py b/QEfficient/utils/constants.py
@@ -31,6 +31,10 @@
 # Minimum value for causal mask
 MIN_MASKED_ATTENTION_VALUE = float("-inf")
 
+# Finetuning
+LOSS_ATOL = 1e-3
+METRIC_ATOL = 1e-3
+
 
 # Store the qeff_models inside the ~/.cache directory or over-ride with an env variable.
 def get_models_dir():
diff --git a/tests/finetune/reference_data.py b/tests/finetune/reference_data.py
@@ -3,7 +3,7 @@
     # Scenario 1: Single-device llama training on Alpaca dataset.
     "llama_config_alpaca_single_device": {
         "description": "Baseline for Llama on Alpaca single-device",
-        "train_step_losses": [ 
+        "train_step_losses": [
             1.5112206935882568,
             1.2211230993270874,
             1.9942185878753662,
@@ -106,7 +106,7 @@
             1.4072850942611694,
             1.374159812927246,
         ],
-        "train_step_metrics": [  
+        "train_step_metrics": [
             9.490362167358398,
             10.207969665527344,
             6.944809913635254,
@@ -140,16 +140,62 @@
             3.951754093170166,
         ],
     },
-    
     # Scenario 3: Single-device Bert training on IMDB dataset.
     "bert_config_imdb_single_device": {
         "description": "Baseline for BERT on IMDB single-device",
         "train_step_losses": [
-           0.390625, 0.51220703125, 0.9208984375, 0.4052734375, 1.1640625, 0.6533203125, 0.5087890625, 0.76171875, 0.63525390625, 0.50146484375, 0.5439453125, 0.947265625, 0.89013671875, 0.80419921875, 0.6533203125, 0.4580078125, 0.92041015625, 0.7412109375, 0.7197265625
+            0.390625,
+            0.51220703125,
+            0.9208984375,
+            0.4052734375,
+            1.1640625,
+            0.6533203125,
+            0.5087890625,
+            0.76171875,
+            0.63525390625,
+            0.50146484375,
+            0.5439453125,
+            0.947265625,
+            0.89013671875,
+            0.80419921875,
+            0.6533203125,
+            0.4580078125,
+            0.92041015625,
+            0.7412109375,
+            0.7197265625,
+        ],
+        "eval_step_losses": [
+            0.55126953125,
+            0.7421875,
+            0.86572265625,
+            0.64501953125,
+            0.65234375,
+            0.60302734375,
+            0.638671875,
+            0.8232421875,
+            0.6611328125,
+            0.6240234375,
         ],
-        "eval_step_losses": [0.55126953125, 0.7421875, 0.86572265625, 0.64501953125, 0.65234375, 0.60302734375, 0.638671875, 0.8232421875, 0.6611328125, 0.6240234375],
         "train_step_metrics": [
-           1.0, 1.0, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.625, 0.625, 0.625, 0.5999755859375, 0.58331298828125, 0.5714111328125, 0.5714111328125, 0.5714111328125, 0.5625, 0.5555419921875, 0.5054931640625
+            1.0,
+            1.0,
+            0.5,
+            0.5,
+            0.5,
+            0.5,
+            0.5,
+            0.5,
+            0.625,
+            0.625,
+            0.625,
+            0.5999755859375,
+            0.58331298828125,
+            0.5714111328125,
+            0.5714111328125,
+            0.5714111328125,
+            0.5625,
+            0.5555419921875,
+            0.5054931640625,
         ],
         "eval_step_metrics": [1.0, 0.0, 0.0, 1.0, 1.0, 1.0, 1.0, 0.0, 1.0, 1.0],
     },
@@ -159,23 +205,15 @@
         "world_size": 2,
         "rank_data": {
             0: {  # Data for Rank 0
-                "train_step_losses": [
-                    
-                ],
+                "train_step_losses": [],
                 "eval_step_losses": [],
-                "train_step_metrics": [
-                   
-                ],
+                "train_step_metrics": [],
                 "eval_step_metrics": [],
             },
             1: {  # Data for Rank 1
-                "train_step_losses": [
-                    
-                ],
+                "train_step_losses": [],
                 "eval_step_losses": [],
-                "train_step_metrics": [
-                    
-                ],
+                "train_step_metrics": [],
                 "eval_step_metrics": [],
             },
         },
diff --git a/tests/finetune/test_finetune.py b/tests/finetune/test_finetune.py
@@ -16,11 +16,11 @@
 
 import QEfficient
 import QEfficient.cloud.finetune
-from . import reference_data as ref_data
 from QEfficient.cloud.finetune import main as finetune
 from QEfficient.finetune.utils.helper import Device, Task_Mode
+from QEfficient.utils import constants as constant
 
-LOSS_ATOL = 0.02
+from . import reference_data as ref_data
 
 alpaca_json_path = os.path.join(os.getcwd(), "alpaca_data.json")
 
@@ -210,6 +210,44 @@ def test_finetune(
     #     "Eval metric is not matching."
     # )
 
+    # Assertions for step-level values using the helper function
+    assert_list_close(
+        ref_train_losses,
+        results["train_step_loss"],
+        constant.LOSS_ATOL,
+        "Train Step Losses",
+        scenario_key,
+        current_world_size,
+        current_rank,
+    )
+    assert_list_close(
+        ref_eval_losses,
+        results["eval_step_loss"],
+        constant.LOSS_ATOL,
+        "Eval Step Losses",
+        scenario_key,
+        current_world_size,
+        current_rank,
+    )
+    assert_list_close(
+        ref_train_metrics,
+        results["train_step_metric"],
+        constant.METRIC_ATOL,
+        "Train Step Metrics",
+        scenario_key,
+        current_world_size,
+        current_rank,
+    )
+    assert_list_close(
+        ref_eval_metrics,
+        results["eval_step_metric"],
+        constant.METRIC_ATOL,
+        "Eval Step Metrics",
+        scenario_key,
+        current_world_size,
+        current_rank,
+    )
+
     assert results["avg_epoch_time"] < 60, "Training should complete within 60 seconds."
 
     train_config_spy.assert_called_once()

Original file line number	Diff line number	Diff line change
`@@ -358,7 +358,6 @@ def train(`
`358`	`358`	`logger.log_rank_zero(`
`359`	`359`	`f"Epoch {epoch + 1}: Train epoch loss: {train_epoch_loss:.4f}, Train metric: {train_epoch_metric:.4f}, Epoch time {epoch_end_time:.2f} sec"`
`360`	`360`	`)`
`361`		`- breakpoint()`
`362`	`361`	`# Saving the results every epoch to plot later`
`363`	`362`	`if train_config.save_metrics:`
`364`	`363`	`save_to_json(`