Try: LN Scale + bigram, no VE (bigram compresses well)

arbyte77 · arbyte77 · commit daaad1f6faa5 · 2026-03-26T13:56:23.000+05:30
diff --git a/records/track_10min_16mb/2026-03-25_11L_ParallelMuon_MLP3x_TTT/train_gpt.py b/records/track_10min_16mb/2026-03-25_11L_ParallelMuon_MLP3x_TTT/train_gpt.py
@@ -88,12 +88,12 @@ class Hyperparameters:
     xsa_last_n = int(os.environ.get("XSA_LAST_N", 4))
     rope_dims = int(os.environ.get("ROPE_DIMS", 16))
     ln_scale = bool(int(os.environ.get("LN_SCALE", "1")))
-    ve_enabled = bool(int(os.environ.get("VE_ENABLED", "1")))
+    ve_enabled = bool(int(os.environ.get("VE_ENABLED", "0")))
     ve_dim = int(os.environ.get("VE_DIM", 32))
     ve_layers = os.environ.get("VE_LAYERS", "9,10")
 
     use_smeargate = bool(int(os.environ.get("USE_SMEARGATE", "1")))
-    use_bigramhash = bool(int(os.environ.get("USE_BIGRAMHASH", "0")))
+    use_bigramhash = bool(int(os.environ.get("USE_BIGRAMHASH", "1")))
     use_value_residual = bool(int(os.environ.get("USE_VALUE_RESIDUAL", "1")))
     use_gated_attention = bool(int(os.environ.get("USE_GATED_ATTENTION", "1")))