Bharath-970
diff --git a/‎records/track_10min_16mb/2026-03-25_16L_XSAall_GPTQ_EMA_PartialRoPE_TTT/submission.json‎
Lines changed: 3 additions & 3 deletions b/‎records/track_10min_16mb/2026-03-25_16L_XSAall_GPTQ_EMA_PartialRoPE_TTT/submission.json‎
Lines changed: 3 additions & 3 deletions
@@ -2,7 +2,7 @@
   "name": "Bharath",
   "github": "Bharath-970",
   "val_bpb": null,
-  "notes": "16L + XSA-all (all layers share single KV set from layer 0) + Int4 nibble MLP QAT + Int6 Attn + GPTQ-lite + EMA decay=0.999 + Partial RoPE 25% + Bigram20480 + Trigram10240 + LeakyReLU(0.5)^2 + Score-First TTT LoRA (rank=8) + warmdown5000. KV savings from XSA-all fund 2 extra layers vs XSA6. Pending training run on 8xH100.",
+  "notes": "16L + XSA-all (all layers share single KV set from layer 0) + Int4 nibble MLP QAT + Int6 Attn + GPTQ-lite + EMA decay=0.999 + Partial RoPE 25% + Bigram20480 + Trigram10240 + LeakyReLU(0.5)^2 + Cosine TTT 30ep (full-model AdamW on val, per-layer LR: 3x MLP-out, 0.5x MLP-in) + sliding-window stride=64 eval + warmdown5000. KV savings from XSA-all fund 2 extra layers vs XSA6. Pending training run on 8xH100.",
   "techniques": [
     "int4_nibble_mlp",
     "qat_ste",
@@ -13,8 +13,8 @@
     "bigram_hash_20480",
     "trigram_hash_10240",
     "leaky_relu_squared",
-    "ttt_lora_rank8",
-    "score_first_ttt",
+    "cosine_ttt_30ep",
+    "sliding_window_eval_stride64",
     "smeargate",
     "muon_weight_decay",
     "u_net_skip"