Fix ContinuousDiD bread normalization and panel-level survey metadata from PR #226 review (round 4)

igerber · claude · igerber · commit 67a87e3366df · 2026-03-21T18:07:46.000-04:00
- ContinuousDiD: normalize WLS bread by weighted treated mass (not raw
  count) for consistency with downstream IF score denominators; fixes
  ACRT_glob/ATT(d)/ACRT(d) survey SEs when subgroup-average weights differ
- ContinuousDiD/EfficientDiD: recompute survey_metadata from unit-level
  ResolvedSurveyDesign so reported effective_n/n_psu/df_survey match
  the inference actually run (not the panel-level overcount)

Co-Authored-By: Claude Opus 4.6 (1M context) &lt;noreply@anthropic.com&gt;
diff --git a/diff_diff/continuous_did.py b/diff_diff/continuous_did.py
@@ -512,6 +512,15 @@ def fit(
                 # Survey df for t-distribution inference (unit-level, not panel-level)
                 _survey_df = analytic.get("df_survey")
 
+                # Recompute survey_metadata from unit-level design so reported
+                # effective_n/n_psu/df_survey match the inference actually run
+                _unit_resolved = analytic.get("unit_resolved")
+                if _unit_resolved is not None:
+                    from diff_diff.survey import compute_survey_metadata
+
+                    raw_w_unit = _unit_resolved.weights
+                    survey_metadata = compute_survey_metadata(_unit_resolved, raw_w_unit)
+
                 overall_att_t, overall_att_p, overall_att_ci = safe_inference(
                     overall_att, overall_att_se, self.alpha, df=_survey_df
                 )
@@ -948,11 +957,14 @@ def _compute_dose_response_gt(
         # Store bootstrap info for influence function computation
         # bread = (Psi'WPsi / n_treated)^{-1} when survey, (Psi'Psi / n_treated)^{-1} otherwise
         if w_treated is not None:
+            w_treated_sum = float(np.sum(w_treated))
             PtWP = Psi.T @ (Psi * w_treated[:, np.newaxis])
+            # Normalize bread by weighted mass (not raw count) for consistency
+            # with downstream IF score denominators that also use weighted mass
             try:
-                bread = np.linalg.inv(PtWP / n_treated)
+                bread = np.linalg.inv(PtWP / w_treated_sum)
             except np.linalg.LinAlgError:
-                bread = np.linalg.pinv(PtWP / n_treated)
+                bread = np.linalg.pinv(PtWP / w_treated_sum)
         else:
             PtP = Psi.T @ Psi
             try:
@@ -1220,7 +1232,7 @@ def _compute_analytical_se(
             att_d_se = np.sqrt(np.sum(if_att_d**2, axis=0))
             acrt_d_se = np.sqrt(np.sum(if_acrt_d**2, axis=0))
 
-        # Return unit-level survey df when available (for t-distribution inference)
+        # Return unit-level survey df and resolved design for metadata recomputation
         unit_df_survey = unit_resolved.df_survey if resolved_survey is not None else None
 
         return {
@@ -1229,6 +1241,7 @@ def _compute_analytical_se(
             "att_d_se": att_d_se,
             "acrt_d_se": acrt_d_se,
             "df_survey": unit_df_survey,
+            "unit_resolved": unit_resolved if resolved_survey is not None else None,
         }
 
     def _run_bootstrap(
diff --git a/diff_diff/efficient_did.py b/diff_diff/efficient_did.py
@@ -667,11 +667,26 @@ def fit(
             omega_condition_numbers=stored_cond if stored_cond else None,
             influence_functions=None,  # can store full EIF matrix if needed
             bootstrap_results=bootstrap_results,
-            survey_metadata=survey_metadata,
+            survey_metadata=(
+                self._recompute_unit_survey_metadata(survey_metadata)
+                if survey_metadata is not None
+                else None
+            ),
         )
         self.is_fitted_ = True
         return self.results_
 
+    def _recompute_unit_survey_metadata(self, panel_metadata):
+        """Recompute survey metadata from unit-level design if available."""
+        if self._unit_resolved_survey is not None:
+            from diff_diff.survey import compute_survey_metadata
+
+            return compute_survey_metadata(
+                self._unit_resolved_survey,
+                self._unit_resolved_survey.weights,
+            )
+        return panel_metadata
+
     # -- Survey SE helpers ----------------------------------------------------
 
     def _compute_survey_eif_se(self, eif_vals: np.ndarray) -> float: