remove default random forest as estimator for InstanceHardnessCV

fritshermans · fritshermans · commit 1c642cebf04e · 2025-03-29T17:27:43.000+01:00
diff --git a/doc/cross_validation.rst b/doc/cross_validation.rst
@@ -101,7 +101,7 @@ Now, we do the same using an `InstanceHardnessCV` splitter. We use provide our
 classifier to the splitter to calculate instance hardness and distribute samples
 with large instance hardness equally over the folds.
 
-  >>> ih_cv = InstanceHardnessCV(n_splits=5, estimator=clf,
+  >>> ih_cv = InstanceHardnessCV(estimator=clf, n_splits=5,
   ...                               random_state=random_state)
   >>> ih_result = cross_validate(clf, X, y, cv=ih_cv, scoring="average_precision")
 
diff --git a/examples/cross_validation/plot_instance_hardness_cv.py b/examples/cross_validation/plot_instance_hardness_cv.py
@@ -65,7 +65,7 @@
 skf_result = cross_validate(clf, X, y, cv=skf_cv, scoring="average_precision")
 
 # %%
-ih_cv = InstanceHardnessCV(n_splits=5, estimator=clf, random_state=10)
+ih_cv = InstanceHardnessCV(estimator=clf, n_splits=5, random_state=10)
 ih_result = cross_validate(clf, X, y, cv=ih_cv, scoring="average_precision")
 
 # %%
diff --git a/imblearn/cross_validation/_cross_validation.py b/imblearn/cross_validation/_cross_validation.py
@@ -13,13 +13,13 @@ class InstanceHardnessCV:
 
     Parameters
     ----------
+    estimator : estimator object
+        Classifier to be used to estimate instance hardness of the samples.
+        This classifier should implement `predict_proba`.
+
     n_splits : int, default=5
         Number of folds. Must be at least 2.
 
-    estimator : classifier, default=None
-        Classifier used to determine instance hardness. Defaults to
-        RandomForestClassifier when set to `None`
-
     random_state : int, RandomState instance, default=None
         Determines random_state for reproducible results across multiple calls.
 
@@ -31,14 +31,14 @@ class InstanceHardnessCV:
     >>> from sklearn.linear_model import LogisticRegression
     >>> X, y = make_classification(weights=[0.9, 0.1], class_sep=2,
     ... n_informative=3, n_redundant=1, flip_y=0.05, n_samples=1000, random_state=10)
-    >>> ih_cv = InstanceHardnessCV(n_splits=5, random_state=10)
     >>> estimator = LogisticRegression(random_state=10)
+    >>> ih_cv = InstanceHardnessCV(estimator=estimator, n_splits=5,random_state=10)
     >>> cv_result = cross_validate(estimator, X, y, cv=ih_cv)
     >>> print(f"Standard deviation of test_scores: {cv_result['test_score'].std():.3f}")
     Standard deviation of test_scores: 0.004
     """
 
-    def __init__(self, n_splits=5, estimator=None, random_state=None):
+    def __init__(self, estimator, n_splits=5, random_state=None):
         self.n_splits = n_splits
         self.estimator = estimator
         self.random_state = random_state
diff --git a/imblearn/cross_validation/tests/test_instance_hardness.py b/imblearn/cross_validation/tests/test_instance_hardness.py
@@ -19,13 +19,14 @@
 
 
 def test_instancehardness_cv():
-    ih_cv = InstanceHardnessCV(random_state=10)
     clf = LogisticRegression(random_state=10)
+    ih_cv = InstanceHardnessCV(estimator=clf, random_state=10)
     cv_result = cross_validate(clf, X, y, cv=ih_cv)
-    assert_array_equal(cv_result['test_score'], [0.965, 0.965, 0.96, 0.965, 0.955])
+    assert_array_equal(cv_result['test_score'], [0.975, 0.965, 0.96,  0.955, 0.965])
 
 
 @pytest.mark.parametrize("n_splits", [2, 3, 4])
 def test_instancehardness_cv_n_splits(n_splits):
-    ih_cv = InstanceHardnessCV(n_splits=n_splits, random_state=10)
+    clf = LogisticRegression(random_state=10)
+    ih_cv = InstanceHardnessCV(estimator=clf, n_splits=n_splits, random_state=10)
     assert ih_cv.get_n_splits() == n_splits