Создайть универсальную модель для бинарной классификации, ко торая справляется с разными наборами данных и может адаптиро ваться к изменениям в признаках и распределениях.
6 открытых датасетов для тестирования AutoML-решения: https://www.kaggle.com/datasets/maxigitov/ds-for-automl
Для проверки - 9 датасетов(4 открытых для лидерборда, 5 закрытых для прайвет части)
Решение имеет следующий пайплайн:
- Предобработка данных: Обработка категориальных признаков и фильтрация значимых признаков.
- Оптимизация модели: Использование Optuna для оптимизации гиперпараметров модели XGBoost.
- Обучение и предсказание: Обучение модели на тренировочных данных и предсказание на тестовых данных.
-
FeatureFiltration:
- Предобработка данных: Конвертация категориальных признаков в числовые.
- Feature Engineering: использование OpenFE для генерации новых признаков.
- Фильтрация признаков: Использование важности признаков (gain) и пермутационного импортанса для отбора значимых признаков.
-
Model:
- Оптимизация гиперпараметров: Использование Optuna для оптимизации гиперпараметров модели XGBoost.
- Обучение и предсказание: Обучение модели на тренировочных данных и предсказание на тестовых данных.
Использование универсального решения для задач бинарной классификации в банковском секторе.
-
Установка зависимостей:
pip install pandas xgboost optuna scikit-learn
-
Запуск скрипта:
python main.py
- Библиотеки:
- XGBoost
- Optuna
- OpenFE
- Богодист Всеволод
- Игитов Максим
- Ворсин Андрей
- Захаров Тимур
Этот проект распространяется под лицензией MIT.