Tox21 Toxicity Prediction Models

A comprehensive machine learning pipeline for predicting toxicity endpoints using the Tox21 dataset.

Overview

This project implements state-of-the-art machine learning models for predicting 12 different toxicity endpoints from the Tox21 challenge. The Tox21 dataset contains ~10,000 compounds with experimental toxicity data across multiple biological pathways.

Toxicity Endpoints

NR-Aromatase - Nuclear Receptor Aromatase
NR-AR - Nuclear Receptor Androgen Receptor
NR-AR-LBD - Nuclear Receptor Androgen Receptor Ligand Binding Domain
NR-ER - Nuclear Receptor Estrogen Receptor
NR-ER-LBD - Nuclear Receptor Estrogen Receptor Ligand Binding Domain
NR-PPAR-gamma - Nuclear Receptor Peroxisome Proliferator-Activated Receptor Gamma
NR-AhR - Nuclear Receptor Aryl Hydrocarbon Receptor
SR-ARE - Stress Response Antioxidant Response Element
SR-ATAD5 - Stress Response ATAD5
SR-HSE - Stress Response Heat Shock Element
SR-MMP - Stress Response Mitochondrial Membrane Potential
SR-p53 - Stress Response p53

Project Structure

tox21_models/
├── data/                          # Data files
│   └── tox21_10k_data_all.sdf    # Original Tox21 dataset
├── src/                           # Source code
│   ├── data_processing.py        # Data loading and preprocessing
│   ├── feature_engineering.py    # Molecular fingerprint generation
│   ├── models.py                 # ML model implementations
│   ├── evaluation.py             # Model evaluation metrics
│   └── visualization.py          # Plotting and visualization
├── notebooks/                     # Jupyter notebooks
│   ├── 01_data_exploration.ipynb
│   ├── 02_feature_engineering.ipynb
│   ├── 03_model_training.ipynb
│   └── 04_model_evaluation.ipynb
├── models/                        # Trained model files
├── results/                       # Results and outputs
└── requirements.txt              # Python dependencies

Installation

Clone the repository:

git clone <repository-url>
cd tox21_models

Install dependencies:

pip install -r requirements.txt

For RDKit installation issues on macOS:

conda install -c conda-forge rdkit

Usage

Quick Start

from src.data_processing import Tox21DataLoader
from src.feature_engineering import MolecularFeatureGenerator
from src.models import ToxicityPredictor

# Load data
loader = Tox21DataLoader('data/tox21_10k_data_all.sdf')
data = loader.load_data()

# Generate features
feature_gen = MolecularFeatureGenerator()
features = feature_gen.generate_features(data['smiles'])

# Train model
predictor = ToxicityPredictor()
predictor.train(features, data['targets'])

# Make predictions
predictions = predictor.predict(new_smiles)

Step-by-Step Tutorial

Data Exploration: Run notebooks/01_data_exploration.ipynb
Feature Engineering: Run notebooks/02_feature_engineering.ipynb
Model Training: Run notebooks/03_model_training.ipynb
Model Evaluation: Run notebooks/04_model_evaluation.ipynb

Features

Multiple Molecular Fingerprints: Morgan, MACCS, RDKit, Mordred descriptors
Advanced ML Models: Random Forest, XGBoost, Neural Networks, Graph Neural Networks
Comprehensive Evaluation: ROC-AUC, PR-AUC, Balanced Accuracy, Confusion Matrices
Interactive Visualizations: Compound structure viewing, performance plots
Model Interpretability: SHAP values, feature importance analysis

Results

The models achieve the following performance metrics (averaged across all endpoints):

Random Forest: ROC-AUC = 0.78
XGBoost: ROC-AUC = 0.81
Neural Network: ROC-AUC = 0.79
Graph Neural Network: ROC-AUC = 0.83

Contributing

Fork the repository
Create a feature branch
Make your changes
Add tests
Submit a pull request

License

MIT License

References

Tox21 Challenge: https://tripod.nih.gov/tox21/
RDKit: https://www.rdkit.org/
Mordred: https://github.com/mordred-descriptor/mordred

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
notebooks		notebooks
src		src
.gitignore		.gitignore
MODULAR_STRUCTURE.md		MODULAR_STRUCTURE.md
PROJECT_REVAMP_SUMMARY.md		PROJECT_REVAMP_SUMMARY.md
README.md		README.md
config.py		config.py
eda_analysis.py		eda_analysis.py
eda_analysis_enhanced.py		eda_analysis_enhanced.py
eda_analysis_simple.py		eda_analysis_simple.py
example_usage.py		example_usage.py
feature_selection_simple.py		feature_selection_simple.py
feature_selector.py		feature_selector.py
full_model_pipeline.py		full_model_pipeline.py
full_model_pipeline_with_logging.py		full_model_pipeline_with_logging.py
generate_tox21_descriptors.py		generate_tox21_descriptors.py
molecule_visualization.py		molecule_visualization.py
requirements.txt		requirements.txt
run_pipeline.py		run_pipeline.py
simple_predictor.py		simple_predictor.py
test_baseline_cv.py		test_baseline_cv.py
test_baseline_simple.py		test_baseline_simple.py
test_data_preparation.py		test_data_preparation.py
test_feature_selector.py		test_feature_selector.py
test_molecules.py		test_molecules.py
toxicity_predictor.py		toxicity_predictor.py
train_models.py		train_models.py
utils.py		utils.py
visualize_predictions.py		visualize_predictions.py
web_interface.py		web_interface.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Tox21 Toxicity Prediction Models

Overview

Toxicity Endpoints

Project Structure

Installation

Usage

Quick Start

Step-by-Step Tutorial

Features

Results

Contributing

License

References

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Tox21 Toxicity Prediction Models

Overview

Toxicity Endpoints

Project Structure

Installation

Usage

Quick Start

Step-by-Step Tutorial

Features

Results

Contributing

License

References

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages