pat-jj
diff --git a/‎.gitignore
Lines changed: 1 addition & 0 deletions b/‎.gitignore
Lines changed: 1 addition & 0 deletions
diff --git a/‎__pycache__/data_prepare.cpython-38.pyc
11.8 KB b/‎__pycache__/data_prepare.cpython-38.pyc
11.8 KB
diff --git a/‎__pycache__/graphcare.cpython-38.pyc
15.1 KB b/‎__pycache__/graphcare.cpython-38.pyc
15.1 KB
diff --git a/‎data_prepare.py
Lines changed: 2 additions & 2 deletions b/‎data_prepare.py
Lines changed: 2 additions & 2 deletions
diff --git a/‎drug_rec_ehr.ipynb
Lines changed: 206 additions & 379 deletions b/‎drug_rec_ehr.ipynb
Lines changed: 206 additions & 379 deletions
diff --git a/‎drug_rec_ehr_feat.ipynb
Lines changed: 348 additions & 0 deletions b/‎drug_rec_ehr_feat.ipynb
Lines changed: 348 additions & 0 deletions
@@ -1,5 +1,6 @@
 /graphs
 /graphs-gpt4
+/ehr_training_result
 .exp_data
 /output
 .ipynb_checkpoints
 
@@ -1,6 +1,6 @@
 import csv
 from pyhealth.datasets import MIMIC3Dataset, MIMIC4Dataset
-from GraphCare.task_fn import drug_recommendation_fn, drug_recommendation_mimic4_fn, mortality_prediction_mimic3_fn, readmission_prediction_mimic3_fn, length_of_stay_prediction_mimic3_fn, length_of_stay_prediction_mimic4_fn, mortality_prediction_mimic4_fn, readmission_prediction_mimic4_fn
+from graphcare_.task_fn import drug_recommendation_fn, drug_recommendation_mimic4_fn, mortality_prediction_mimic3_fn, readmission_prediction_mimic3_fn, length_of_stay_prediction_mimic3_fn, length_of_stay_prediction_mimic4_fn, mortality_prediction_mimic4_fn, readmission_prediction_mimic4_fn
 import pickle
 import json
 from pyhealth.tokenizer import Tokenizer
@@ -524,4 +524,4 @@ def main():
 
 
 if __name__ == "__main__":
-    main()
+    main()
@@ -0,0 +1,348 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "task = \"lenofstay\"\n",
+    "\n",
+    "ratios = [\n",
+    "    0.1,\n",
+    "    0.2,\n",
+    "    0.3,\n",
+    "    0.4,\n",
+    "    0.5,\n",
+    "    0.7,\n",
+    "    0.9,\n",
+    "]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from pyhealth.datasets import split_by_patient, get_dataloader\n",
+    "import pickle\n",
+    "\n",
+    "with open(f'/data/pj20/exp_data/ccscm_ccsproc/sample_dataset_mimic3_{task}_th015.pkl', 'rb') as f:\n",
+    "    sample_dataset = pickle.load(f)\n",
+    "\n",
+    "train_dataset, _, test_dataset = split_by_patient(sample_dataset, [0.8, 0.1, 0.1], train_ratio=1.0, seed=528)\n",
+    "train_loader = get_dataloader(train_dataset, batch_size=64, shuffle=True)\n",
+    "test_loader = get_dataloader(test_dataset, batch_size=64, shuffle=False)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from pyhealth.trainer import Trainer\n",
+    "import torch\n",
+    "from pyhealth.models import Transformer, RETAIN, SafeDrug, MICRON, CNN, RNN, GAMENet\n",
+    "from collections import defaultdict\n",
+    "\n",
+    "\n",
+    "for ratio in ratios:\n",
+    "    with open(f'/data/pj20/exp_data/ccscm_ccsproc_atc3/val_dataset_mimic3_{task}_th015_{1-ratio}.pkl', 'rb') as f:\n",
+    "        val_dataset = pickle.load(f)\n",
+    "    val_loader = get_dataloader(val_dataset, batch_size=64, shuffle=False)\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "GAMENet(\n",
+      "  (embeddings): ModuleDict(\n",
+      "    (conditions): Embedding(283, 128, padding_idx=0)\n",
+      "    (procedures): Embedding(223, 128, padding_idx=0)\n",
+      "  )\n",
+      "  (cond_rnn): GRU(128, 128, batch_first=True)\n",
+      "  (proc_rnn): GRU(128, 128, batch_first=True)\n",
+      "  (query): Sequential(\n",
+      "    (0): ReLU()\n",
+      "    (1): Linear(in_features=256, out_features=128, bias=True)\n",
+      "  )\n",
+      "  (gamenet): GAMENetLayer(\n",
+      "    (ehr_gcn): GCN(\n",
+      "      (gcn1): GCNLayer()\n",
+      "      (dropout_layer): Dropout(p=0.5, inplace=False)\n",
+      "      (gcn2): GCNLayer()\n",
+      "    )\n",
+      "    (ddi_gcn): GCN(\n",
+      "      (gcn1): GCNLayer()\n",
+      "      (dropout_layer): Dropout(p=0.5, inplace=False)\n",
+      "      (gcn2): GCNLayer()\n",
+      "    )\n",
+      "    (fc): Linear(in_features=384, out_features=197, bias=True)\n",
+      "    (bce_loss_fn): BCEWithLogitsLoss()\n",
+      "  )\n",
+      ")\n",
+      "Metrics: ['pr_auc_samples', 'roc_auc_samples', 'f1_samples', 'jaccard_samples']\n",
+      "Device: cuda:1\n",
+      "\n",
+      "Training:\n",
+      "Batch size: 64\n",
+      "Optimizer: <class 'torch.optim.adam.Adam'>\n",
+      "Optimizer params: {'lr': 0.001}\n",
+      "Weight decay: 0.0\n",
+      "Max grad norm: None\n",
+      "Val dataloader: <torch.utils.data.dataloader.DataLoader object at 0x7fb588a29b50>\n",
+      "Monitor: pr_auc_samples\n",
+      "Monitor criterion: max\n",
+      "Epochs: 5\n",
+      "\n",
+      "Epoch 0 / 5: 100%|██████████| 1/1 [00:00<00:00,  3.45it/s]\n",
+      "--- Train epoch-0, step-1 ---\n",
+      "loss: 0.6954\n",
+      "Evaluation: 100%|██████████| 68/68 [00:00<00:00, 121.22it/s]\n",
+      "--- Eval epoch-0, step-1 ---\n",
+      "pr_auc_samples: 0.2212\n",
+      "roc_auc_samples: 0.5977\n",
+      "f1_samples: 0.2464\n",
+      "jaccard_samples: 0.1441\n",
+      "loss: 0.6834\n",
+      "New best pr_auc_samples score (0.2212) at epoch-0, step-1\n",
+      "\n",
+      "Epoch 1 / 5: 100%|██████████| 1/1 [00:00<00:00, 90.69it/s]\n",
+      "--- Train epoch-1, step-2 ---\n",
+      "loss: 0.6839\n",
+      "Evaluation: 100%|██████████| 68/68 [00:00<00:00, 155.81it/s]\n",
+      "--- Eval epoch-1, step-2 ---\n",
+      "pr_auc_samples: 0.3191\n",
+      "roc_auc_samples: 0.6721\n",
+      "f1_samples: 0.3108\n",
+      "jaccard_samples: 0.1885\n",
+      "loss: 0.6718\n",
+      "New best pr_auc_samples score (0.3191) at epoch-1, step-2\n",
+      "\n",
+      "Epoch 2 / 5: 100%|██████████| 1/1 [00:00<00:00, 86.69it/s]\n",
+      "--- Train epoch-2, step-3 ---\n",
+      "loss: 0.6737\n",
+      "Evaluation: 100%|██████████| 68/68 [00:00<00:00, 153.50it/s]\n",
+      "--- Eval epoch-2, step-3 ---\n",
+      "pr_auc_samples: 0.4212\n",
+      "roc_auc_samples: 0.7142\n",
+      "f1_samples: 0.3806\n",
+      "jaccard_samples: 0.2418\n",
+      "loss: 0.6606\n",
+      "New best pr_auc_samples score (0.4212) at epoch-2, step-3\n",
+      "\n",
+      "Epoch 3 / 5: 100%|██████████| 1/1 [00:00<00:00, 85.59it/s]\n",
+      "--- Train epoch-3, step-4 ---\n",
+      "loss: 0.6613\n",
+      "Evaluation: 100%|██████████| 68/68 [00:00<00:00, 149.41it/s]\n",
+      "--- Eval epoch-3, step-4 ---\n",
+      "pr_auc_samples: 0.4770\n",
+      "roc_auc_samples: 0.7327\n",
+      "f1_samples: 0.4432\n",
+      "jaccard_samples: 0.2942\n",
+      "loss: 0.6491\n",
+      "New best pr_auc_samples score (0.4770) at epoch-3, step-4\n",
+      "\n",
+      "Epoch 4 / 5: 100%|██████████| 1/1 [00:00<00:00, 84.91it/s]\n",
+      "--- Train epoch-4, step-5 ---\n",
+      "loss: 0.6454\n",
+      "Evaluation: 100%|██████████| 68/68 [00:00<00:00, 150.65it/s]\n",
+      "--- Eval epoch-4, step-5 ---\n",
+      "pr_auc_samples: 0.4981\n",
+      "roc_auc_samples: 0.7424\n",
+      "f1_samples: 0.4729\n",
+      "jaccard_samples: 0.3208\n",
+      "loss: 0.6370\n",
+      "New best pr_auc_samples score (0.4981) at epoch-4, step-5\n",
+      "Loaded best model\n",
+      "Evaluation: 100%|██████████| 68/68 [00:00<00:00, 152.59it/s]\n"
+     ]
+    }
+   ],
+   "source": [
+    "from pyhealth.trainer import Trainer\n",
+    "import torch\n",
+    "from pyhealth.models import Transformer, RETAIN, SafeDrug, MICRON, CNN, RNN, GAMENet\n",
+    "from collections import defaultdict\n",
+    "\n",
+    "results = defaultdict(list)\n",
+    "\n",
+    "for i in range(1):\n",
+    "    for model_ in [\n",
+    "        # Transformer, \n",
+    "        # RETAIN,\n",
+    "        # SafeDrug,\n",
+    "        # MICRON,\n",
+    "        GAMENet\n",
+    "        ]:\n",
+    "        try:\n",
+    "            model = model_(\n",
+    "                dataset=sample_dataset,\n",
+    "                feature_keys=[\"conditions\", \"procedures\"],\n",
+    "                label_key=\"drugs\",\n",
+    "                mode=\"multilabel\",\n",
+    "            )\n",
+    "        except:\n",
+    "            model = model_(dataset=sample_dataset)\n",
+    "\n",
+    "        device = torch.device('cuda:1' if torch.cuda.is_available() else 'cpu')\n",
+    "\n",
+    "        ## binary\n",
+    "        # trainer = Trainer(model=model, device=device, metrics=[\"pr_auc\", \"roc_auc\", \"accuracy\", \"f1\", \"jaccard\"])\n",
+    "        # trainer.train(\n",
+    "        #     train_dataloader=train_loader,\n",
+    "        #     val_dataloader=val_loader,\n",
+    "        #     epochs=5,\n",
+    "        #     monitor=\"accuracy\",\n",
+    "        # )\n",
+    "\n",
+    "        ## multi-label\n",
+    "        trainer = Trainer(model=model, device=device, metrics=[\"pr_auc_samples\", \"roc_auc_samples\", \"f1_samples\", \"jaccard_samples\"])\n",
+    "        trainer.train(\n",
+    "            train_dataloader=train_loader,\n",
+    "            val_dataloader=val_loader,\n",
+    "            epochs=5,\n",
+    "            monitor=\"pr_auc_samples\",\n",
+    "        )\n",
+    "\n",
+    "        ## multi-class\n",
+    "        # trainer = Trainer(model=model, device=device, metrics=[\"roc_auc_weighted_ovr\", \"cohen_kappa\", \"accuracy\", \"f1_weighted\"])\n",
+    "        # trainer.train(\n",
+    "        #     train_dataloader=train_loader,\n",
+    "        #     val_dataloader=val_loader,\n",
+    "        #     epochs=5,\n",
+    "        #     monitor=\"roc_auc_weighted_ovr\",\n",
+    "        # )\n",
+    "\n",
+    "        results[model_.__name__].append(trainer.evaluate(val_loader))"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 12,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "avg_results = defaultdict(dict)\n",
+    "\n",
+    "for k, v in results.items():\n",
+    "    for k_, v_ in v[0].items():\n",
+    "        avg_results[k][k_] = sum([vv[k_] for vv in v]) / len(v)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 13,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import numpy as np\n",
+    "# calculate standard deviation\n",
+    "variation_results = defaultdict(dict)\n",
+    "\n",
+    "for k, v in results.items():\n",
+    "    for k_, v_ in v[0].items():\n",
+    "        variation_results[k][k_] = np.std([vv[k_] for vv in v])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 14,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "defaultdict(dict,\n",
+       "            {'GAMENet': {'pr_auc_samples': 0.4980838198236469,\n",
+       "              'roc_auc_samples': 0.7424090396318291,\n",
+       "              'f1_samples': 0.4728838360695048,\n",
+       "              'jaccard_samples': 0.32078592771277264,\n",
+       "              'loss': 0.6370396333582261}})"
+      ]
+     },
+     "execution_count": 14,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "avg_results"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 11,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "defaultdict(dict,\n",
+       "            {'GAMENet': {'pr_auc_samples': 0.0,\n",
+       "              'roc_auc_samples': 0.0,\n",
+       "              'f1_samples': 0.0,\n",
+       "              'jaccard_samples': 0.0,\n",
+       "              'loss': 0.0}})"
+      ]
+     },
+     "execution_count": 11,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "variation_results"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3.8.13 ('kgc')",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.8.13"
+  },
+  "orig_nbformat": 4,
+  "vscode": {
+   "interpreter": {
+    "hash": "3d0509d9aa81f2882b18eeb72d4d23c32cae9029e9b99f63cde94ba86c35ac78"
+   }
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}