add mixup result for vgg19_bn

tugstugi · tugstugi · commit 000bdc39fa4a · 2018-01-25T23:31:21.000+01:00
diff --git a/README.md b/README.md
@@ -18,7 +18,7 @@ For the training parameters, see [TRAINING.md](TRAINING.md). Earlier stopping th
 
 <table><tbody>
 <th valign="bottom"><sup><sub>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Model&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</sub></sup></th>
-<th valign="bottom"><sup><sub>CIFAR-10<br/>test set<br/>accuracy</sub></sup></th>
+<th valign="bottom"><sup><sub>CIFAR10<br/>test set<br/>accuracy</sub></sup></th>
 <th valign="bottom"><sup><sub>Speech Commands<br/>test set<br/>accuracy</sub></sup></th>
 <th valign="bottom"><sup><sub>Speech Commands<br/>test set<br/>accuracy with crop</sub></sup></th>
 <th valign="bottom"><sup><sub>Speech Commands<br/>Kaggle private LB<br/>score</sub></sup></th>
@@ -40,8 +40,8 @@ For the training parameters, see [TRAINING.md](TRAINING.md). Earlier stopping th
 <td align="center"><sup><sub>-</sub></sup></td>
 <td align="center"><sup><sub>97.937089%</sub></sup></td>
 <td align="center"><sup><sub>97.922458%</sub></sup></td>
-<td align="center"><sup><sub></sub></sup></td>
-<td align="center"><sup><sub></sub></sup></td>
+<td align="center"><sup><sub>0.88546</sub></sup></td>
+<td align="center"><sup><sub>0.88699</sub></sup></td>
 <td align="left"><sup><sub></sub></sup></td>
 </tr>
 
@@ -103,13 +103,23 @@ After the competition, some of the networks were retrained using [mixup: Beyond
 
 <table><tbody>
 <th valign="bottom"><sup><sub>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Model&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</sub></sup></th>
-<th valign="bottom"><sup><sub>CIFAR-10<br/>test set<br/>accuracy</sub></sup></th>
+<th valign="bottom"><sup><sub>CIFAR10<br/>test set<br/>accuracy</sub></sup></th>
 <th valign="bottom"><sup><sub>Speech Commands<br/>test set<br/>accuracy</sub></sup></th>
 <th valign="bottom"><sup><sub>Speech Commands<br/>test set<br/>accuracy with crop</sub></sup></th>
 <th valign="bottom"><sup><sub>Speech Commands<br/>Kaggle private LB<br/>score</sub></sup></th>
 <th valign="bottom"><sup><sub>Speech Commands<br/>Kaggle private LB<br/>score with crop</sub></sup></th>
 <th valign="bottom"><sup><sub>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Remarks&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</sub></sup></th>
 
+<tr>
+<td align="left"><sup><sub>VGG19 BN</sub></sup></td>
+<td align="center"><sup><sub>-</sub></sup></td>
+<td align="center"><sup><sub>97.483541%</sub></sup></td>
+<td align="center"><sup><sub>97.542063%</sub></sup></td>
+<td align="center"><sup><sub>0.89521</sub></sup></td>
+<td align="center"><sup><sub>0.89839</sub></sup></td>
+<td align="left"><sup><sub></sub></sup></td>
+</tr>
+
 <tr>
 <td align="left"><sup><sub>WRN-52-10</sub></sup></td>
 <td align="center"><sup><sub>-</sub></sup></td>
diff --git a/TRAINING.md b/TRAINING.md
@@ -6,8 +6,14 @@
 python train_speech_commands.py --model=vgg19_bn --optim=sgd --lr-scheduler=plateau --learning-rate=0.01 --lr-scheduler-patience=5 --max-epochs=70 --batch-size=96
 ```
 
+#### VGG19 BN with Mixup
+* accuracy: 97.483541%, 97.542063% with crop, Kaggle private LB score: 0.89521 and 0.89839 with crop, epoch time: 1m30s
+```sh
+python train_speech_commands.py --model=vgg19_bn --optim=sgd --lr-scheduler=plateau --learning-rate=0.01 --lr-scheduler-patience=5 --max-epochs=70 --batch-size=96 --mixup
+```
+
 #### WideResNet 28-10
-* accuracy: 97.937089%, 97.922458% with crop, Kaggle private LB score: and  with crop, epoch time: ?
+* accuracy: 97.937089%, 97.922458% with crop, Kaggle private LB score: 0.88546 and 0.88699 with crop, epoch time: 2m5s
 ```sh
 python train_speech_commands.py --model=wideresnet28_10 --optim=sgd --lr-scheduler=plateau --learning-rate=0.01 --lr-scheduler-patience=5 --max-epochs=70 --batch-size=96
 ```
diff --git a/train_cifar10.py b/train_cifar10.py
@@ -18,6 +18,7 @@
 from tensorboardX import SummaryWriter
 
 import models
+from mixup import *
 
 parser = argparse.ArgumentParser(description=__doc__, formatter_class=argparse.ArgumentDefaultsHelpFormatter)
 parser.add_argument("--comment", type=str, default='', help='comment in tensorboard title')
@@ -35,6 +36,7 @@
 parser.add_argument("--max-epochs", type=int, default=150, help='max number of epochs')
 parser.add_argument("--resume", type=str, help='checkpoint file to resume')
 parser.add_argument("--model", choices=models.available_models, default=models.available_models[0], help='model of NN')
+parser.add_argument('--mixup', action='store_true', help='use mixup')
 args = parser.parse_args()
 
 use_gpu = torch.cuda.is_available()
@@ -123,6 +125,10 @@ def train(epoch):
     pbar = tqdm(train_dataloader, unit="images", unit_scale=train_dataloader.batch_size)
     for batch in pbar:
         inputs, targets = batch
+
+        if args.mixup:
+            inputs, targets = mixup(inputs, targets, num_classes=len(CLASSES))
+
         inputs = Variable(inputs, requires_grad=True)
         targets = Variable(targets, requires_grad=False)
 
@@ -132,7 +138,10 @@ def train(epoch):
 
         # forward/backward
         outputs = model(inputs)
-        loss = criterion(outputs, targets)
+        if args.mixup:
+            loss = mixup_cross_entropy_loss(outputs, targets)
+        else:
+            loss = criterion(outputs, targets)
         optimizer.zero_grad()
         loss.backward()
         optimizer.step()
@@ -142,6 +151,9 @@ def train(epoch):
         global_step += 1
         running_loss += loss.data[0]
         pred = outputs.data.max(1, keepdim=True)[1]
+        if args.mixup:
+            _, targets = batch
+            targets = Variable(targets, requires_grad=False).cuda(async=True)
         correct += pred.eq(targets.data.view_as(pred)).sum()
         total += targets.size(0)
 
diff --git a/train_speech_commands.py b/train_speech_commands.py
@@ -21,6 +21,7 @@
 import models
 from datasets import *
 from transforms import *
+from mixup import *
 
 parser = argparse.ArgumentParser(description=__doc__, formatter_class=argparse.ArgumentDefaultsHelpFormatter)
 parser.add_argument("--train-dataset", type=str, default='datasets/speech_commands/train', help='path of train dataset')
@@ -40,6 +41,7 @@
 parser.add_argument("--resume", type=str, help='checkpoint file to resume')
 parser.add_argument("--model", choices=models.available_models, default=models.available_models[0], help='model of NN')
 parser.add_argument("--input", choices=['mel32'], default='mel32', help='input of NN')
+parser.add_argument('--mixup', action='store_true', help='use mixup')
 args = parser.parse_args()
 
 use_gpu = torch.cuda.is_available()
@@ -142,6 +144,9 @@ def train(epoch):
         inputs = torch.unsqueeze(inputs, 1)
         targets = batch['target']
 
+        if args.mixup:
+            inputs, targets = mixup(inputs, targets, num_classes=len(CLASSES))
+
         inputs = Variable(inputs, requires_grad=True)
         targets = Variable(targets, requires_grad=False)
 
@@ -151,7 +156,10 @@ def train(epoch):
 
         # forward/backward
         outputs = model(inputs)
-        loss = criterion(outputs, targets)
+        if args.mixup:
+            loss = mixup_cross_entropy_loss(outputs, targets)
+        else:
+            loss = criterion(outputs, targets)
         optimizer.zero_grad()
         loss.backward()
         optimizer.step()
@@ -161,6 +169,9 @@ def train(epoch):
         global_step += 1
         running_loss += loss.data[0]
         pred = outputs.data.max(1, keepdim=True)[1]
+        if args.mixup:
+            targets = batch['target']
+            targets = Variable(targets, requires_grad=False).cuda(async=True)
         correct += pred.eq(targets.data.view_as(pred)).sum()
         total += targets.size(0)