amazon-science · salmank255 · Sep 19, 2022 · Sep 27, 2022 · Apr 5, 2023 · Apr 14, 2023
diff --git a/.gitignore b/.gitignore
@@ -0,0 +1,12 @@
+cache/*
+*.txt
+datasets/assets/*
+pretrained_weights/*
+
+*.pyc
+
+cache/*
+cache_ROAD/*
+cache_ROADpp/*
+
+
diff --git a/configuration/TubeR_CSN152_AVA22.yaml b/configuration/TubeR_CSN152_AVA22.yaml
@@ -1,13 +1,13 @@
 DDP_CONFIG:
   WORLD_SIZE: 1
   WORLD_RANK: 0
-  GPU_WORLD_SIZE: 8
+  GPU_WORLD_SIZE: 4
   GPU_WORLD_RANK: 0
-  DIST_URL: 'tcp://xxx.xxx.xxx.xxx:xxxx'
-  WOLRD_URLS: ['xxx.xxx.xxx.xxx']
-  AUTO_RANK_MATCH: True
+  DIST_URL: 'tcp://161.73.173.217:23456'
+  WOLRD_URLS: ['161.73.173.217']
+  AUTO_RANK_MATCH: False
   DIST_BACKEND: 'nccl'
-  GPU: 0
+  GPU: 4
   DISTRIBUTED: True
 
 CONFIG:
@@ -17,7 +17,7 @@ CONFIG:
   USE_LOCATION: False
   TRAIN:
     EPOCH_NUM: 20
-    BATCH_SIZE: 2
+    BATCH_SIZE: 1
     LR: 1e-4
     MIN_LR: 1e-5
     LR_BACKBONE: 1e-5
@@ -39,9 +39,9 @@ CONFIG:
 
   DATA:
     DATASET_NAME: 'ava'
-    LABEL_PATH: '/xxx/datasets/ava_action_list_v2.1_for_activitynet_2018.pbtxt'
-    ANNO_PATH: '/xxx/datasets/ava_{}_v22.json'
-    DATA_PATH: '/xxx/ava/frames/{}/'
+    LABEL_PATH: 'datasets/assets/ava_action_list_v2.1_for_activitynet_2018.pbtxt'
+    ANNO_PATH: 'datasets/assets/ava_{}_v22.json'
+    DATA_PATH: '/mnt/pluto-theta/salman/ROAD/Datasets/ava_download/frames/{}/'
     NUM_CLASSES: 80
     MULTIGRID: False
     IMG_SIZE: 256
@@ -69,9 +69,9 @@ CONFIG:
     TEMP_LEN: 32
     SAMPLE_RATE: 2
     PRETRAINED: False
-    PRETRAIN_BACKBONE_DIR: "/xxx/irCSN_152_ft_kinetics_from_ig65m_f126851907.mat"
-    PRETRAIN_TRANSFORMER_DIR: "/xxx/detr.pth"
-    PRETRAINED_PATH: "/xxx/ADTR_CSN_152_decode_ava_22.pth"
+    PRETRAIN_BACKBONE_DIR: "pretrained_weights/irCSN_152_ft_kinetics_from_ig65m_f126851907.mat"
+    PRETRAIN_TRANSFORMER_DIR: "pretrained_weights/detr.pth"
+    PRETRAINED_PATH: "pretrained_weights/ADTR_CSN_152_decode_ava_22.pth"
     LOAD: True
     LOAD_FC: True
 
@@ -94,9 +94,9 @@ CONFIG:
     CLIPS_MAX_NORM: 0.1
 
   LOG:
-    BASE_PATH: '/xxx/AVA_Tuber'
+    BASE_PATH: 'cache/AVA_Tuber'
     LOG_DIR: 'tb_log'
     SAVE_DIR: 'checkpoints'
-    EVAL_DIR: '/xxx/AVA_Tuber/eval'
+    EVAL_DIR: 'cache/AVA_Tuber/eval'
     SAVE_FREQ: 1
     RES_DIR: 'tmp2'
diff --git a/configuration/TubeR_CSN152_ROAD.yaml b/configuration/TubeR_CSN152_ROAD.yaml
@@ -0,0 +1,116 @@
+DDP_CONFIG:
+  WORLD_SIZE: 1
+  WORLD_RANK: 0
+  GPU_WORLD_SIZE: 4
+  GPU_WORLD_RANK: 0
+  DIST_URL: 'tcp://161.73.173.217:23457'
+  WOLRD_URLS: ['161.73.173.217']
+  AUTO_RANK_MATCH: False
+  DIST_BACKEND: 'nccl'
+  GPU: 4
+  DISTRIBUTED: True
+
+CONFIG:
+  EVAL_ONLY: False
+  TWO_STREAM: False
+  USE_LFB: False
+  USE_LOCATION: False
+  TRAIN:
+    EPOCH_NUM: 20
+    BATCH_SIZE: 1
+    LR: 1e-4
+    MIN_LR: 1e-5
+    LR_BACKBONE: 1e-5
+    MOMENTUM: 0.9
+    W_DECAY: 1e-4
+    LR_POLICY: 'step'
+    USE_WARMUP: False
+    WARMUP_START_LR: 1e-5
+    WARMUP_EPOCHS: 4
+    LR_MILESTONE: [10, 15]
+    STEP: 0.1
+    OPTIMIZER:
+      NAME: SGD
+    AUX_LOSS: True
+
+  VAL:
+    BATCH_SIZE: 1
+    FREQ: 2
+
+
+  DATA:
+    DATASET: 'road'
+    DATASET_NAME: 'ava'
+    TRAIN_SUBSETS: [train_3]
+    VAL_SUBSETS: [train_3]
+    SEQ_LEN: 12
+    MIN_SEQ_STEP: 1
+    MAX_SEQ_STEP: 1
+    DATA_ROOT: '/mnt/pluto-gamma/salman/ROAD/Datasets/'
+    ANNO_ROOT: '/mnt/pluto-gamma/salman/ROAD/Datasets/'
+    train_skip_step: 1
+    skip_step: 1
+
+    # DATASET_NAME: 'ava'
+    LABEL_PATH: 'datasets/road_labels.pbtxt'
+    # ANNO_PATH: 'datasets/assets/ava_{}_v22.json'
+    # DATA_PATH: '/mnt/pluto-gamma/salman/ROAD/Datasets/ava_download/frames/{}/'
+    NUM_CLASSES: 41
+    MULTIGRID: False
+    IMG_SIZE: 680
+    IMG_RESHAPE_SIZE: 512
+    TEMP_LEN: 12
+    FRAME_RATE: 2
+
+
+  MODEL:
+    SINGLE_FRAME: True
+    BACKBONE_NAME: CSN-152
+    TEMPORAL_DS_STRATEGY: decode
+    LAST_STRIDE: False
+    GENERATE_LFB: False
+    NAME: 'ava_detr_9_224'
+    ENC_LAYERS: 6
+    DEC_LAYERS: 6
+    D_MODEL: 256
+    NHEAD: 8
+    NUM_ENCODER_LAYERS: 12
+    DIM_FEEDFORWARD: 2048
+    QUERY_NUM: 15
+    NORMALIZE_BEFORE: False
+    DROPOUT: 0.1
+    DS_RATE: 8
+    TEMP_LEN: 12
+    SAMPLE_RATE: 2
+    PRETRAINED: True
+    PRETRAIN_BACKBONE_DIR: "pretrained_weights/irCSN_152_ft_kinetics_from_ig65m_f126851907.mat"
+    PRETRAIN_TRANSFORMER_DIR: "pretrained_weights/detr.pth"
+    PRETRAINED_PATH: "pretrained_weights/_TubeR_CSN152_AVA22.pth"
+    LOAD: True
+    LOAD_FC: True
+
+  MATCHER:
+    COST_CLASS: 12
+    COST_BBOX: 5
+    COST_GIOU: 2
+    BNY_LOSS: True
+    BEFORE: False
+
+  LOSS_COFS:
+    MASK_COF: 1
+    DICE_COF: 12
+    BBOX_COF: 5
+    GIOU_COF: 2
+    EOS_COF: 0.1
+    WEIGHT: 10
+    WEIGHT_CHANGE: 1000
+    LOSS_CHANGE_COF: 2
+    CLIPS_MAX_NORM: 0.1
+
+  LOG:
+    BASE_PATH: 'cache_ROAD/AVA_Tuber'
+    LOG_DIR: 'tb_log'
+    SAVE_DIR: 'checkpoints'
+    EVAL_DIR: 'cache_ROAD/AVA_Tuber/eval'
+    SAVE_FREQ: 1
+    RES_DIR: 'tmp2'
diff --git a/configuration/TubeR_CSN152_ROADpp.yaml b/configuration/TubeR_CSN152_ROADpp.yaml
@@ -0,0 +1,117 @@
+DDP_CONFIG:
+  WORLD_SIZE: 1
+  WORLD_RANK: 0
+  GPU_WORLD_SIZE: 4
+  GPU_WORLD_RANK: 0
+  DIST_URL: 'tcp://161.73.173.213:23457'
+  WOLRD_URLS: ['161.73.173.213']
+  AUTO_RANK_MATCH: False
+  DIST_BACKEND: 'nccl'
+  GPU: 4
+  DISTRIBUTED: True
+
+CONFIG:
+  EVAL_ONLY: False
+  TWO_STREAM: False
+  USE_LFB: False
+  USE_LOCATION: False
+  TRAIN:
+    EPOCH_NUM: 20
+    BATCH_SIZE: 1
+    LR: 1e-4
+    MIN_LR: 1e-5
+    LR_BACKBONE: 1e-5
+    MOMENTUM: 0.9
+    W_DECAY: 1e-4
+    LR_POLICY: 'step'
+    USE_WARMUP: False
+    WARMUP_START_LR: 1e-5
+    WARMUP_EPOCHS: 4
+    LR_MILESTONE: [10, 15]
+    STEP: 0.1
+    OPTIMIZER:
+      NAME: SGD
+    AUX_LOSS: True
+
+  VAL:
+    BATCH_SIZE: 1
+    FREQ: 2
+
+
+  DATA:
+    DATASET: 'roadpp'
+    DATASET_NAME: 'ava'
+    TRAIN_SUBSETS: [train]
+    VAL_SUBSETS: [val]
+    SEQ_LEN: 10
+    MIN_SEQ_STEP: 1
+    MAX_SEQ_STEP: 1
+    DATA_ROOT: '../'
+    ANNO_ROOT: '../'
+    train_skip_step: 1
+    skip_step: 1
+
+    # DATASET_NAME: 'ava'
+    LABEL_PATH: 'datasets/roadpp.pbtxt'
+    # ANNO_PATH: 'datasets/assets/ava_{}_v22.json'
+    # DATA_PATH: '/mnt/pluto-gamma/salman/ROAD/Datasets/ava_download/frames/{}/'
+    NUM_CLASSES: 43
+    MULTIGRID: False
+    IMG_SIZE: 680
+    IMG_RESHAPE_SIZE: 512
+    TEMP_LEN: 10
+    FRAME_RATE: 10
+
+
+  MODEL:
+    SINGLE_FRAME: True
+    BACKBONE_NAME: CSN-152
+    TEMPORAL_DS_STRATEGY: decode
+    LAST_STRIDE: False
+    GENERATE_LFB: False
+    NAME: 'ava_detr_9_224'
+    ENC_LAYERS: 6
+    DEC_LAYERS: 6
+    D_MODEL: 256
+    NHEAD: 8
+    NUM_ENCODER_LAYERS: 12
+    DIM_FEEDFORWARD: 2048
+    QUERY_NUM: 15
+    NORMALIZE_BEFORE: False
+    DROPOUT: 0.1
+    DS_RATE: 8
+    TEMP_LEN: 12
+    SAMPLE_RATE: 2
+    PRETRAINED: True
+    PRETRAIN_BACKBONE_DIR: "pretrained_weights/irCSN_152_ft_kinetics_from_ig65m_f126851907.mat"
+    PRETRAIN_TRANSFORMER_DIR: "pretrained_weights/detr.pth"
+    PRETRAINED_PATH: "-.pth"
+    # PRETRAINED_PATH: "cache_ROADpp/roadpp_Tuber/2023-04-08-23-36-21/checkpoints/ckpt_epoch_6.pth"
+    LOAD: True
+    LOAD_FC: True
+
+  MATCHER:
+    COST_CLASS: 12
+    COST_BBOX: 5
+    COST_GIOU: 2
+    BNY_LOSS: True
+    BEFORE: False
+
+  LOSS_COFS:
+    MASK_COF: 1
+    DICE_COF: 12
+    BBOX_COF: 5
+    GIOU_COF: 2
+    EOS_COF: 0.1
+    WEIGHT: 10
+    WEIGHT_CHANGE: 1000
+    LOSS_CHANGE_COF: 2
+    CLIPS_MAX_NORM: 0.1
+
+  LOG:
+    BASE_PATH: 'cache_ROADpp/roadpp_Tuber'
+    LOG_DIR: 'tb_log'
+    SAVE_DIR: 'checkpoints'
+    EVAL_DIR: 'cache_ROADpp/roadpp_Tuber/eval'
+    SAVE_FREQ: 1
+    RES_DIR: 'tmp2'
diff --git a/datasets/ava_frame.py b/datasets/ava_frame.py
@@ -71,6 +71,12 @@ def __getitem__(self, index):
         imgs = torch.stack(imgs, dim=0)
         imgs = imgs.permute(1, 0, 2, 3)
 
+        print('img',imgs.shape)
+        print('tar',target)
+        print('tar shape',target.shape)
+        print(rr)
+
+
         return imgs, target
 
     def load_annotation(self, sample_id, video_frame_list):
@@ -131,7 +137,7 @@ def load_annotation(self, sample_id, video_frame_list):
         return target
 
     def loadvideo(self, start_img, vid, frame_key):
-        video_frame_path = self.frame_path
+        video_frame_path = self.frame_path.format(vid)
         video_frame_list = sorted(glob(video_frame_path + '/*.jpg'))
 
         if len(video_frame_list) == 0: