fixed race condition in exp workspace (#91)

2026-04-10 21:01:26 +02:00 · 2024-05-07 17:17:43 +08:00 · 2024-05-07 17:17:43 +08:00 · fe19568a49
commit fe19568a49
parent fea2541c70
3 changed files with 22 additions and 12 deletions
--- a/opensora/utils/config_utils.py
+++ b/opensora/utils/config_utils.py
@ -149,7 +149,7 @@ def parse_configs(training=False):
    return cfg
-def create_experiment_workspace(cfg, get_last_workspace=False):
+def define_experiment_workspace(cfg, get_last_workspace=False):
    """
    This function creates a folder for experiment tracking.
@ -169,7 +169,6 @@ def create_experiment_workspace(cfg, get_last_workspace=False):
    model_name = cfg.model["type"].replace("/", "-")
    exp_name = f"{experiment_index:03d}-{model_name}"
    exp_dir = f"{cfg.outputs}/{exp_name}"
    os.makedirs(exp_dir, exist_ok=True)
    return exp_name, exp_dir
--- a/scripts/train.py
+++ b/scripts/train.py
@ -1,10 +1,10 @@
 import os
 from copy import deepcopy
 from datetime import timedelta
 from pprint import pprint
 import torch
 import torch.distributed as dist
 import wandb
 from colossalai.booster import Booster
 from colossalai.booster.plugin import LowLevelZeroPlugin
 from colossalai.cluster import DistCoordinator
@ -12,6 +12,7 @@ from colossalai.nn.optimizer import HybridAdam
 from colossalai.utils import get_current_device, set_seed
 from tqdm import tqdm
 import wandb
 from opensora.acceleration.checkpoint import set_grad_checkpoint
 from opensora.acceleration.parallel_states import (
    get_data_parallel_group,
@ -23,8 +24,8 @@ from opensora.datasets import prepare_dataloader, prepare_variable_dataloader
 from opensora.registry import DATASETS, MODELS, SCHEDULERS, build_module
 from opensora.utils.ckpt_utils import create_logger, load, model_sharding, record_model_param_shape, save
 from opensora.utils.config_utils import (
    create_experiment_workspace,
    create_tensorboard_writer,
    define_experiment_workspace,
    parse_configs,
    save_training_config,
 )
@ -37,8 +38,6 @@ def main():
    # 1. args & cfg
    # ======================================================
    cfg = parse_configs(training=True)
    exp_name, exp_dir = create_experiment_workspace(cfg)
    save_training_config(cfg._cfg_dict, exp_dir)
    # ======================================================
    # 2. runtime variables & colossalai launch
@ -55,7 +54,14 @@ def main():
    device = get_current_device()
    dtype = to_torch_dtype(cfg.dtype)
-    # 2.2. init logger, tensorboard & wandb
+    # 2.2. init exp_dir, logger, tensorboard & wandb
    exp_name, exp_dir = define_experiment_workspace(cfg)
    coordinator.block_all()
    if coordinator.is_master():
        os.makedirs(exp_dir, exist_ok=True)
        save_training_config(cfg._cfg_dict, exp_dir)
    coordinator.block_all()
    if not coordinator.is_master():
        logger = create_logger(None)
    else:
--- a/scripts/train_vae.py
+++ b/scripts/train_vae.py
@ -5,7 +5,6 @@ from pprint import pprint
 import torch
 import torch.distributed as dist
 import wandb
 from colossalai.booster import Booster
 from colossalai.booster.plugin import LowLevelZeroPlugin
 from colossalai.cluster import DistCoordinator
@ -14,6 +13,7 @@ from colossalai.utils import get_current_device, set_seed
 from einops import rearrange
 from tqdm import tqdm
 import wandb
 from opensora.acceleration.checkpoint import set_grad_checkpoint
 from opensora.acceleration.parallel_states import get_data_parallel_group, set_data_parallel_group
 from opensora.datasets import prepare_dataloader
@ -21,8 +21,8 @@ from opensora.models.vae.losses import AdversarialLoss, DiscriminatorLoss, VAELo
 from opensora.registry import DATASETS, MODELS, build_module
 from opensora.utils.ckpt_utils import create_logger, load_json, save_json
 from opensora.utils.config_utils import (
    create_experiment_workspace,
    create_tensorboard_writer,
    define_experiment_workspace,
    parse_configs,
    save_training_config,
 )
@ -34,8 +34,6 @@ def main():
    # 1. args & cfg
    # ======================================================
    cfg = parse_configs(training=True)
    exp_name, exp_dir = create_experiment_workspace(cfg)
    save_training_config(cfg._cfg_dict, exp_dir)
    # ======================================================
    # 2. runtime variables & colossalai launch
@ -52,7 +50,14 @@ def main():
    device = get_current_device()
    dtype = to_torch_dtype(cfg.dtype)
-    # 2.2. init logger, tensorboard & wandb
+    # 2.2. init exp_dir, logger, tensorboard & wandb
    exp_name, exp_dir = define_experiment_workspace(cfg)
    coordinator.block_all()
    if coordinator.is_master():
        os.makedirs(exp_dir, exist_ok=True)
        save_training_config(cfg._cfg_dict, exp_dir)
    coordinator.block_all()
    if not coordinator.is_master():
        logger = create_logger(None)
    else: