Open-Sora/scripts/vae/train.py

import gc
import os
import random
import subprocess
import warnings
from contextlib import nullcontext
from copy import deepcopy
from pprint import pformat

warnings.filterwarnings("ignore", category=FutureWarning)
warnings.filterwarnings("ignore", category=UserWarning)
gc.disable()


import torch
import torch.distributed as dist
from colossalai.booster import Booster
from colossalai.utils import set_seed
from torch.profiler import ProfilerActivity, profile, schedule
from tqdm import tqdm

import wandb
from opensora.acceleration.checkpoint import set_grad_checkpoint
from opensora.acceleration.parallel_states import get_data_parallel_group
from opensora.datasets.dataloader import prepare_dataloader
from opensora.datasets.pin_memory_cache import PinMemoryCache
from opensora.models.vae.losses import DiscriminatorLoss, GeneratorLoss, VAELoss
from opensora.registry import DATASETS, MODELS, build_module
from opensora.utils.ckpt import CheckpointIO, model_sharding, record_model_param_shape, rm_checkpoints
from opensora.utils.config import config_to_name, create_experiment_workspace, parse_configs
from opensora.utils.logger import create_logger
from opensora.utils.misc import (
    Timer,
    all_reduce_sum,
    create_tensorboard_writer,
    is_log_process,
    log_model_params,
    to_torch_dtype,
)
from opensora.utils.optimizer import create_lr_scheduler, create_optimizer
from opensora.utils.train import create_colossalai_plugin, set_lr, set_warmup_steps, setup_device, update_ema

torch.backends.cudnn.benchmark = True

WAIT = 1
WARMUP = 10
ACTIVE = 20

my_schedule = schedule(
    wait=WAIT,  # number of warmup steps
    warmup=WARMUP,  # number of warmup steps with profiling
    active=ACTIVE,  # number of active steps with profiling
)


def main():
    # ======================================================
    # 1. configs & runtime variables
    # ======================================================
    # == parse configs ==
    cfg = parse_configs()

    # == get dtype & device ==
    dtype = to_torch_dtype(cfg.get("dtype", "bf16"))
    device, coordinator = setup_device()
    checkpoint_io = CheckpointIO()
    set_seed(cfg.get("seed", 1024))
    PinMemoryCache.force_dtype = dtype
    pin_memory_cache_pre_alloc_numels = cfg.get("pin_memory_cache_pre_alloc_numels", None)
    PinMemoryCache.pre_alloc_numels = pin_memory_cache_pre_alloc_numels

    # == init ColossalAI booster ==
    plugin_type = cfg.get("plugin", "zero2")
    plugin_config = cfg.get("plugin_config", {})
    plugin = (
        create_colossalai_plugin(
            plugin=plugin_type,
            dtype=cfg.get("dtype", "bf16"),
            grad_clip=cfg.get("grad_clip", 0),
            **plugin_config,
        )
        if plugin_type != "none"
        else None
    )
    booster = Booster(plugin=plugin)

    # == init exp_dir ==
    exp_name, exp_dir = create_experiment_workspace(
        cfg.get("outputs", "./outputs"),
        model_name=config_to_name(cfg),
        config=cfg.to_dict(),
    )
    if is_log_process(plugin_type, plugin_config):
        print(f"changing {exp_dir} to share")
        os.system(f"chgrp -R share {exp_dir}")

    # == init logger, tensorboard & wandb ==
    logger = create_logger(exp_dir)
    logger.info("Training configuration:\n %s", pformat(cfg.to_dict()))
    tb_writer = None
    if coordinator.is_master():
        tb_writer = create_tensorboard_writer(exp_dir)
        if cfg.get("wandb", False):
            wandb.init(
                project=cfg.get("wandb_project", "Open-Sora"),
                name=cfg.get("wandb_expr_name", exp_name),
                config=cfg.to_dict(),
                dir=exp_dir,
            )

    # ======================================================
    # 2. build dataset and dataloader
    # ======================================================
    logger.info("Building dataset...")
    # == build dataset ==
    dataset = build_module(cfg.dataset, DATASETS)
    logger.info("Dataset contains %s samples.", len(dataset))

    # == build dataloader ==
    cache_pin_memory = pin_memory_cache_pre_alloc_numels is not None
    dataloader_args = dict(
        dataset=dataset,
        batch_size=cfg.get("batch_size", None),
        num_workers=cfg.get("num_workers", 4),
        seed=cfg.get("seed", 1024),
        shuffle=True,
        drop_last=True,
        pin_memory=True,
        process_group=get_data_parallel_group(),
        prefetch_factor=cfg.get("prefetch_factor", None),
        cache_pin_memory=cache_pin_memory,
    )
    dataloader, sampler = prepare_dataloader(
        bucket_config=cfg.get("bucket_config", None),
        num_bucket_build_workers=cfg.get("num_bucket_build_workers", 1),
        **dataloader_args,
    )
    num_steps_per_epoch = len(dataloader)

    # ======================================================
    # 3. build model
    # ======================================================
    logger.info("Building models...")

    # == build vae model ==
    model = build_module(cfg.model, MODELS, device_map=device, torch_dtype=dtype).train()
    log_model_params(model)

    if cfg.get("grad_checkpoint", False):
        set_grad_checkpoint(model)
    vae_loss_fn = VAELoss(**cfg.vae_loss_config, device=device, dtype=dtype)

    # == build EMA model ==
    if cfg.get("ema_decay", None) is not None:
        ema = deepcopy(model).cpu().eval().requires_grad_(False)
        ema_shape_dict = record_model_param_shape(ema)
        logger.info("EMA model created.")
    else:
        ema = ema_shape_dict = None
        logger.info("No EMA model created.")

    # == build discriminator model ==
    use_discriminator = cfg.get("discriminator", None) is not None
    if use_discriminator:
        discriminator = build_module(cfg.discriminator, MODELS).to(device, dtype).train()
        log_model_params(discriminator)
        generator_loss_fn = GeneratorLoss(**cfg.gen_loss_config)
        discriminator_loss_fn = DiscriminatorLoss(**cfg.disc_loss_config)

    # == setup optimizer ==
    optimizer = create_optimizer(model, cfg.optim)

    # == setup lr scheduler ==
    lr_scheduler = create_lr_scheduler(
        optimizer=optimizer, num_steps_per_epoch=num_steps_per_epoch, epochs=cfg.get("epochs", 1000), **cfg.lr_scheduler
    )

    # == setup discriminator optimizer ==
    if use_discriminator:
        disc_optimizer = create_optimizer(discriminator, cfg.optim_discriminator)
        disc_lr_scheduler = create_lr_scheduler(
            optimizer=disc_optimizer,
            num_steps_per_epoch=num_steps_per_epoch,
            epochs=cfg.get("epochs", 1000),
            **cfg.disc_lr_scheduler,
        )

    # =======================================================
    # 4. distributed training preparation with colossalai
    # =======================================================
    logger.info("Preparing for distributed training...")
    # == boosting ==
    torch.set_default_dtype(dtype)
    model, optimizer, _, dataloader, lr_scheduler = booster.boost(
        model=model,
        optimizer=optimizer,
        lr_scheduler=lr_scheduler,
        dataloader=dataloader,
    )

    if use_discriminator:
        discriminator, disc_optimizer, _, _, disc_lr_scheduler = booster.boost(
            model=discriminator,
            optimizer=disc_optimizer,
            lr_scheduler=disc_lr_scheduler,
        )
    torch.set_default_dtype(torch.float)
    logger.info("Boosted model for distributed training")

    # == global variables ==
    cfg_epochs = cfg.get("epochs", 1000)
    mixed_strategy = cfg.get("mixed_strategy", None)
    mixed_image_ratio = cfg.get("mixed_image_ratio", 0.0)
    # modulate mixed image ratio since we force rank 0 to be video
    num_ranks = dist.get_world_size()
    modulated_mixed_image_ratio = (
        num_ranks * mixed_image_ratio / (num_ranks - 1) if num_ranks > 1 else mixed_image_ratio
    )
    if is_log_process(plugin_type, plugin_config):
        print("modulated mixed image ratio:", modulated_mixed_image_ratio)

    start_epoch = start_step = log_step = acc_step = 0
    running_loss = dict(  # loss accumulated over config.log_every steps
        all=0.0,
        nll=0.0,
        nll_rec=0.0,
        nll_per=0.0,
        kl=0.0,
        gen=0.0,
        gen_w=0.0,
        disc=0.0,
        debug=0.0,
    )

    def log_loss(name, loss, loss_dict, use_video):
        # only calculate loss for video
        if use_video == 0:
            loss.data = torch.tensor(0.0, device=device, dtype=dtype)
        all_reduce_sum(loss.data)
        num_video = torch.tensor(use_video, device=device, dtype=dtype)
        all_reduce_sum(num_video)
        loss_item = loss.item() / num_video.item()
        loss_dict[name] = loss_item
        running_loss[name] += loss_item

    logger.info("Training for %s epochs with %s steps per epoch", cfg_epochs, num_steps_per_epoch)

    # == resume ==
    if cfg.get("load", None) is not None:
        logger.info("Loading checkpoint from %s", cfg.load)
        start_epoch = cfg.get("start_epoch", None)
        start_step = cfg.get("start_step", None)
        ret = checkpoint_io.load(
            booster,
            cfg.load,
            model=model,
            ema=ema,
            optimizer=optimizer,
            lr_scheduler=lr_scheduler,
            sampler=(
                None if start_step is not None else sampler
            ),  # if specify start step, set last_micro_batch_access_index of a new sampler instead
        )
        if start_step is not None:
            # if start step exceeds data length, go to next epoch
            if start_step > num_steps_per_epoch:
                start_epoch = (
                    start_epoch + start_step // num_steps_per_epoch
                    if start_epoch is not None
                    else start_step // num_steps_per_epoch
                )
                start_step = start_step % num_steps_per_epoch
            sampler.set_step(start_step)

        start_epoch = start_epoch if start_epoch is not None else ret[0]
        start_step = start_step if start_step is not None else ret[1]

        if (
            use_discriminator
            and os.path.exists(os.path.join(cfg.load, "discriminator"))
            and not cfg.get("restart_disc", False)
        ):
            booster.load_model(discriminator, os.path.join(cfg.load, "discriminator"))
            if cfg.get("load_optimizer", True):
                booster.load_optimizer(disc_optimizer, os.path.join(cfg.load, "disc_optimizer"))
                if disc_lr_scheduler is not None:
                    booster.load_lr_scheduler(disc_lr_scheduler, os.path.join(cfg.load, "disc_lr_scheduler"))
                if cfg.get("disc_lr", None) is not None:
                    set_lr(disc_optimizer, disc_lr_scheduler, cfg.disc_lr)

        logger.info("Loaded checkpoint %s at epoch %s step %s", cfg.load, start_epoch, start_step)

        if cfg.get("lr", None) is not None:
            set_lr(optimizer, lr_scheduler, cfg.lr, cfg.get("initial_lr", None))

        if cfg.get("update_warmup_steps", False):
            assert (
                cfg.lr_scheduler.get("warmup_steps", None) is not None
            ), "you need to set lr_scheduler.warmup_steps in order to pass --update-warmup-steps True"
            set_warmup_steps(lr_scheduler, cfg.lr_scheduler.warmup_steps)
            if use_discriminator:
                assert (
                    cfg.disc_lr_scheduler.get("warmup_steps", None) is not None
                ), "you need to set disc_lr_scheduler.warmup_steps in order to pass --update-warmup-steps True"
                set_warmup_steps(disc_lr_scheduler, cfg.disc_lr_scheduler.warmup_steps)

    # == sharding EMA model ==
    if ema is not None:
        model_sharding(ema)
        ema = ema.to(device)

    if cfg.get("freeze_layers", None) == "all":
        for param in model.module.parameters():
            param.requires_grad = False
        print("all layers frozen")

    # model.module.requires_grad_(False)
    # =======================================================
    # 5. training loop
    # =======================================================
    dist.barrier()
    accumulation_steps = int(cfg.get("accumulation_steps", 1))
    for epoch in range(start_epoch, cfg_epochs):
        # == set dataloader to new epoch ==
        sampler.set_epoch(epoch)
        dataiter = iter(dataloader)
        logger.info("Beginning epoch %s...", epoch)
        random.seed(1024 + dist.get_rank())  # load vid/img for each rank

        # == training loop in an epoch ==
        with tqdm(
            enumerate(dataiter, start=start_step),
            desc=f"Epoch {epoch}",
            disable=not coordinator.is_master(),
            total=num_steps_per_epoch,
            initial=start_step,
        ) as pbar:
            pbar_iter = iter(pbar)

            def fetch_data():
                step, batch = next(pbar_iter)
                pinned_video = batch["video"]
                batch["video"] = pinned_video.to(device, dtype, non_blocking=True)
                return batch, step, pinned_video

            batch_, step_, pinned_video_ = fetch_data()

            profiler_ctxt = (
                profile(
                    activities=[ProfilerActivity.CPU, ProfilerActivity.CUDA],
                    schedule=my_schedule,
                    on_trace_ready=torch.profiler.tensorboard_trace_handler("./log/profile"),
                    record_shapes=True,
                    profile_memory=True,
                    with_stack=True,
                )
                if cfg.get("profile", False)
                else nullcontext()
            )

            with profiler_ctxt:
                for _ in range(start_step, num_steps_per_epoch):
                    if cfg.get("profile", False) and _ == WARMUP + ACTIVE + WAIT + 3:
                        break

                    # == load data ===
                    batch, step, pinned_video = batch_, step_, pinned_video_
                    if step + 1 < num_steps_per_epoch:
                        batch_, step_, pinned_video_ = fetch_data()

                    # == log config ==
                    global_step = epoch * num_steps_per_epoch + step
                    actual_update_step = (global_step + 1) // accumulation_steps
                    log_step += 1
                    acc_step += 1

                    # == mixed strategy ==
                    x = batch["video"]
                    t_length = x.size(2)
                    use_video = 1
                    if mixed_strategy == "mixed_video_image":
                        if random.random() < modulated_mixed_image_ratio and dist.get_rank() != 0:
                            # NOTE: enable the first rank to use video
                            t_length = 1
                            use_video = 0
                    elif mixed_strategy == "mixed_video_random":
                        t_length = random.randint(1, x.size(2))
                    x = x[:, :, :t_length, :, :]

                    with Timer("model", log=True) if cfg.get("profile", False) else nullcontext():
                        # == forward pass ==
                        x_rec, posterior, z = model(x)

                        if cfg.get("profile", False):
                            profiler_ctxt.step()

                        if cache_pin_memory:
                            dataiter.remove_cache(pinned_video)

                        # == loss initialization ==
                        vae_loss = torch.tensor(0.0, device=device, dtype=dtype)
                        loss_dict = {}  # loss at every step

                        # == reconstruction loss ==
                        ret = vae_loss_fn(x, x_rec, posterior)
                        nll_loss = ret["nll_loss"]
                        kl_loss = ret["kl_loss"]
                        recon_loss = ret["recon_loss"]
                        perceptual_loss = ret["perceptual_loss"]
                        vae_loss += nll_loss + kl_loss

                        # == generator loss ==
                        if use_discriminator:
                            # turn off grad update for disc
                            discriminator.requires_grad_(False)
                            fake_logits = discriminator(x_rec.contiguous())

                            generator_loss, g_loss = generator_loss_fn(
                                fake_logits,
                                nll_loss,
                                model.module.get_last_layer(),
                                actual_update_step,
                                is_training=model.training,
                            )
                            # print(f"generator_loss: {generator_loss}, recon_loss: {recon_loss}, perceptual_loss: {perceptual_loss}")

                            vae_loss += generator_loss
                            # turn on disc training
                            discriminator.requires_grad_(True)

                        # == generator backward & update ==
                        ctx = (
                            booster.no_sync(model, optimizer)
                            if cfg.get("plugin", "zero2") in ("zero1", "zero1-seq")
                            and (step + 1) % accumulation_steps != 0
                            else nullcontext()
                        )
                        with Timer("backward", log=True) if cfg.get("profile", False) else nullcontext():
                            with ctx:
                                booster.backward(loss=vae_loss / accumulation_steps, optimizer=optimizer)

                        with Timer("optimizer", log=True) if cfg.get("profile", False) else nullcontext():
                            if (step + 1) % accumulation_steps == 0:
                                optimizer.step()
                                optimizer.zero_grad()
                                if lr_scheduler is not None:
                                    lr_scheduler.step(
                                        actual_update_step,
                                    )
                                # == update EMA ==
                                if ema is not None:
                                    update_ema(
                                        ema,
                                        model.unwrap(),
                                        optimizer=optimizer,
                                        decay=cfg.get("ema_decay", 0.9999),
                                    )

                    # == logging ==
                    log_loss("all", vae_loss, loss_dict, use_video)
                    log_loss("nll", nll_loss, loss_dict, use_video)
                    log_loss("nll_rec", recon_loss, loss_dict, use_video)
                    log_loss("nll_per", perceptual_loss, loss_dict, use_video)
                    log_loss("kl", kl_loss, loss_dict, use_video)
                    if use_discriminator:
                        log_loss("gen_w", generator_loss, loss_dict, use_video)
                        log_loss("gen", g_loss, loss_dict, use_video)

                    # == loss: discriminator adversarial ==
                    if use_discriminator:
                        real_logits = discriminator(x.detach().contiguous())
                        fake_logits = discriminator(x_rec.detach().contiguous())
                        disc_loss = discriminator_loss_fn(
                            real_logits,
                            fake_logits,
                            actual_update_step,
                        )

                        # == discriminator backward & update ==
                        ctx = (
                            booster.no_sync(discriminator, disc_optimizer)
                            if cfg.get("plugin", "zero2") in ("zero1", "zero1-seq")
                            and (step + 1) % accumulation_steps != 0
                            else nullcontext()
                        )
                        with ctx:
                            booster.backward(loss=disc_loss / accumulation_steps, optimizer=disc_optimizer)
                        if (step + 1) % accumulation_steps == 0:
                            disc_optimizer.step()
                            disc_optimizer.zero_grad()
                            if disc_lr_scheduler is not None:
                                disc_lr_scheduler.step(actual_update_step)

                        # log
                        log_loss("disc", disc_loss, loss_dict, use_video)

                    # == logging ==
                    if (global_step + 1) % accumulation_steps == 0:
                        if coordinator.is_master() and actual_update_step % cfg.get("log_every", 1) == 0:
                            avg_loss = {k: v / log_step for k, v in running_loss.items()}
                            # progress bar
                            pbar.set_postfix(
                                {
                                    # "step": step,
                                    # "global_step": global_step,
                                    # "actual_update_step": actual_update_step,
                                    # "lr": optimizer.param_groups[0]["lr"],
                                    **{k: f"{v:.2f}" for k, v in avg_loss.items()},
                                }
                            )
                            # tensorboard
                            tb_writer.add_scalar("loss", vae_loss.item(), actual_update_step)
                            # wandb
                            if cfg.get("wandb", False):
                                wandb.log(
                                    {
                                        "iter": global_step,
                                        "epoch": epoch,
                                        "lr": optimizer.param_groups[0]["lr"],
                                        "avg_loss_": avg_loss,
                                        "avg_loss": avg_loss["all"],
                                        "loss_": loss_dict,
                                        "loss": vae_loss.item(),
                                        "global_grad_norm": optimizer.get_grad_norm(),
                                    },
                                    step=actual_update_step,
                                )

                            running_loss = {k: 0.0 for k in running_loss}
                            log_step = 0

                        # == checkpoint saving ==
                        ckpt_every = cfg.get("ckpt_every", 0)
                        if ckpt_every > 0 and actual_update_step % ckpt_every == 0 and coordinator.is_master():
                            subprocess.run("sudo drop_cache", shell=True)

                        if ckpt_every > 0 and actual_update_step % ckpt_every == 0:
                            # mannually garbage collection
                            gc.collect()

                            save_dir = checkpoint_io.save(
                                booster,
                                exp_dir,
                                model=model,
                                ema=ema,
                                optimizer=optimizer,
                                lr_scheduler=lr_scheduler,
                                sampler=sampler,
                                epoch=epoch,
                                step=step + 1,
                                global_step=global_step + 1,
                                batch_size=cfg.get("batch_size", None),
                                actual_update_step=actual_update_step,
                                ema_shape_dict=ema_shape_dict,
                                async_io=True,
                            )

                            if is_log_process(plugin_type, plugin_config):
                                os.system(f"chgrp -R share {save_dir}")

                            if use_discriminator:
                                booster.save_model(discriminator, os.path.join(save_dir, "discriminator"), shard=True)
                                booster.save_optimizer(
                                    disc_optimizer,
                                    os.path.join(save_dir, "disc_optimizer"),
                                    shard=True,
                                    size_per_shard=4096,
                                )
                                if disc_lr_scheduler is not None:
                                    booster.save_lr_scheduler(
                                        disc_lr_scheduler, os.path.join(save_dir, "disc_lr_scheduler")
                                    )
                            dist.barrier()

                            logger.info(
                                "Saved checkpoint at epoch %s, step %s, global_step %s to %s",
                                epoch,
                                step + 1,
                                actual_update_step,
                                save_dir,
                            )

                            # remove old checkpoints
                            rm_checkpoints(exp_dir, keep_n_latest=cfg.get("keep_n_latest", -1))
                            logger.info(
                                "Removed old checkpoints and kept %s latest ones.", cfg.get("keep_n_latest", -1)
                            )

            if cfg.get("profile", False):
                profiler_ctxt.export_chrome_trace("./log/profile/trace.json")

        sampler.reset()
        start_step = 0


if __name__ == "__main__":
    main()
Update Open-Sora 2.0 (#807) * upload v2.0 * update docs * [hotfix] fit latest fa3 (#802) * update readme * update readme * update readme * update train readme * update readme * update readme: motion score * cleaning video dc ae WIP * update config * add dependency functions * undo cleaning * use latest dcae * complete high compression training * update hcae config * cleaned up vae * update ae.md * further cleanup * update vae & ae paths * align naming of ae * [hotfix] fix ring attn bwd for fa3 (#803) * train ae default without wandb * update config * update evaluation results * added hcae report * update readme * update readme demo * update readme demo * update readme gif * display demo directly in readme * update paper * delete files --------- Co-authored-by: Hongxin Liu <lhx0217@gmail.com> Co-authored-by: Shen-Chenhui <shen_chenhui@u.nus.edu> Co-authored-by: wuxiwen <wuxiwen.simon@gmail.com> 2025-03-12 06:14:22 +01:00			`import gc`
			`import os`
			`import random`
			`import subprocess`
			`import warnings`
			`from contextlib import nullcontext`
			`from copy import deepcopy`
			`from pprint import pformat`

			`warnings.filterwarnings("ignore", category=FutureWarning)`
			`warnings.filterwarnings("ignore", category=UserWarning)`
			`gc.disable()`


			`import torch`
			`import torch.distributed as dist`
			`from colossalai.booster import Booster`
			`from colossalai.utils import set_seed`
			`from torch.profiler import ProfilerActivity, profile, schedule`
			`from tqdm import tqdm`

			`import wandb`
			`from opensora.acceleration.checkpoint import set_grad_checkpoint`
			`from opensora.acceleration.parallel_states import get_data_parallel_group`
			`from opensora.datasets.dataloader import prepare_dataloader`
			`from opensora.datasets.pin_memory_cache import PinMemoryCache`
			`from opensora.models.vae.losses import DiscriminatorLoss, GeneratorLoss, VAELoss`
			`from opensora.registry import DATASETS, MODELS, build_module`
			`from opensora.utils.ckpt import CheckpointIO, model_sharding, record_model_param_shape, rm_checkpoints`
			`from opensora.utils.config import config_to_name, create_experiment_workspace, parse_configs`
			`from opensora.utils.logger import create_logger`
			`from opensora.utils.misc import (`
			`Timer,`
			`all_reduce_sum,`
			`create_tensorboard_writer,`
			`is_log_process,`
			`log_model_params,`
			`to_torch_dtype,`
			`)`
			`from opensora.utils.optimizer import create_lr_scheduler, create_optimizer`
			`from opensora.utils.train import create_colossalai_plugin, set_lr, set_warmup_steps, setup_device, update_ema`

			`torch.backends.cudnn.benchmark = True`

			`WAIT = 1`
			`WARMUP = 10`
			`ACTIVE = 20`

			`my_schedule = schedule(`
			`wait=WAIT, # number of warmup steps`
			`warmup=WARMUP, # number of warmup steps with profiling`
			`active=ACTIVE, # number of active steps with profiling`
			`)`


			`def main():`
			`# ======================================================`
			`# 1. configs & runtime variables`
			`# ======================================================`
			`# == parse configs ==`
			`cfg = parse_configs()`

			`# == get dtype & device ==`
			`dtype = to_torch_dtype(cfg.get("dtype", "bf16"))`
			`device, coordinator = setup_device()`
			`checkpoint_io = CheckpointIO()`
			`set_seed(cfg.get("seed", 1024))`
			`PinMemoryCache.force_dtype = dtype`
			`pin_memory_cache_pre_alloc_numels = cfg.get("pin_memory_cache_pre_alloc_numels", None)`
			`PinMemoryCache.pre_alloc_numels = pin_memory_cache_pre_alloc_numels`

			`# == init ColossalAI booster ==`
			`plugin_type = cfg.get("plugin", "zero2")`
			`plugin_config = cfg.get("plugin_config", {})`
			`plugin = (`
			`create_colossalai_plugin(`
			`plugin=plugin_type,`
			`dtype=cfg.get("dtype", "bf16"),`
			`grad_clip=cfg.get("grad_clip", 0),`
			`**plugin_config,`
			`)`
			`if plugin_type != "none"`
			`else None`
			`)`
			`booster = Booster(plugin=plugin)`

			`# == init exp_dir ==`
			`exp_name, exp_dir = create_experiment_workspace(`
			`cfg.get("outputs", "./outputs"),`
			`model_name=config_to_name(cfg),`
			`config=cfg.to_dict(),`
			`)`
			`if is_log_process(plugin_type, plugin_config):`
			`print(f"changing {exp_dir} to share")`
			`os.system(f"chgrp -R share {exp_dir}")`

			`# == init logger, tensorboard & wandb ==`
			`logger = create_logger(exp_dir)`
			`logger.info("Training configuration:\n %s", pformat(cfg.to_dict()))`
			`tb_writer = None`
			`if coordinator.is_master():`
			`tb_writer = create_tensorboard_writer(exp_dir)`
			`if cfg.get("wandb", False):`
			`wandb.init(`
			`project=cfg.get("wandb_project", "Open-Sora"),`
			`name=cfg.get("wandb_expr_name", exp_name),`
			`config=cfg.to_dict(),`
			`dir=exp_dir,`
			`)`

			`# ======================================================`
			`# 2. build dataset and dataloader`
			`# ======================================================`
			`logger.info("Building dataset...")`
			`# == build dataset ==`
			`dataset = build_module(cfg.dataset, DATASETS)`
			`logger.info("Dataset contains %s samples.", len(dataset))`

			`# == build dataloader ==`
			`cache_pin_memory = pin_memory_cache_pre_alloc_numels is not None`
			`dataloader_args = dict(`
			`dataset=dataset,`
			`batch_size=cfg.get("batch_size", None),`
			`num_workers=cfg.get("num_workers", 4),`
			`seed=cfg.get("seed", 1024),`
			`shuffle=True,`
			`drop_last=True,`
			`pin_memory=True,`
			`process_group=get_data_parallel_group(),`
			`prefetch_factor=cfg.get("prefetch_factor", None),`
			`cache_pin_memory=cache_pin_memory,`
			`)`
			`dataloader, sampler = prepare_dataloader(`
			`bucket_config=cfg.get("bucket_config", None),`
			`num_bucket_build_workers=cfg.get("num_bucket_build_workers", 1),`
			`**dataloader_args,`
			`)`
			`num_steps_per_epoch = len(dataloader)`

			`# ======================================================`
			`# 3. build model`
			`# ======================================================`
			`logger.info("Building models...")`

			`# == build vae model ==`
			`model = build_module(cfg.model, MODELS, device_map=device, torch_dtype=dtype).train()`
			`log_model_params(model)`

			`if cfg.get("grad_checkpoint", False):`
			`set_grad_checkpoint(model)`
			`vae_loss_fn = VAELoss(**cfg.vae_loss_config, device=device, dtype=dtype)`

			`# == build EMA model ==`
			`if cfg.get("ema_decay", None) is not None:`
			`ema = deepcopy(model).cpu().eval().requires_grad_(False)`
			`ema_shape_dict = record_model_param_shape(ema)`
			`logger.info("EMA model created.")`
			`else:`
			`ema = ema_shape_dict = None`
			`logger.info("No EMA model created.")`

			`# == build discriminator model ==`
			`use_discriminator = cfg.get("discriminator", None) is not None`
			`if use_discriminator:`
			`discriminator = build_module(cfg.discriminator, MODELS).to(device, dtype).train()`
			`log_model_params(discriminator)`
			`generator_loss_fn = GeneratorLoss(**cfg.gen_loss_config)`
			`discriminator_loss_fn = DiscriminatorLoss(**cfg.disc_loss_config)`

			`# == setup optimizer ==`
			`optimizer = create_optimizer(model, cfg.optim)`

			`# == setup lr scheduler ==`
			`lr_scheduler = create_lr_scheduler(`
			`optimizer=optimizer, num_steps_per_epoch=num_steps_per_epoch, epochs=cfg.get("epochs", 1000), **cfg.lr_scheduler`
			`)`

			`# == setup discriminator optimizer ==`
			`if use_discriminator:`
			`disc_optimizer = create_optimizer(discriminator, cfg.optim_discriminator)`
			`disc_lr_scheduler = create_lr_scheduler(`
			`optimizer=disc_optimizer,`
			`num_steps_per_epoch=num_steps_per_epoch,`
			`epochs=cfg.get("epochs", 1000),`
			`**cfg.disc_lr_scheduler,`
			`)`

			`# =======================================================`
			`# 4. distributed training preparation with colossalai`
			`# =======================================================`
			`logger.info("Preparing for distributed training...")`
			`# == boosting ==`
			`torch.set_default_dtype(dtype)`
			`model, optimizer, _, dataloader, lr_scheduler = booster.boost(`
			`model=model,`
			`optimizer=optimizer,`
			`lr_scheduler=lr_scheduler,`
			`dataloader=dataloader,`
			`)`

			`if use_discriminator:`
			`discriminator, disc_optimizer, _, _, disc_lr_scheduler = booster.boost(`
			`model=discriminator,`
			`optimizer=disc_optimizer,`
			`lr_scheduler=disc_lr_scheduler,`
			`)`
			`torch.set_default_dtype(torch.float)`
			`logger.info("Boosted model for distributed training")`

			`# == global variables ==`
			`cfg_epochs = cfg.get("epochs", 1000)`
			`mixed_strategy = cfg.get("mixed_strategy", None)`
			`mixed_image_ratio = cfg.get("mixed_image_ratio", 0.0)`
			`# modulate mixed image ratio since we force rank 0 to be video`
			`num_ranks = dist.get_world_size()`
			`modulated_mixed_image_ratio = (`
			`num_ranks * mixed_image_ratio / (num_ranks - 1) if num_ranks > 1 else mixed_image_ratio`
			`)`
			`if is_log_process(plugin_type, plugin_config):`
			`print("modulated mixed image ratio:", modulated_mixed_image_ratio)`

			`start_epoch = start_step = log_step = acc_step = 0`
			`running_loss = dict( # loss accumulated over config.log_every steps`
			`all=0.0,`
			`nll=0.0,`
			`nll_rec=0.0,`
			`nll_per=0.0,`
			`kl=0.0,`
			`gen=0.0,`
			`gen_w=0.0,`
			`disc=0.0,`
			`debug=0.0,`
			`)`

			`def log_loss(name, loss, loss_dict, use_video):`
			`# only calculate loss for video`
			`if use_video == 0:`
			`loss.data = torch.tensor(0.0, device=device, dtype=dtype)`
			`all_reduce_sum(loss.data)`
			`num_video = torch.tensor(use_video, device=device, dtype=dtype)`
			`all_reduce_sum(num_video)`
			`loss_item = loss.item() / num_video.item()`
			`loss_dict[name] = loss_item`
			`running_loss[name] += loss_item`

			`logger.info("Training for %s epochs with %s steps per epoch", cfg_epochs, num_steps_per_epoch)`

			`# == resume ==`
			`if cfg.get("load", None) is not None:`
			`logger.info("Loading checkpoint from %s", cfg.load)`
			`start_epoch = cfg.get("start_epoch", None)`
			`start_step = cfg.get("start_step", None)`
			`ret = checkpoint_io.load(`
			`booster,`
			`cfg.load,`
			`model=model,`
			`ema=ema,`
			`optimizer=optimizer,`
			`lr_scheduler=lr_scheduler,`
			`sampler=(`
			`None if start_step is not None else sampler`
			`), # if specify start step, set last_micro_batch_access_index of a new sampler instead`
			`)`
			`if start_step is not None:`
			`# if start step exceeds data length, go to next epoch`
			`if start_step > num_steps_per_epoch:`
			`start_epoch = (`
			`start_epoch + start_step // num_steps_per_epoch`
			`if start_epoch is not None`
			`else start_step // num_steps_per_epoch`
			`)`
			`start_step = start_step % num_steps_per_epoch`
			`sampler.set_step(start_step)`

			`start_epoch = start_epoch if start_epoch is not None else ret[0]`
			`start_step = start_step if start_step is not None else ret[1]`

			`if (`
			`use_discriminator`
			`and os.path.exists(os.path.join(cfg.load, "discriminator"))`
			`and not cfg.get("restart_disc", False)`
			`):`
			`booster.load_model(discriminator, os.path.join(cfg.load, "discriminator"))`
			`if cfg.get("load_optimizer", True):`
			`booster.load_optimizer(disc_optimizer, os.path.join(cfg.load, "disc_optimizer"))`
			`if disc_lr_scheduler is not None:`
			`booster.load_lr_scheduler(disc_lr_scheduler, os.path.join(cfg.load, "disc_lr_scheduler"))`
			`if cfg.get("disc_lr", None) is not None:`
			`set_lr(disc_optimizer, disc_lr_scheduler, cfg.disc_lr)`

			`logger.info("Loaded checkpoint %s at epoch %s step %s", cfg.load, start_epoch, start_step)`

			`if cfg.get("lr", None) is not None:`
			`set_lr(optimizer, lr_scheduler, cfg.lr, cfg.get("initial_lr", None))`

			`if cfg.get("update_warmup_steps", False):`
			`assert (`
			`cfg.lr_scheduler.get("warmup_steps", None) is not None`
			`), "you need to set lr_scheduler.warmup_steps in order to pass --update-warmup-steps True"`
			`set_warmup_steps(lr_scheduler, cfg.lr_scheduler.warmup_steps)`
			`if use_discriminator:`
			`assert (`
			`cfg.disc_lr_scheduler.get("warmup_steps", None) is not None`
			`), "you need to set disc_lr_scheduler.warmup_steps in order to pass --update-warmup-steps True"`
			`set_warmup_steps(disc_lr_scheduler, cfg.disc_lr_scheduler.warmup_steps)`

			`# == sharding EMA model ==`
			`if ema is not None:`
			`model_sharding(ema)`
			`ema = ema.to(device)`

			`if cfg.get("freeze_layers", None) == "all":`
			`for param in model.module.parameters():`
			`param.requires_grad = False`
			`print("all layers frozen")`

			`# model.module.requires_grad_(False)`
			`# =======================================================`
			`# 5. training loop`
			`# =======================================================`
			`dist.barrier()`
			`accumulation_steps = int(cfg.get("accumulation_steps", 1))`
			`for epoch in range(start_epoch, cfg_epochs):`
			`# == set dataloader to new epoch ==`
			`sampler.set_epoch(epoch)`
			`dataiter = iter(dataloader)`
			`logger.info("Beginning epoch %s...", epoch)`
			`random.seed(1024 + dist.get_rank()) # load vid/img for each rank`

			`# == training loop in an epoch ==`
			`with tqdm(`
			`enumerate(dataiter, start=start_step),`
			`desc=f"Epoch {epoch}",`
			`disable=not coordinator.is_master(),`
			`total=num_steps_per_epoch,`
			`initial=start_step,`
			`) as pbar:`
			`pbar_iter = iter(pbar)`

			`def fetch_data():`
			`step, batch = next(pbar_iter)`
			`pinned_video = batch["video"]`
			`batch["video"] = pinned_video.to(device, dtype, non_blocking=True)`
			`return batch, step, pinned_video`

			`batch_, step_, pinned_video_ = fetch_data()`

			`profiler_ctxt = (`
			`profile(`
			`activities=[ProfilerActivity.CPU, ProfilerActivity.CUDA],`
			`schedule=my_schedule,`
			`on_trace_ready=torch.profiler.tensorboard_trace_handler("./log/profile"),`
			`record_shapes=True,`
			`profile_memory=True,`
			`with_stack=True,`
			`)`
			`if cfg.get("profile", False)`
			`else nullcontext()`
			`)`

			`with profiler_ctxt:`
			`for _ in range(start_step, num_steps_per_epoch):`
			`if cfg.get("profile", False) and _ == WARMUP + ACTIVE + WAIT + 3:`
			`break`

			`# == load data ===`
			`batch, step, pinned_video = batch_, step_, pinned_video_`
			`if step + 1 < num_steps_per_epoch:`
			`batch_, step_, pinned_video_ = fetch_data()`

			`# == log config ==`
			`global_step = epoch * num_steps_per_epoch + step`
			`actual_update_step = (global_step + 1) // accumulation_steps`
			`log_step += 1`
			`acc_step += 1`

			`# == mixed strategy ==`
			`x = batch["video"]`
			`t_length = x.size(2)`
			`use_video = 1`
			`if mixed_strategy == "mixed_video_image":`
			`if random.random() < modulated_mixed_image_ratio and dist.get_rank() != 0:`
			`# NOTE: enable the first rank to use video`
			`t_length = 1`
			`use_video = 0`
			`elif mixed_strategy == "mixed_video_random":`
			`t_length = random.randint(1, x.size(2))`
			`x = x[:, :, :t_length, :, :]`

			`with Timer("model", log=True) if cfg.get("profile", False) else nullcontext():`
			`# == forward pass ==`
			`x_rec, posterior, z = model(x)`

			`if cfg.get("profile", False):`
			`profiler_ctxt.step()`

			`if cache_pin_memory:`
			`dataiter.remove_cache(pinned_video)`

			`# == loss initialization ==`
			`vae_loss = torch.tensor(0.0, device=device, dtype=dtype)`
			`loss_dict = {} # loss at every step`

			`# == reconstruction loss ==`
			`ret = vae_loss_fn(x, x_rec, posterior)`
			`nll_loss = ret["nll_loss"]`
			`kl_loss = ret["kl_loss"]`
			`recon_loss = ret["recon_loss"]`
			`perceptual_loss = ret["perceptual_loss"]`
			`vae_loss += nll_loss + kl_loss`

			`# == generator loss ==`
			`if use_discriminator:`
			`# turn off grad update for disc`
			`discriminator.requires_grad_(False)`
			`fake_logits = discriminator(x_rec.contiguous())`

			`generator_loss, g_loss = generator_loss_fn(`
			`fake_logits,`
			`nll_loss,`
			`model.module.get_last_layer(),`
			`actual_update_step,`
			`is_training=model.training,`
			`)`
			`# print(f"generator_loss: {generator_loss}, recon_loss: {recon_loss}, perceptual_loss: {perceptual_loss}")`

			`vae_loss += generator_loss`
			`# turn on disc training`
			`discriminator.requires_grad_(True)`

			`# == generator backward & update ==`
			`ctx = (`
			`booster.no_sync(model, optimizer)`
			`if cfg.get("plugin", "zero2") in ("zero1", "zero1-seq")`
			`and (step + 1) % accumulation_steps != 0`
			`else nullcontext()`
			`)`
			`with Timer("backward", log=True) if cfg.get("profile", False) else nullcontext():`
			`with ctx:`
			`booster.backward(loss=vae_loss / accumulation_steps, optimizer=optimizer)`

			`with Timer("optimizer", log=True) if cfg.get("profile", False) else nullcontext():`
			`if (step + 1) % accumulation_steps == 0:`
			`optimizer.step()`
			`optimizer.zero_grad()`
			`if lr_scheduler is not None:`
			`lr_scheduler.step(`
			`actual_update_step,`
			`)`
			`# == update EMA ==`
			`if ema is not None:`
			`update_ema(`
			`ema,`
			`model.unwrap(),`
			`optimizer=optimizer,`
			`decay=cfg.get("ema_decay", 0.9999),`
			`)`

			`# == logging ==`
			`log_loss("all", vae_loss, loss_dict, use_video)`
			`log_loss("nll", nll_loss, loss_dict, use_video)`
			`log_loss("nll_rec", recon_loss, loss_dict, use_video)`
			`log_loss("nll_per", perceptual_loss, loss_dict, use_video)`
			`log_loss("kl", kl_loss, loss_dict, use_video)`
			`if use_discriminator:`
			`log_loss("gen_w", generator_loss, loss_dict, use_video)`
			`log_loss("gen", g_loss, loss_dict, use_video)`

			`# == loss: discriminator adversarial ==`
			`if use_discriminator:`
			`real_logits = discriminator(x.detach().contiguous())`
			`fake_logits = discriminator(x_rec.detach().contiguous())`
			`disc_loss = discriminator_loss_fn(`
			`real_logits,`
			`fake_logits,`
			`actual_update_step,`
			`)`

			`# == discriminator backward & update ==`
			`ctx = (`
			`booster.no_sync(discriminator, disc_optimizer)`
			`if cfg.get("plugin", "zero2") in ("zero1", "zero1-seq")`
			`and (step + 1) % accumulation_steps != 0`
			`else nullcontext()`
			`)`
			`with ctx:`
			`booster.backward(loss=disc_loss / accumulation_steps, optimizer=disc_optimizer)`
			`if (step + 1) % accumulation_steps == 0:`
			`disc_optimizer.step()`
			`disc_optimizer.zero_grad()`
			`if disc_lr_scheduler is not None:`
			`disc_lr_scheduler.step(actual_update_step)`

			`# log`
			`log_loss("disc", disc_loss, loss_dict, use_video)`

			`# == logging ==`
			`if (global_step + 1) % accumulation_steps == 0:`
			`if coordinator.is_master() and actual_update_step % cfg.get("log_every", 1) == 0:`
			`avg_loss = {k: v / log_step for k, v in running_loss.items()}`
			`# progress bar`
			`pbar.set_postfix(`
			`{`
			`# "step": step,`
			`# "global_step": global_step,`
			`# "actual_update_step": actual_update_step,`
			`# "lr": optimizer.param_groups[0]["lr"],`
			`**{k: f"{v:.2f}" for k, v in avg_loss.items()},`
			`}`
			`)`
			`# tensorboard`
			`tb_writer.add_scalar("loss", vae_loss.item(), actual_update_step)`
			`# wandb`
			`if cfg.get("wandb", False):`
			`wandb.log(`
			`{`
			`"iter": global_step,`
			`"epoch": epoch,`
			`"lr": optimizer.param_groups[0]["lr"],`
			`"avg_loss_": avg_loss,`
			`"avg_loss": avg_loss["all"],`
			`"loss_": loss_dict,`
			`"loss": vae_loss.item(),`
			`"global_grad_norm": optimizer.get_grad_norm(),`
			`},`
			`step=actual_update_step,`
			`)`

			`running_loss = {k: 0.0 for k in running_loss}`
			`log_step = 0`

			`# == checkpoint saving ==`
			`ckpt_every = cfg.get("ckpt_every", 0)`
			`if ckpt_every > 0 and actual_update_step % ckpt_every == 0 and coordinator.is_master():`
			`subprocess.run("sudo drop_cache", shell=True)`

			`if ckpt_every > 0 and actual_update_step % ckpt_every == 0:`
			`# mannually garbage collection`
			`gc.collect()`

			`save_dir = checkpoint_io.save(`
			`booster,`
			`exp_dir,`
			`model=model,`
			`ema=ema,`
			`optimizer=optimizer,`
			`lr_scheduler=lr_scheduler,`
			`sampler=sampler,`
			`epoch=epoch,`
			`step=step + 1,`
			`global_step=global_step + 1,`
			`batch_size=cfg.get("batch_size", None),`
			`actual_update_step=actual_update_step,`
			`ema_shape_dict=ema_shape_dict,`
			`async_io=True,`
			`)`

			`if is_log_process(plugin_type, plugin_config):`
			`os.system(f"chgrp -R share {save_dir}")`

			`if use_discriminator:`
			`booster.save_model(discriminator, os.path.join(save_dir, "discriminator"), shard=True)`
			`booster.save_optimizer(`
			`disc_optimizer,`
			`os.path.join(save_dir, "disc_optimizer"),`
			`shard=True,`
			`size_per_shard=4096,`
			`)`
			`if disc_lr_scheduler is not None:`
			`booster.save_lr_scheduler(`
			`disc_lr_scheduler, os.path.join(save_dir, "disc_lr_scheduler")`
			`)`
			`dist.barrier()`

			`logger.info(`
			`"Saved checkpoint at epoch %s, step %s, global_step %s to %s",`
			`epoch,`
			`step + 1,`
			`actual_update_step,`
			`save_dir,`
			`)`

			`# remove old checkpoints`
			`rm_checkpoints(exp_dir, keep_n_latest=cfg.get("keep_n_latest", -1))`
			`logger.info(`
			`"Removed old checkpoints and kept %s latest ones.", cfg.get("keep_n_latest", -1)`
			`)`

			`if cfg.get("profile", False):`
			`profiler_ctxt.export_chrome_trace("./log/profile/trace.json")`

			`sampler.reset()`
			`start_step = 0`


			`if __name__ == "__main__":`
			`main()`