diff --git a/docs/zh_CN/report_v3.md b/docs/zh_CN/report_v3.md index a9fac2d..2f6041c 100644 --- a/docs/zh_CN/report_v3.md +++ b/docs/zh_CN/report_v3.md @@ -40,7 +40,7 @@ 我们的训练包括三个阶段: -1.对于前 380k 步,我们在 8 个 GPU 上进行训练并释放 2D VAE。训练目标包括重建 2D VAE 的压缩特征(图中粉红色),并添加损失以使 3D VAE 的特征与 2D VAE 的特征相似(粉红色和绿色,称为identity loss)。我们发现后者的损失可以快速使整个 VAE 在图像上取得良好的性能,并在下一阶段更快地收敛。 +1. 对于前 380k 步,我们冻结 2D VAE并在 8 个 GPU 上进行训练。训练目标包括重建 2D VAE 的压缩特征(图中粉红色),并添加损失以使 3D VAE 的特征与 2D VAE 的特征相似(粉红色和绿色,称为identity loss)。我们发现后者的损失可以快速使整个 VAE 在图像上取得良好的性能,并在下一阶段更快地收敛。 2. 对于接下来的 260k 步,我们消除identity loss并仅学习 3D VAE。 3. 对于最后 540k 步,由于我们发现仅重建 2D VAE 的特征无法带来进一步的改进,因此我们移除了loss并训练整个 VAE 来重建原始视频。此阶段在 24 个 GPU 上进行训练。