VideoVerses · YingqingHe · Jan 28, 2025 · Jan 20, 2025
diff --git a/configs/000_videocrafter/vc1_i2v_512.yaml b/configs/000_videocrafter/vc1_i2v_512.yaml
@@ -1,5 +1,5 @@
 model:
-  target: src.base.ddpm3d.LatentVisualDiffusionFlow
+  target: videotuna.base.ddpm3d.LatentVisualDiffusionFlow
   params:
     linear_start: 0.00085
     linear_end: 0.012
@@ -21,14 +21,14 @@ model:
     finegrained: true
 
     diffusion_scheduler_config:
-      target: src.base.diffusion_schedulers.LDMScheduler
+      target: videotuna.base.diffusion_schedulers.LDMScheduler
       params: 
         timesteps: 1000
         linear_start: 0.00085
         linear_end: 0.012
 
     unet_config:
-      target: src.lvdm.modules.networks.openaimodel3d.UNetModel
+      target: videotuna.lvdm.modules.networks.openaimodel3d.UNetModel
       params:
         in_channels: 4
         out_channels: 4
@@ -58,7 +58,7 @@ model:
         addition_attention: true
         fps_cond: true
     first_stage_config:
-      target: src.lvdm.modules.vae.autoencoder.AutoencoderKL
+      target: videotuna.lvdm.modules.vae.autoencoder.AutoencoderKL
       params:
         embed_dim: 4
         monitor: val/rec_loss
@@ -80,11 +80,11 @@ model:
         lossconfig:
           target: torch.nn.Identity
     cond_stage_config:
-      target: src.lvdm.modules.encoders.condition.FrozenOpenCLIPEmbedder
+      target: videotuna.lvdm.modules.encoders.condition.FrozenOpenCLIPEmbedder
       params:
         freeze: true
         layer: penultimate
     img_cond_stage_config:
-      target: src.lvdm.modules.encoders.condition.FrozenOpenCLIPImageEmbedderV2
+      target: videotuna.lvdm.modules.encoders.condition.FrozenOpenCLIPImageEmbedderV2
       params:
         freeze: true
diff --git a/configs/000_videocrafter/vc1_t2v_1024.yaml b/configs/000_videocrafter/vc1_t2v_1024.yaml
@@ -1,5 +1,5 @@
 model:
-  target: src.base.ddpm3d.LVDMFlow
+  target: videotuna.base.ddpm3d.LVDMFlow
   params:
     linear_start: 0.00085
     linear_end: 0.012
@@ -20,14 +20,14 @@ model:
     fix_scale_bug: true
 
     diffusion_scheduler_config:
-      target: src.base.diffusion_schedulers.LDMScheduler
+      target: videotuna.base.diffusion_schedulers.LDMScheduler
       params: 
         timesteps: 1000
         linear_start: 0.00085
         linear_end: 0.012
 
     unet_config:
-      target: src.lvdm.modules.networks.openaimodel3d.UNetModel
+      target: videotuna.lvdm.modules.networks.openaimodel3d.UNetModel
       params:
         in_channels: 4
         out_channels: 4
@@ -56,7 +56,7 @@ model:
         addition_attention: true
         fps_cond: true
     first_stage_config:
-      target: src.lvdm.modules.vae.autoencoder.AutoencoderKL
+      target: videotuna.lvdm.modules.vae.autoencoder.AutoencoderKL
       params:
         embed_dim: 4
         monitor: val/rec_loss
@@ -78,7 +78,7 @@ model:
         lossconfig:
           target: torch.nn.Identity
     cond_stage_config:
-      target: src.lvdm.modules.encoders.condition.FrozenOpenCLIPEmbedder
+      target: videotuna.lvdm.modules.encoders.condition.FrozenOpenCLIPEmbedder
       params:
         freeze: true
         layer: penultimate
diff --git a/configs/001_videocrafter2/vc2_t2v_320x512.yaml b/configs/001_videocrafter2/vc2_t2v_320x512.yaml
@@ -2,7 +2,7 @@ model:
   base_learning_rate: 6.0e-06 # 1.5e-04
   scale_lr: False
   # empty_params_only: True # disable this means finetuning all parameters
-  target: src.base.ddpm3d.LVDMFlow
+  target: videotuna.base.ddpm3d.LVDMFlow
   params:
     log_every_t: 200
     first_stage_key: video
@@ -23,14 +23,14 @@ model:
     scale_b: 0.7 # adapt to videocrafter-v2
 
     diffusion_scheduler_config:
-      target: src.base.diffusion_schedulers.LDMScheduler
+      target: videotuna.base.diffusion_schedulers.LDMScheduler
       params: 
         timesteps: 1000
         linear_start: 0.00085
         linear_end: 0.012
 
     unet_config:
-      target: src.lvdm.modules.networks.openaimodel3d.UNetModel
+      target: videotuna.lvdm.modules.networks.openaimodel3d.UNetModel
       params:
         in_channels: 4
         out_channels: 4
@@ -59,7 +59,7 @@ model:
         addition_attention: true
         fps_cond: true # adapt to videocrafter-v2
     first_stage_config:
-      target: src.lvdm.modules.vae.autoencoder.AutoencoderKL
+      target: videotuna.lvdm.modules.vae.autoencoder.AutoencoderKL
       params:
         embed_dim: 4
         monitor: val/rec_loss
@@ -81,27 +81,27 @@ model:
         lossconfig:
           target: torch.nn.Identity
     cond_stage_config:
-      target: src.lvdm.modules.encoders.condition.FrozenOpenCLIPEmbedder
+      target: videotuna.lvdm.modules.encoders.condition.FrozenOpenCLIPEmbedder
       params:
         freeze: true
         layer: penultimate
 
 data:
-  target: src.data.lightning_data.DataModuleFromConfig
+  target: videotuna.data.lightning_data.DataModuleFromConfig
   params:
     batch_size: 4
     num_workers: 16
     wrap: false
     train:
-      target: src.data.datasets.DatasetFromCSV
+      target: videotuna.data.datasets.DatasetFromCSV
       params:
         csv_path: Dataset/ToyDataset/toydataset.csv
         resolution: [320, 512]
         video_length: 16
         frame_interval: 3
         train: True
     validation:
-      target: src.data.datasets.DatasetFromCSV
+      target: videotuna.data.datasets.DatasetFromCSV
       params:
         csv_path: Dataset/ToyDataset/toydataset.csv
         resolution: [320, 512]
@@ -118,7 +118,7 @@ lightning:
     precision: bf16 # training precision
   callbacks:
     image_logger:
-      target: src.utils.callbacks.ImageLogger
+      target: videotuna.utils.callbacks.ImageLogger
       params:
         batch_frequency: 500 #2
         max_images: 6

diff --git a/configs/001_videocrafter2/vc2_t2v_lora.yaml b/configs/001_videocrafter2/vc2_t2v_lora.yaml
@@ -2,7 +2,7 @@ model:
   base_learning_rate: 6.0e-06 # 1.5e-04
   scale_lr: False
   # empty_params_only: True # comment this means finetuning all parameters
-  target: src.base.ddpm3d.LVDMFlow
+  target: videotuna.base.ddpm3d.LVDMFlow
   params:
     lora_args:
       # lora_ckpt: "/path/to/lora.ckpt" # no need for the first-time training, only used for resume training. 
@@ -29,14 +29,14 @@ model:
     scale_b: 0.7 # adapt to videocrafter-v2
 
     diffusion_scheduler_config:
-      target: src.base.diffusion_schedulers.LDMScheduler
+      target: videotuna.base.diffusion_schedulers.LDMScheduler
       params: 
         timesteps: 1000
         linear_start: 0.00085
         linear_end: 0.012
 
     unet_config:
-      target: src.lvdm.modules.networks.openaimodel3d.UNetModel
+      target: videotuna.lvdm.modules.networks.openaimodel3d.UNetModel
       params:
         in_channels: 4
         out_channels: 4
@@ -65,7 +65,7 @@ model:
         addition_attention: true
         fps_cond: true # adapt to videocrafter-v2
     first_stage_config:
-      target: src.lvdm.modules.vae.autoencoder.AutoencoderKL
+      target: videotuna.lvdm.modules.vae.autoencoder.AutoencoderKL
       params:
         embed_dim: 4
         monitor: val/rec_loss
@@ -87,27 +87,27 @@ model:
         lossconfig:
           target: torch.nn.Identity
     cond_stage_config:
-      target: src.lvdm.modules.encoders.condition.FrozenOpenCLIPEmbedder
+      target: videotuna.lvdm.modules.encoders.condition.FrozenOpenCLIPEmbedder
       params:
         freeze: true
         layer: penultimate
 
 data:
-  target: src.data.lightning_data.DataModuleFromConfig
+  target: videotuna.data.lightning_data.DataModuleFromConfig
   params:
     batch_size: 4
     num_workers: 16
     wrap: false
     train:
-      target: src.data.datasets.DatasetFromCSV
+      target: videotuna.data.datasets.DatasetFromCSV
       params:
         csv_path: Dataset/ToyDataset/toydataset.csv
         resolution: [320, 512]
         video_length: 16
         frame_interval: 3
         train: True
     validation:
-      target: src.data.datasets.DatasetFromCSV
+      target: videotuna.data.datasets.DatasetFromCSV
       params:
         csv_path: Dataset/ToyDataset/toydataset.csv
         resolution: [320, 512]
@@ -125,7 +125,7 @@ lightning:
     precision: bf16 # training precision
   callbacks:
     image_logger:
-      target: src.utils.callbacks.ImageLogger
+      target: videotuna.utils.callbacks.ImageLogger
       params:
         batch_frequency: 1000
         max_images: 2
@@ -134,12 +134,12 @@ lightning:
           unconditional_guidance_scale: 12 # need this, otherwise it is grey
     modelcheckpoint:
       # target: pytorch_lightning.callbacks.ModelCheckpoint
-      target: src.utils.callbacks.LoraModelCheckpoint
+      target: videotuna.utils.callbacks.LoraModelCheckpoint
       params:
         every_n_epochs: 1
         filename: "{epoch:04}-{step:06}"
     metrics_over_trainsteps_checkpoint:
-      target: src.utils.callbacks.LoraModelCheckpoint
+      target: videotuna.utils.callbacks.LoraModelCheckpoint
       params:
         filename: "{epoch:06}-{step:09}"
         save_weights_only: False

diff --git a/configs/002_dynamicrafter/dc_i2v_1024.yaml b/configs/002_dynamicrafter/dc_i2v_1024.yaml
@@ -1,7 +1,7 @@
 model:
   base_learning_rate: 1.0e-05
   scale_lr: False
-  target: src.base.ddpm3d.LatentVisualDiffusionFlow
+  target: videotuna.base.ddpm3d.LatentVisualDiffusionFlow
   params:
     parameterization: "v"
     log_every_t: 200
@@ -23,15 +23,15 @@ model:
     fps_condition_type: 'fps'
 
     diffusion_scheduler_config:
-      target: src.base.diffusion_schedulers.LDMScheduler
+      target: videotuna.base.diffusion_schedulers.LDMScheduler
       params: 
         timesteps: 1000
         linear_start: 0.00085
         linear_end: 0.012
         rescale_betas_zero_snr: True
 
     unet_config:
-      target: src.lvdm.modules.networks.openaimodel3d_dc.UNetModel
+      target: videotuna.lvdm.modules.networks.openaimodel3d_dc.UNetModel
       params:
         in_channels: 8
         out_channels: 4
@@ -64,7 +64,7 @@ model:
         fs_condition: true
 
     first_stage_config:
-      target: src.lvdm.modules.vae.autoencoder.AutoencoderKL
+      target: videotuna.lvdm.modules.vae.autoencoder.AutoencoderKL
       params:
         embed_dim: 4
         monitor: val/rec_loss
@@ -87,18 +87,18 @@ model:
           target: torch.nn.Identity
 
     cond_stage_config:
-      target: src.lvdm.modules.encoders.condition.FrozenOpenCLIPEmbedder
+      target: videotuna.lvdm.modules.encoders.condition.FrozenOpenCLIPEmbedder
       params:
         freeze: true
         layer: "penultimate"
 
     img_cond_stage_config:
-      target: src.lvdm.modules.encoders.condition.FrozenOpenCLIPImageEmbedderV2
+      target: videotuna.lvdm.modules.encoders.condition.FrozenOpenCLIPImageEmbedderV2
       params:
         freeze: true
 
     image_proj_stage_config:
-      target: src.lvdm.modules.encoders.ip_resampler.Resampler
+      target: videotuna.lvdm.modules.encoders.ip_resampler.Resampler
       params:
         dim: 1024
         depth: 4
@@ -111,21 +111,21 @@ model:
         video_length: 16
 
 data:
-  target: src.data.lightning_data.DataModuleFromConfig
+  target: videotuna.data.lightning_data.DataModuleFromConfig
   params:
     batch_size: 2
     num_workers: 16
     wrap: false
     train:
-      target: src.data.datasets.DatasetFromCSV
+      target: videotuna.data.datasets.DatasetFromCSV
       params:
         csv_path: Dataset/ToyDataset/toydataset.csv
         resolution: [576, 1024]
         video_length: 16
         frame_interval: 3
         train: True
     validation:
-      target: src.data.datasets.DatasetFromCSV
+      target: videotuna.data.datasets.DatasetFromCSV
       params:
         csv_path: Dataset/ToyDataset/toydataset.csv
         resolution: [576, 1024]
@@ -146,7 +146,7 @@ lightning:
     gradient_clip_val: 0.5
   callbacks:
     image_logger:
-      target: src.utils.callbacks.ImageLogger
+      target: videotuna.utils.callbacks.ImageLogger
       params:
         batch_frequency: 2
         save_dir: 'outputs/samples'