refactor: rename to MotifImage

Files changed (2) hide show

inference.py CHANGED Viewed

@@ -8,7 +8,7 @@ import numpy as np
 import torch
 import pickle
 from configs.configuration_mmdit import MMDiTConfig
-from models.modeling_motif_vision import MotifVision
 from safetensors.torch import load_file
 # from tools.motif_api import PromptRewriter
@@ -54,7 +54,7 @@ def main(args):
     config.height = args.resolution
     config.width = args.resolution
-    model = MotifVision(config)
     # Load checkpoint
     try:

 import torch
 import pickle
 from configs.configuration_mmdit import MMDiTConfig
+from models.modeling_motifimage import MotifImage
 from safetensors.torch import load_file
 # from tools.motif_api import PromptRewriter
     config.height = args.resolution
     config.width = args.resolution
+    model = MotifImage(config)
     # Load checkpoint
     try:

models/{modeling_motif_vision.py → modeling_motifimage.py} RENAMED Viewed

@@ -28,9 +28,9 @@ def generate_intervals(steps, ratio, start=1.0):
     return intervals
-class MotifVision(nn.Module, FlowMixin):
     """
-    MotifVision Text-to-Image model.
     This model combines a Diffusion transformer with a rectified flow loss and multiple text encoders.
     It uses a VAE (Variational Autoencoder) for image encoding and decoding.
@@ -128,7 +128,7 @@ class MotifVision(nn.Module, FlowMixin):
         self.text_encoders = [self.t5, self.clip_l, self.clip_g]
     def state_dict(self, destination=None, prefix="", keep_vars=False):
-        state_dict = super(MotifVision, self).state_dict(destination, prefix, keep_vars)
         exclude_keys = ["t5.", "clip_l.", "clip_g.", "vae."]
         for key in list(state_dict.keys()):
             if any(key.startswith(exclude_key) for exclude_key in exclude_keys):

     return intervals
+class MotifImage(nn.Module, FlowMixin):
     """
+    MotifImage Text-to-Image model.
     This model combines a Diffusion transformer with a rectified flow loss and multiple text encoders.
     It uses a VAE (Variational Autoencoder) for image encoding and decoding.
         self.text_encoders = [self.t5, self.clip_l, self.clip_g]
     def state_dict(self, destination=None, prefix="", keep_vars=False):
+        state_dict = super(MotifImage, self).state_dict(destination, prefix, keep_vars)
         exclude_keys = ["t5.", "clip_l.", "clip_g.", "vae."]
         for key in list(state_dict.keys()):
             if any(key.startswith(exclude_key) for exclude_key in exclude_keys):