refactor/motifimage

by beomgyu-kim - opened 29 days ago

←

Files changed (3) hide show

checkpoints/checkpoint.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:6eda25e5e3a73a1363eaf4aa98219af13237509f79195e6c4b37c0d1dd6b0d89
-size 23666150551

inference.py CHANGED Viewed

@@ -8,7 +8,7 @@ import numpy as np
 import torch
 import pickle
 from configs.configuration_mmdit import MMDiTConfig
-from models.modeling_motif_vision import MotifVision
 from safetensors.torch import load_file
 # from tools.motif_api import PromptRewriter
@@ -54,7 +54,7 @@ def main(args):
     config.height = args.resolution
     config.width = args.resolution
-    model = MotifVision(config)
     # Load checkpoint
     try:

 import torch
 import pickle
 from configs.configuration_mmdit import MMDiTConfig
+from models.modeling_motifimage import MotifImage
 from safetensors.torch import load_file
 # from tools.motif_api import PromptRewriter
     config.height = args.resolution
     config.width = args.resolution
+    model = MotifImage(config)
     # Load checkpoint
     try:

models/{modeling_motif_vision.py → modeling_motifimage.py} RENAMED Viewed

@@ -28,9 +28,9 @@ def generate_intervals(steps, ratio, start=1.0):
     return intervals
-class MotifVision(nn.Module, FlowMixin):
     """
-    MotifVision Text-to-Image model.
     This model combines a Diffusion transformer with a rectified flow loss and multiple text encoders.
     It uses a VAE (Variational Autoencoder) for image encoding and decoding.
@@ -128,7 +128,7 @@ class MotifVision(nn.Module, FlowMixin):
         self.text_encoders = [self.t5, self.clip_l, self.clip_g]
     def state_dict(self, destination=None, prefix="", keep_vars=False):
-        state_dict = super(MotifVision, self).state_dict(destination, prefix, keep_vars)
         exclude_keys = ["t5.", "clip_l.", "clip_g.", "vae."]
         for key in list(state_dict.keys()):
             if any(key.startswith(exclude_key) for exclude_key in exclude_keys):

     return intervals
+class MotifImage(nn.Module, FlowMixin):
     """
+    MotifImage Text-to-Image model.
     This model combines a Diffusion transformer with a rectified flow loss and multiple text encoders.
     It uses a VAE (Variational Autoencoder) for image encoding and decoding.
         self.text_encoders = [self.t5, self.clip_l, self.clip_g]
     def state_dict(self, destination=None, prefix="", keep_vars=False):
+        state_dict = super(MotifImage, self).state_dict(destination, prefix, keep_vars)
         exclude_keys = ["t5.", "clip_l.", "clip_g.", "vae."]
         for key in list(state_dict.keys()):
             if any(key.startswith(exclude_key) for exclude_key in exclude_keys):