shoukanghu-sony commited on 15 days ago

Commit

4eb3ee6

1 Parent(s): 857d5f0

upload checkpoint

Files changed (24) hide show

pretrained_models/humangif/DNA_Rendering/stage1_w_normal_w_nerf_guid_w_img_loss/saved_models/NeRF_renderer-150000.pth +3 -0
pretrained_models/humangif/DNA_Rendering/stage1_w_normal_w_nerf_guid_w_img_loss/saved_models/denoising_unet-150000.pth +3 -0
pretrained_models/humangif/DNA_Rendering/stage1_w_normal_w_nerf_guid_w_img_loss/saved_models/guidance_encoder_nerf-150000.pth +3 -0
pretrained_models/humangif/DNA_Rendering/stage1_w_normal_w_nerf_guid_w_img_loss/saved_models/guidance_encoder_normal-150000.pth +3 -0
pretrained_models/humangif/DNA_Rendering/stage1_w_normal_w_nerf_guid_w_img_loss/saved_models/reference_unet-150000.pth +3 -0
pretrained_models/humangif/DNA_Rendering/stage2_w_normal_w_nerf_guid_w_img_loss_w_view_attention/saved_models/view_module.pth +3 -0
pretrained_models/humangif/DNA_Rendering/stage3_w_normal_w_nerf_guid_w_img_loss_w_view_attention_w_motion_attention/saved_models/motion_module.pth +3 -0
pretrained_models/humangif/RenderPeople/stage1_w_normal_w_nerf_guid_w_img_loss/saved_models/NeRF_renderer-140000.pth +3 -0
pretrained_models/humangif/RenderPeople/stage1_w_normal_w_nerf_guid_w_img_loss/saved_models/denoising_unet-140000.pth +3 -0
pretrained_models/humangif/RenderPeople/stage1_w_normal_w_nerf_guid_w_img_loss/saved_models/guidance_encoder_nerf-140000.pth +3 -0
pretrained_models/humangif/RenderPeople/stage1_w_normal_w_nerf_guid_w_img_loss/saved_models/guidance_encoder_normal-140000.pth +3 -0
pretrained_models/humangif/RenderPeople/stage1_w_normal_w_nerf_guid_w_img_loss/saved_models/reference_unet-140000.pth +3 -0
pretrained_models/humangif/RenderPeople/stage2_w_normal_w_nerf_guid_w_img_loss_w_view_attention/saved_models/view_module.pth +3 -0
pretrained_models/humangif/RenderPeople/stage3_w_normal_w_nerf_guid_w_img_loss_w_view_attention_w_motion_attention/saved_models/motion_module.pth +3 -0
pretrained_models/image_encoder/config.json +23 -0
pretrained_models/image_encoder/pytorch_model.bin +3 -0
pretrained_models/sd-vae-ft-mse/config.json +29 -0
pretrained_models/sd-vae-ft-mse/diffusion_pytorch_model.bin +3 -0
pretrained_models/sd-vae-ft-mse/diffusion_pytorch_model.safetensors +3 -0
pretrained_models/stable-diffusion-v1-5/feature_extractor/preprocessor_config.json +20 -0
pretrained_models/stable-diffusion-v1-5/model_index.json +32 -0
pretrained_models/stable-diffusion-v1-5/unet/config.json +36 -0
pretrained_models/stable-diffusion-v1-5/unet/diffusion_pytorch_model.bin +3 -0
pretrained_models/stable-diffusion-v1-5/v1-inference.yaml +70 -0

pretrained_models/humangif/DNA_Rendering/stage1_w_normal_w_nerf_guid_w_img_loss/saved_models/NeRF_renderer-150000.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b48bec085529b2a479d6d6c40f7b66a4e1a4375a4a79566c8e51347bee595ff
+size 56726004

pretrained_models/humangif/DNA_Rendering/stage1_w_normal_w_nerf_guid_w_img_loss/saved_models/denoising_unet-150000.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a1146491f9f7ac36726fb2df4e7d68b79ba4e4f88aca1df81fdc524f7743755
+size 3438375954

pretrained_models/humangif/DNA_Rendering/stage1_w_normal_w_nerf_guid_w_img_loss/saved_models/guidance_encoder_nerf-150000.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f1c6bd73995273bc6a3c625f3b4bf339ab83646100f0a1d9b3778d5652066d3
+size 15394517

pretrained_models/humangif/DNA_Rendering/stage1_w_normal_w_nerf_guid_w_img_loss/saved_models/guidance_encoder_normal-150000.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:511875358266f0cf8367be8574cc44edaac639b5282782a1b9706301d455027b
+size 15394823

pretrained_models/humangif/DNA_Rendering/stage1_w_normal_w_nerf_guid_w_img_loss/saved_models/reference_unet-150000.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:67213041fd6bc5c1c6dd9904e58d22ac227672c46fdaffdbdff8a45b2dccc0c3
+size 3438325026

pretrained_models/humangif/DNA_Rendering/stage2_w_normal_w_nerf_guid_w_img_loss_w_view_attention/saved_models/view_module.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4b6ea535030c4c1625b8ddbf48987a10da5ff74ccc281744dd9faf56634d53c
+size 1767810138

pretrained_models/humangif/DNA_Rendering/stage3_w_normal_w_nerf_guid_w_img_loss_w_view_attention_w_motion_attention/saved_models/motion_module.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:530e47c7ab4ac50ef0148b75a3ce93eb71c882fdb03907aeb0d1a9282e0606bd
+size 1772245854

pretrained_models/humangif/RenderPeople/stage1_w_normal_w_nerf_guid_w_img_loss/saved_models/NeRF_renderer-140000.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b3f72e93f4bb913872a2cbae5d267dd48fd610ec1da330c5473539ab83cf59c0
+size 56726772

pretrained_models/humangif/RenderPeople/stage1_w_normal_w_nerf_guid_w_img_loss/saved_models/denoising_unet-140000.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a8342658e0d9a9520afc3db956993157f9933aeb162fde89acf4ae3c57ca51c8
+size 3438375954

pretrained_models/humangif/RenderPeople/stage1_w_normal_w_nerf_guid_w_img_loss/saved_models/guidance_encoder_nerf-140000.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1cd08fd84911cf342dabc691af593cf9d023ee48a7e54ee82dee893ba5c37331
+size 15396245

pretrained_models/humangif/RenderPeople/stage1_w_normal_w_nerf_guid_w_img_loss/saved_models/guidance_encoder_normal-140000.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a24c6a697b55da3021ae4ac1c7eb1c409b633cda91cfa2358483a8c93bfe4b99
+size 15394823

pretrained_models/humangif/RenderPeople/stage1_w_normal_w_nerf_guid_w_img_loss/saved_models/reference_unet-140000.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f72fa4f732ed51a854a706d0c2158adb97747d92812a9aec4e5cdb8db2d27a6
+size 3438325026

pretrained_models/humangif/RenderPeople/stage2_w_normal_w_nerf_guid_w_img_loss_w_view_attention/saved_models/view_module.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fb72ebf3a81bda48df49fe6a69f179e255fee9c3ea0a1872a5a8f26f2c8add41
+size 1767809718

pretrained_models/humangif/RenderPeople/stage3_w_normal_w_nerf_guid_w_img_loss_w_view_attention_w_motion_attention/saved_models/motion_module.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:56faa17f65877283602b3d9c3253f5109a7cd5542306f0f5a8645c2530019d2b
+size 1772245854

pretrained_models/image_encoder/config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "_name_or_path": "/home/jpinkney/.cache/huggingface/diffusers/models--lambdalabs--sd-image-variations-diffusers/snapshots/ca6f97f838ae1b5bf764f31363a21f388f4d8f3e/image_encoder",
+  "architectures": [
+    "CLIPVisionModelWithProjection"
+  ],
+  "attention_dropout": 0.0,
+  "dropout": 0.0,
+  "hidden_act": "quick_gelu",
+  "hidden_size": 1024,
+  "image_size": 224,
+  "initializer_factor": 1.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "model_type": "clip_vision_model",
+  "num_attention_heads": 16,
+  "num_channels": 3,
+  "num_hidden_layers": 24,
+  "patch_size": 14,
+  "projection_dim": 768,
+  "torch_dtype": "float32",
+  "transformers_version": "4.25.1"
+}

pretrained_models/image_encoder/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89d2aa29b5fdf64f3ad4f45fb4227ea98bc45156bbae673b85be1af7783dbabb
+size 1215993967

pretrained_models/sd-vae-ft-mse/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "_class_name": "AutoencoderKL",
+  "_diffusers_version": "0.4.2",
+  "act_fn": "silu",
+  "block_out_channels": [
+    128,
+    256,
+    512,
+    512
+  ],
+  "down_block_types": [
+    "DownEncoderBlock2D",
+    "DownEncoderBlock2D",
+    "DownEncoderBlock2D",
+    "DownEncoderBlock2D"
+  ],
+  "in_channels": 3,
+  "latent_channels": 4,
+  "layers_per_block": 2,
+  "norm_num_groups": 32,
+  "out_channels": 3,
+  "sample_size": 256,
+  "up_block_types": [
+    "UpDecoderBlock2D",
+    "UpDecoderBlock2D",
+    "UpDecoderBlock2D",
+    "UpDecoderBlock2D"
+  ]
+}

pretrained_models/sd-vae-ft-mse/diffusion_pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b4889b6b1d4ce7ae320a02dedaeff1780ad77d415ea0d744b476155c6377ddc
+size 334707217

pretrained_models/sd-vae-ft-mse/diffusion_pytorch_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a1d993488569e928462932c8c38a0760b874d166399b14414135bd9c42df5815
+size 334643276

pretrained_models/stable-diffusion-v1-5/feature_extractor/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+  "crop_size": 224,
+  "do_center_crop": true,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_resize": true,
+  "feature_extractor_type": "CLIPFeatureExtractor",
+  "image_mean": [
+    0.48145466,
+    0.4578275,
+    0.40821073
+  ],
+  "image_std": [
+    0.26862954,
+    0.26130258,
+    0.27577711
+  ],
+  "resample": 3,
+  "size": 224
+}

pretrained_models/stable-diffusion-v1-5/model_index.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_class_name": "StableDiffusionPipeline",
+  "_diffusers_version": "0.6.0",
+  "feature_extractor": [
+    "transformers",
+    "CLIPImageProcessor"
+  ],
+  "safety_checker": [
+    "stable_diffusion",
+    "StableDiffusionSafetyChecker"
+  ],
+  "scheduler": [
+    "diffusers",
+    "PNDMScheduler"
+  ],
+  "text_encoder": [
+    "transformers",
+    "CLIPTextModel"
+  ],
+  "tokenizer": [
+    "transformers",
+    "CLIPTokenizer"
+  ],
+  "unet": [
+    "diffusers",
+    "UNet2DConditionModel"
+  ],
+  "vae": [
+    "diffusers",
+    "AutoencoderKL"
+  ]
+}

pretrained_models/stable-diffusion-v1-5/unet/config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "_class_name": "UNet2DConditionModel",
+  "_diffusers_version": "0.6.0",
+  "act_fn": "silu",
+  "attention_head_dim": 8,
+  "block_out_channels": [
+    320,
+    640,
+    1280,
+    1280
+  ],
+  "center_input_sample": false,
+  "cross_attention_dim": 768,
+  "down_block_types": [
+    "CrossAttnDownBlock2D",
+    "CrossAttnDownBlock2D",
+    "CrossAttnDownBlock2D",
+    "DownBlock2D"
+  ],
+  "downsample_padding": 1,
+  "flip_sin_to_cos": true,
+  "freq_shift": 0,
+  "in_channels": 4,
+  "layers_per_block": 2,
+  "mid_block_scale_factor": 1,
+  "norm_eps": 1e-05,
+  "norm_num_groups": 32,
+  "out_channels": 4,
+  "sample_size": 64,
+  "up_block_types": [
+    "UpBlock2D",
+    "CrossAttnUpBlock2D",
+    "CrossAttnUpBlock2D",
+    "CrossAttnUpBlock2D"
+  ]
+}

pretrained_models/stable-diffusion-v1-5/unet/diffusion_pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7da0e21ba7ea50637bee26e81c220844defdf01aafca02b2c42ecdadb813de4
+size 3438354725

pretrained_models/stable-diffusion-v1-5/v1-inference.yaml ADDED Viewed

	@@ -0,0 +1,70 @@

+model:
+  base_learning_rate: 1.0e-04
+  target: ldm.models.diffusion.ddpm.LatentDiffusion
+  params:
+    linear_start: 0.00085
+    linear_end: 0.0120
+    num_timesteps_cond: 1
+    log_every_t: 200
+    timesteps: 1000
+    first_stage_key: "jpg"
+    cond_stage_key: "txt"
+    image_size: 64
+    channels: 4
+    cond_stage_trainable: false   # Note: different from the one we trained before
+    conditioning_key: crossattn
+    monitor: val/loss_simple_ema
+    scale_factor: 0.18215
+    use_ema: False
+    scheduler_config: # 10000 warmup steps
+      target: ldm.lr_scheduler.LambdaLinearScheduler
+      params:
+        warm_up_steps: [ 10000 ]
+        cycle_lengths: [ 10000000000000 ] # incredibly large number to prevent corner cases
+        f_start: [ 1.e-6 ]
+        f_max: [ 1. ]
+        f_min: [ 1. ]
+    unet_config:
+      target: ldm.modules.diffusionmodules.openaimodel.UNetModel
+      params:
+        image_size: 32 # unused
+        in_channels: 4
+        out_channels: 4
+        model_channels: 320
+        attention_resolutions: [ 4, 2, 1 ]
+        num_res_blocks: 2
+        channel_mult: [ 1, 2, 4, 4 ]
+        num_heads: 8
+        use_spatial_transformer: True
+        transformer_depth: 1
+        context_dim: 768
+        use_checkpoint: True
+        legacy: False
+    first_stage_config:
+      target: ldm.models.autoencoder.AutoencoderKL
+      params:
+        embed_dim: 4
+        monitor: val/rec_loss
+        ddconfig:
+          double_z: true
+          z_channels: 4
+          resolution: 256
+          in_channels: 3
+          out_ch: 3
+          ch: 128
+          ch_mult:
+          - 1
+          - 2
+          - 4
+          - 4
+          num_res_blocks: 2
+          attn_resolutions: []
+          dropout: 0.0
+        lossconfig:
+          target: torch.nn.Identity
+    cond_stage_config:
+      target: ldm.modules.encoders.modules.FrozenCLIPEmbedder