shoukanghu-sony commited on 13 days ago

Commit

43f43ae

1 Parent(s): 71ee9f0

initial commit

Files changed (23) hide show

eval_fvd/i3d_pretrained_400.pt +3 -0
eval_fvd/resnet-50-kinetics.pth +3 -0
pkgs/pretrained_models/DWPose/dw-ll_ucoco_384.onnx +3 -0
pkgs/pretrained_models/DWPose/yolox_l.onnx +3 -0
pkgs/pretrained_models/__init__.py +19 -0
pkgs/pretrained_models/detectron2/model_final_f05665.pkl +3 -0
pkgs/pretrained_models/download.py +60 -0
pkgs/pretrained_models/hmr2/data/SMPL_to_J19.pkl +3 -0
pkgs/pretrained_models/hmr2/data/smpl_mean_params.npz +3 -0
pkgs/pretrained_models/hmr2/logs/train/multiruns/hmr2/0/checkpoints/epoch=35-step=1000000.ckpt +3 -0
pkgs/pretrained_models/hmr2/logs/train/multiruns/hmr2/0/dataset_config.yaml +112 -0
pkgs/pretrained_models/hmr2/logs/train/multiruns/hmr2/0/model_config.yaml +148 -0
pkgs/pretrained_models/image_encoder/config.json +23 -0
pkgs/pretrained_models/image_encoder/pytorch_model.bin +3 -0
pkgs/pretrained_models/sd-vae-ft-mse/config.json +29 -0
pkgs/pretrained_models/sd-vae-ft-mse/diffusion_pytorch_model.bin +3 -0
pkgs/pretrained_models/sd-vae-ft-mse/diffusion_pytorch_model.safetensors +3 -0
pkgs/pretrained_models/smpl/SMPL_NEUTRAL.pkl +3 -0
pkgs/pretrained_models/stable-diffusion-v1-5/feature_extractor/preprocessor_config.json +20 -0
pkgs/pretrained_models/stable-diffusion-v1-5/model_index.json +32 -0
pkgs/pretrained_models/stable-diffusion-v1-5/unet/config.json +36 -0
pkgs/pretrained_models/stable-diffusion-v1-5/unet/diffusion_pytorch_model.bin +3 -0
pkgs/pretrained_models/stable-diffusion-v1-5/v1-inference.yaml +70 -0

eval_fvd/i3d_pretrained_400.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55095f049e706479d48e221adcdb145b2b9dc930ba28b081ed72367ffaa32343
+size 50939526

eval_fvd/resnet-50-kinetics.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69b6a070ed1004c3b28a1751d5bc60f7dfd24d145425db32719989544d6dafc9
+size 376424414

pkgs/pretrained_models/DWPose/dw-ll_ucoco_384.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:724f4ff2439ed61afb86fb8a1951ec39c6220682803b4a8bd4f598cd913b1843
+size 134399116

pkgs/pretrained_models/DWPose/yolox_l.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7860ae79de6c89a3c1eb72ae9a2756c0ccfbe04b7791bb5880afabd97855a411
+size 216746733

pkgs/pretrained_models/__init__.py ADDED Viewed

	@@ -0,0 +1,19 @@

+import os
+from pathlib import Path
+PRETRAIN_MODELS_DIR = os.path.join(
+    Path(__file__).parent.parent.parent, "pretrained_models"
+)
+HMR2_MODELS_DIR = f"{PRETRAIN_MODELS_DIR}/hmr2"
+HMR2_DEFAULT_CKPT = f"{HMR2_MODELS_DIR}/logs/train/multiruns/hmr2/0/checkpoints/epoch=35-step=1000000.ckpt"
+SMPL_MODEL_DIR = f"{PRETRAIN_MODELS_DIR}/smpl"
+SMPL_MODEL_PATH = f"{SMPL_MODEL_DIR}/SMPL_NEUTRAL.pkl"
+DETECTRON2_MODEL_DIR = f"{PRETRAIN_MODELS_DIR}/detectron2"
+DETECTRON2_MODEL_PATH = f"{DETECTRON2_MODEL_DIR}/model_final_f05665.pkl"
+DWPOSE_MODEL_DIR = f"{PRETRAIN_MODELS_DIR}/DWPose"
+YOLO_L_MODEL_PATH = f"{DWPOSE_MODEL_DIR}/yolox_l.onnx"
+DWPOSE_MODEL_PATH = f"{DWPOSE_MODEL_DIR}/dw-ll_ucoco_384.onnx"

pkgs/pretrained_models/detectron2/model_final_f05665.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8601bc52000c8a87960f3db6a9672596c5e06ce33bc30a3b8f96a96efe42ae60
+size 2765948277

pkgs/pretrained_models/download.py ADDED Viewed

	@@ -0,0 +1,60 @@

+import os
+import argparse
+from pathlib import Path
+from hmr2.models import download_models
+from scripts.pretrained_models import (
+    DETECTRON2_MODEL_DIR,
+    DETECTRON2_MODEL_PATH,
+    HMR2_MODELS_DIR,
+    PRETRAIN_MODELS_DIR,
+    SMPL_MODEL_DIR,
+    SMPL_MODEL_PATH,
+)
+from utils.download import download
+def download_hmr2_models():
+    if not os.path.exists(HMR2_MODELS_DIR):
+        os.makedirs(HMR2_MODELS_DIR)
+    download_models(HMR2_MODELS_DIR)
+def download_smpl_model():
+    if not os.path.exists(SMPL_MODEL_DIR):
+        os.makedirs(SMPL_MODEL_DIR)
+    print(
+        f"Please download smpl model from https://smplify.is.tue.mpg.de/, and place it in {SMPL_MODEL_PATH}"
+    )
+def download_detectron2_model():
+    if not os.path.exists(DETECTRON2_MODEL_DIR):
+        os.makedirs(DETECTRON2_MODEL_DIR)
+    download(
+        "https://dl.fbaipublicfiles.com/detectron2/ViTDet/COCO/cascade_mask_rcnn_vitdet_h/f328730692/model_final_f05665.pkl",
+        output=Path(DETECTRON2_MODEL_PATH),
+    )
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser(description="model downloader")
+    parser.add_argument("--all", type=bool, help="download all models")
+    parser.add_argument("--hmr2", type=bool, help="download hmr2 models only")
+    parser.add_argument("--smpl", type=bool, help="download smpl models only")
+    parser.add_argument(
+        "--detectron2", type=bool, help="download detectron2 models only"
+    )
+    args = parser.parse_args()
+    if args.hmr2:
+        download_hmr2_models()
+    if args.detectron2:
+        download_detectron2_model()
+    if args.smpl:
+        download_smpl_model()
+    if args.all:
+        download_hmr2_models()
+        download_smpl_model()
+        download_detectron2_model()

pkgs/pretrained_models/hmr2/data/SMPL_to_J19.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a66e340412ebd320a5c694bee5fb2674f700736709bbdd93859e970f0e59f47c
+size 1047441

pkgs/pretrained_models/hmr2/data/smpl_mean_params.npz ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6fd6dd687800da946d0a0492383f973b92ec20f166a0b829775882868c35fcdd
+size 1310

pkgs/pretrained_models/hmr2/logs/train/multiruns/hmr2/0/checkpoints/epoch=35-step=1000000.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9ea09c834161468638c9de7a782c614e300c622709bf52967274c543ec72fcf
+size 2709521501

pkgs/pretrained_models/hmr2/logs/train/multiruns/hmr2/0/dataset_config.yaml ADDED Viewed

	@@ -0,0 +1,112 @@

+3DPW-TEST:
+  KEYPOINT_LIST:
+  - 25
+  - 26
+  - 27
+  - 28
+  - 29
+  - 30
+  - 31
+  - 32
+  - 33
+  - 34
+  - 35
+  - 36
+  - 37
+  - 43
+  TYPE: ImageDataset
+  URLS: /fsx/shubham/data/hmr2023_data_shuffled_new/3dpw-test/{000000..000012}.tar
+  USE_HIPS: false
+AIC-TRAIN:
+  TYPE: ImageDataset
+  URLS: /fsx/shubham/data/hmr2023_data_shuffled/aic-train/{000000..000104}.tar
+  epoch_size: 200000
+AIC-TRAIN-WMASK:
+  TYPE: ImageDataset
+  URLS: /fsx/shubham/data/hmr2023_data_shuffled_wmasks/aic-train-vitpose/{000000..000104}.tar
+  epoch_size: 200000
+AVA-TRAIN-MIDFRAMES-1FPS:
+  TYPE: ImageDataset
+  URLS: /fsx/shubham/data/hmr2023_data_shuffled/ava-train-midframes-1fps/{000000..000092}.tar
+  epoch_size: 200000
+AVA-TRAIN-MIDFRAMES-1FPS-WMASK:
+  TYPE: ImageDataset
+  URLS: /fsx/shubham/data/hmr2023_data_shuffled_wmasks/ava-train-midframes-1fps-vitpose/{000000..000092}.tar
+  epoch_size: 200000
+CMU-MOCAP:
+  DATASET_FILE: /fsx/shubham/code/hmr2023/data/datasets/cmu_mocap.npz
+COCO-TRAIN-2014:
+  TYPE: ImageDataset
+  URLS: /fsx/shubham/data/hmr2023_data_shuffled/coco-train-2014/{000000..000017}.tar
+  epoch_size: 360000
+COCO-TRAIN-2014-VITPOSE-REPLICATE-PRUNED12:
+  TYPE: ImageDataset
+  URLS: /fsx/shubham/data/hmr2023_data_shuffled_wmasks/coco-train-2014-vitpose-replicate-pruned12/{000000..000044}.tar
+  epoch_size: 45000
+COCO-TRAIN-2014-WMASK:
+  TYPE: ImageDataset
+  URLS: /fsx/shubham/data/hmr2023_data_shuffled_wmasks/coco-train-2014/{000000..000034}.tar
+  epoch_size: 35000
+COCO-TRAIN-2014-WMASK-PRUNED:
+  TYPE: ImageDataset
+  URLS: /fsx/shubham/data/hmr2023_data_shuffled_wmasks/coco-train-2014-pruned/{000000..000017}.tar
+  epoch_size: 18000
+COCO-VAL:
+  KEYPOINT_LIST:
+  - 0
+  TYPE: ImageDataset
+  URLS: /fsx/shubham/data/hmr2023_data_shuffled/coco-val/{000000..000000}.tar
+H36M-TRAIN:
+  TYPE: ImageDataset
+  URLS: /fsx/shubham/data/hmr2023_data_shuffled/h36m-train/{000000..000156}.tar
+  epoch_size: 314000
+H36M-TRAIN-WMASK:
+  TYPE: ImageDataset
+  URLS: /fsx/shubham/data/hmr2023_data_shuffled_wmasks/h36m-train/{000000..000312}.tar
+  epoch_size: 314000
+H36M-VAL-P2:
+  KEYPOINT_LIST:
+  - 25
+  - 26
+  - 27
+  - 28
+  - 29
+  - 30
+  - 31
+  - 32
+  - 33
+  - 34
+  - 35
+  - 36
+  - 37
+  - 43
+  TYPE: ImageDataset
+  URLS: /fsx/shubham/data/hmr2023_data_shuffled_new/h36m-val-p2/{000000..000013}.tar
+  USE_HIPS: true
+H36M-VAL-P2-OPENPOSE:
+  TYPE: ImageDataset
+  URLS: /fsx/shubham/data/hmr2023_data_shuffled_new/h36m-val-p2-openpose/{000000..000013}.tar
+INSTA-TRAIN:
+  TYPE: ImageDataset
+  URLS: /fsx/shubham/data/hmr2023_data_shuffled/insta-train/{000000..001828}.tar
+  epoch_size: 4000000
+INSTA-TRAIN-WMASK:
+  TYPE: ImageDataset
+  URLS: /fsx/shubham/data/hmr2023_data_shuffled_wmasks/insta-train-vitpose/{000000..001828}.tar
+  epoch_size: 4000000
+MPI-INF-TRAIN:
+  TYPE: ImageDataset
+  URLS: /fsx/shubham/data/hmr2023_data_shuffled/mpi-inf-train/{000000..000048}.tar
+  epoch_size: 100000
+MPI-INF-TRAIN-PRUNED:
+  TYPE: ImageDataset
+  URLS: /fsx/shubham/data/hmr2023_data_shuffled_new/mpi-inf-train-pruned/{000000..00006}.tar
+  epoch_size: 12000
+MPII-TRAIN:
+  TYPE: ImageDataset
+  URLS: /fsx/shubham/data/hmr2023_data_shuffled/mpii-train/{000000..000004}.tar
+  epoch_size: 100000
+MPII-TRAIN-WMASK:
+  TYPE: ImageDataset
+  URLS: /fsx/shubham/data/hmr2023_data_shuffled_wmasks/mpii-train/{000000..000009}.tar
+  epoch_size: 100000

pkgs/pretrained_models/hmr2/logs/train/multiruns/hmr2/0/model_config.yaml ADDED Viewed

	@@ -0,0 +1,148 @@

+task_name: train
+tags:
+- dev
+train: true
+test: false
+ckpt_path: null
+seed: null
+DATASETS:
+  SUPPRESS_KP_CONF_THRESH: 0.3
+  FILTER_NUM_KP: 4
+  FILTER_NUM_KP_THRESH: 0.0
+  FILTER_REPROJ_THRESH: 31000
+  SUPPRESS_BETAS_THRESH: 3.0
+  SUPPRESS_BAD_POSES: true
+  POSES_BETAS_SIMULTANEOUS: true
+  FILTER_NO_POSES: false
+  TRAIN:
+    H36M-TRAIN-WMASK:
+      WEIGHT: 0.1
+    MPII-TRAIN-WMASK:
+      WEIGHT: 0.1
+    COCO-TRAIN-2014-WMASK-PRUNED:
+      WEIGHT: 0.1
+    COCO-TRAIN-2014-VITPOSE-REPLICATE-PRUNED12:
+      WEIGHT: 0.1
+    MPI-INF-TRAIN-PRUNED:
+      WEIGHT: 0.02
+    AVA-TRAIN-MIDFRAMES-1FPS-WMASK:
+      WEIGHT: 0.19
+    AIC-TRAIN-WMASK:
+      WEIGHT: 0.19
+    INSTA-TRAIN-WMASK:
+      WEIGHT: 0.2
+  VAL:
+    COCO-VAL:
+      WEIGHT: 1.0
+  MOCAP: CMU-MOCAP
+  CONFIG:
+    SCALE_FACTOR: 0.3
+    ROT_FACTOR: 30
+    TRANS_FACTOR: 0.02
+    COLOR_SCALE: 0.2
+    ROT_AUG_RATE: 0.6
+    TRANS_AUG_RATE: 0.5
+    DO_FLIP: true
+    FLIP_AUG_RATE: 0.5
+    EXTREME_CROP_AUG_RATE: 0.1
+    EXTREME_CROP_AUG_LEVEL: 1
+  BETAS_REG: true
+trainer:
+  _target_: pytorch_lightning.Trainer
+  default_root_dir: ${paths.output_dir}
+  accelerator: gpu
+  devices: 8
+  deterministic: false
+  num_sanity_val_steps: 0
+  log_every_n_steps: ${GENERAL.LOG_STEPS}
+  val_check_interval: ${GENERAL.VAL_STEPS}
+  precision: 16
+  max_steps: ${GENERAL.TOTAL_STEPS}
+  move_metrics_to_cpu: true
+  limit_val_batches: 1
+  track_grad_norm: -1
+  strategy: ddp
+  num_nodes: 1
+  sync_batchnorm: true
+paths:
+  root_dir: ${oc.env:PROJECT_ROOT}
+  data_dir: ${paths.root_dir}/data/
+  log_dir: /fsx/shubham/code/hmr2023/logs_hydra/
+  output_dir: ${hydra:runtime.output_dir}
+  work_dir: ${hydra:runtime.cwd}
+extras:
+  ignore_warnings: false
+  enforce_tags: true
+  print_config: true
+exp_name: hmr2
+SMPL:
+  MODEL_PATH: data/smpl
+  GENDER: neutral
+  NUM_BODY_JOINTS: 23
+  JOINT_REGRESSOR_EXTRA: data/SMPL_to_J19.pkl
+  MEAN_PARAMS: data/smpl_mean_params.npz
+EXTRA:
+  FOCAL_LENGTH: 5000
+  NUM_LOG_IMAGES: 4
+  NUM_LOG_SAMPLES_PER_IMAGE: 8
+  PELVIS_IND: 39
+MODEL:
+  IMAGE_SIZE: 256
+  IMAGE_MEAN:
+  - 0.485
+  - 0.456
+  - 0.406
+  IMAGE_STD:
+  - 0.229
+  - 0.224
+  - 0.225
+  BACKBONE:
+    TYPE: vit
+    NUM_LAYERS: 50
+    OUT_CHANNELS: 2048
+  ADD_NECK: false
+  FLOW:
+    DIM: 144
+    NUM_LAYERS: 4
+    CONTEXT_FEATURES: 2048
+    LAYER_HIDDEN_FEATURES: 1024
+    LAYER_DEPTH: 2
+  FC_HEAD:
+    NUM_FEATURES: 1024
+  SMPL_HEAD:
+    TYPE: transformer_decoder
+    IN_CHANNELS: 2048
+    TRANSFORMER_DECODER:
+      depth: 6
+      heads: 8
+      mlp_dim: 1024
+      dim_head: 64
+      dropout: 0.0
+      emb_dropout: 0.0
+      norm: layer
+      context_dim: 1280
+GENERAL:
+  TOTAL_STEPS: 1000000
+  LOG_STEPS: 1000
+  VAL_STEPS: 1000
+  CHECKPOINT_STEPS: 10000
+  CHECKPOINT_SAVE_TOP_K: 1
+  NUM_WORKERS: 6
+  PREFETCH_FACTOR: 2
+TRAIN:
+  LR: 1.0e-05
+  WEIGHT_DECAY: 0.0001
+  BATCH_SIZE: 48
+  LOSS_REDUCTION: mean
+  NUM_TRAIN_SAMPLES: 2
+  NUM_TEST_SAMPLES: 64
+  POSE_2D_NOISE_RATIO: 0.01
+  SMPL_PARAM_NOISE_RATIO: 0.005
+LOSS_WEIGHTS:
+  KEYPOINTS_3D: 0.05
+  KEYPOINTS_2D: 0.01
+  GLOBAL_ORIENT: 0.001
+  BODY_POSE: 0.001
+  BETAS: 0.0005
+  ADVERSARIAL: 0.0005
+local: {}

pkgs/pretrained_models/image_encoder/config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "_name_or_path": "/home/jpinkney/.cache/huggingface/diffusers/models--lambdalabs--sd-image-variations-diffusers/snapshots/ca6f97f838ae1b5bf764f31363a21f388f4d8f3e/image_encoder",
+  "architectures": [
+    "CLIPVisionModelWithProjection"
+  ],
+  "attention_dropout": 0.0,
+  "dropout": 0.0,
+  "hidden_act": "quick_gelu",
+  "hidden_size": 1024,
+  "image_size": 224,
+  "initializer_factor": 1.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "model_type": "clip_vision_model",
+  "num_attention_heads": 16,
+  "num_channels": 3,
+  "num_hidden_layers": 24,
+  "patch_size": 14,
+  "projection_dim": 768,
+  "torch_dtype": "float32",
+  "transformers_version": "4.25.1"
+}

pkgs/pretrained_models/image_encoder/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89d2aa29b5fdf64f3ad4f45fb4227ea98bc45156bbae673b85be1af7783dbabb
+size 1215993967

pkgs/pretrained_models/sd-vae-ft-mse/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "_class_name": "AutoencoderKL",
+  "_diffusers_version": "0.4.2",
+  "act_fn": "silu",
+  "block_out_channels": [
+    128,
+    256,
+    512,
+    512
+  ],
+  "down_block_types": [
+    "DownEncoderBlock2D",
+    "DownEncoderBlock2D",
+    "DownEncoderBlock2D",
+    "DownEncoderBlock2D"
+  ],
+  "in_channels": 3,
+  "latent_channels": 4,
+  "layers_per_block": 2,
+  "norm_num_groups": 32,
+  "out_channels": 3,
+  "sample_size": 256,
+  "up_block_types": [
+    "UpDecoderBlock2D",
+    "UpDecoderBlock2D",
+    "UpDecoderBlock2D",
+    "UpDecoderBlock2D"
+  ]
+}

pkgs/pretrained_models/sd-vae-ft-mse/diffusion_pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b4889b6b1d4ce7ae320a02dedaeff1780ad77d415ea0d744b476155c6377ddc
+size 334707217

pkgs/pretrained_models/sd-vae-ft-mse/diffusion_pytorch_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a1d993488569e928462932c8c38a0760b874d166399b14414135bd9c42df5815
+size 334643276

pkgs/pretrained_models/smpl/SMPL_NEUTRAL.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:98e65c74ad9b998783132f00880d1025a8d64b158e040e6ef13a557e5098bc42
+size 39001280

pkgs/pretrained_models/stable-diffusion-v1-5/feature_extractor/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+  "crop_size": 224,
+  "do_center_crop": true,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_resize": true,
+  "feature_extractor_type": "CLIPFeatureExtractor",
+  "image_mean": [
+    0.48145466,
+    0.4578275,
+    0.40821073
+  ],
+  "image_std": [
+    0.26862954,
+    0.26130258,
+    0.27577711
+  ],
+  "resample": 3,
+  "size": 224
+}

pkgs/pretrained_models/stable-diffusion-v1-5/model_index.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_class_name": "StableDiffusionPipeline",
+  "_diffusers_version": "0.6.0",
+  "feature_extractor": [
+    "transformers",
+    "CLIPImageProcessor"
+  ],
+  "safety_checker": [
+    "stable_diffusion",
+    "StableDiffusionSafetyChecker"
+  ],
+  "scheduler": [
+    "diffusers",
+    "PNDMScheduler"
+  ],
+  "text_encoder": [
+    "transformers",
+    "CLIPTextModel"
+  ],
+  "tokenizer": [
+    "transformers",
+    "CLIPTokenizer"
+  ],
+  "unet": [
+    "diffusers",
+    "UNet2DConditionModel"
+  ],
+  "vae": [
+    "diffusers",
+    "AutoencoderKL"
+  ]
+}

pkgs/pretrained_models/stable-diffusion-v1-5/unet/config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "_class_name": "UNet2DConditionModel",
+  "_diffusers_version": "0.6.0",
+  "act_fn": "silu",
+  "attention_head_dim": 8,
+  "block_out_channels": [
+    320,
+    640,
+    1280,
+    1280
+  ],
+  "center_input_sample": false,
+  "cross_attention_dim": 768,
+  "down_block_types": [
+    "CrossAttnDownBlock2D",
+    "CrossAttnDownBlock2D",
+    "CrossAttnDownBlock2D",
+    "DownBlock2D"
+  ],
+  "downsample_padding": 1,
+  "flip_sin_to_cos": true,
+  "freq_shift": 0,
+  "in_channels": 4,
+  "layers_per_block": 2,
+  "mid_block_scale_factor": 1,
+  "norm_eps": 1e-05,
+  "norm_num_groups": 32,
+  "out_channels": 4,
+  "sample_size": 64,
+  "up_block_types": [
+    "UpBlock2D",
+    "CrossAttnUpBlock2D",
+    "CrossAttnUpBlock2D",
+    "CrossAttnUpBlock2D"
+  ]
+}

pkgs/pretrained_models/stable-diffusion-v1-5/unet/diffusion_pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7da0e21ba7ea50637bee26e81c220844defdf01aafca02b2c42ecdadb813de4
+size 3438354725

pkgs/pretrained_models/stable-diffusion-v1-5/v1-inference.yaml ADDED Viewed

	@@ -0,0 +1,70 @@

+model:
+  base_learning_rate: 1.0e-04
+  target: ldm.models.diffusion.ddpm.LatentDiffusion
+  params:
+    linear_start: 0.00085
+    linear_end: 0.0120
+    num_timesteps_cond: 1
+    log_every_t: 200
+    timesteps: 1000
+    first_stage_key: "jpg"
+    cond_stage_key: "txt"
+    image_size: 64
+    channels: 4
+    cond_stage_trainable: false   # Note: different from the one we trained before
+    conditioning_key: crossattn
+    monitor: val/loss_simple_ema
+    scale_factor: 0.18215
+    use_ema: False
+    scheduler_config: # 10000 warmup steps
+      target: ldm.lr_scheduler.LambdaLinearScheduler
+      params:
+        warm_up_steps: [ 10000 ]
+        cycle_lengths: [ 10000000000000 ] # incredibly large number to prevent corner cases
+        f_start: [ 1.e-6 ]
+        f_max: [ 1. ]
+        f_min: [ 1. ]
+    unet_config:
+      target: ldm.modules.diffusionmodules.openaimodel.UNetModel
+      params:
+        image_size: 32 # unused
+        in_channels: 4
+        out_channels: 4
+        model_channels: 320
+        attention_resolutions: [ 4, 2, 1 ]
+        num_res_blocks: 2
+        channel_mult: [ 1, 2, 4, 4 ]
+        num_heads: 8
+        use_spatial_transformer: True
+        transformer_depth: 1
+        context_dim: 768
+        use_checkpoint: True
+        legacy: False
+    first_stage_config:
+      target: ldm.models.autoencoder.AutoencoderKL
+      params:
+        embed_dim: 4
+        monitor: val/rec_loss
+        ddconfig:
+          double_z: true
+          z_channels: 4
+          resolution: 256
+          in_channels: 3
+          out_ch: 3
+          ch: 128
+          ch_mult:
+          - 1
+          - 2
+          - 4
+          - 4
+          num_res_blocks: 2
+          attn_resolutions: []
+          dropout: 0.0
+        lossconfig:
+          target: torch.nn.Identity
+    cond_stage_config:
+      target: ldm.modules.encoders.modules.FrozenCLIPEmbedder