danielpikl
/

killabee777

Model card Files Files and versions Community

killabee777 / examples /unconditional_image_generation /train_unconditional.py

danielpikl

Add stable diffusion weights

af7c068 over 2 years ago

raw

history blame contribute delete

17.1 kB

	import argparse
	import inspect
	import math
	import os
	from pathlib import Path
	from typing import Optional

	import torch
	import torch.nn.functional as F

	from accelerate import Accelerator
	from accelerate.logging import get_logger
	from datasets import load_dataset
	from diffusers import DDPMPipeline, DDPMScheduler, UNet2DModel, __version__
	from diffusers.optimization import get_scheduler
	from diffusers.training_utils import EMAModel
	from diffusers.utils import deprecate
	from huggingface_hub import HfFolder, Repository, whoami
	from packaging import version
	from torchvision.transforms import (
	CenterCrop,
	Compose,
	InterpolationMode,
	Normalize,
	RandomHorizontalFlip,
	Resize,
	ToTensor,
	)
	from tqdm.auto import tqdm


	logger = get_logger(__name__)
	diffusers_version = version.parse(version.parse(__version__).base_version)


	def _extract_into_tensor(arr, timesteps, broadcast_shape):
	"""
	Extract values from a 1-D numpy array for a batch of indices.

	:param arr: the 1-D numpy array.
	:param timesteps: a tensor of indices into the array to extract.
	:param broadcast_shape: a larger shape of K dimensions with the batch
	dimension equal to the length of timesteps.
	:return: a tensor of shape [batch_size, 1, ...] where the shape has K dims.
	"""
	if not isinstance(arr, torch.Tensor):
	arr = torch.from_numpy(arr)
	res = arr[timesteps].float().to(timesteps.device)
	while len(res.shape) < len(broadcast_shape):
	res = res[..., None]
	return res.expand(broadcast_shape)


	def parse_args():
	parser = argparse.ArgumentParser(description="Simple example of a training script.")
	parser.add_argument(
	"--dataset_name",
	type=str,
	default=None,
	help=(
	"The name of the Dataset (from the HuggingFace hub) to train on (could be your own, possibly private,"
	" dataset). It can also be a path pointing to a local copy of a dataset in your filesystem,"
	" or to a folder containing files that HF Datasets can understand."
	),
	)
	parser.add_argument(
	"--dataset_config_name",
	type=str,
	default=None,
	help="The config of the Dataset, leave as None if there's only one config.",
	)
	parser.add_argument(
	"--train_data_dir",
	type=str,
	default=None,
	help=(
	"A folder containing the training data. Folder contents must follow the structure described in"
	" https://huggingface.co/docs/datasets/image_dataset#imagefolder. In particular, a `metadata.jsonl` file"
	" must exist to provide the captions for the images. Ignored if `dataset_name` is specified."
	),
	)
	parser.add_argument(
	"--output_dir",
	type=str,
	default="ddpm-model-64",
	help="The output directory where the model predictions and checkpoints will be written.",
	)
	parser.add_argument("--overwrite_output_dir", action="store_true")
	parser.add_argument(
	"--cache_dir",
	type=str,
	default=None,
	help="The directory where the downloaded models and datasets will be stored.",
	)
	parser.add_argument(
	"--resolution",
	type=int,
	default=64,
	help=(
	"The resolution for input images, all the images in the train/validation dataset will be resized to this"
	" resolution"
	),
	)
	parser.add_argument(
	"--train_batch_size", type=int, default=16, help="Batch size (per device) for the training dataloader."
	)
	parser.add_argument(
	"--eval_batch_size", type=int, default=16, help="The number of images to generate for evaluation."
	)
	parser.add_argument(
	"--dataloader_num_workers",
	type=int,
	default=0,
	help=(
	"The number of subprocesses to use for data loading. 0 means that the data will be loaded in the main"
	" process."
	),
	)
	parser.add_argument("--num_epochs", type=int, default=100)
	parser.add_argument("--save_images_epochs", type=int, default=10, help="How often to save images during training.")
	parser.add_argument(
	"--save_model_epochs", type=int, default=10, help="How often to save the model during training."
	)
	parser.add_argument(
	"--gradient_accumulation_steps",
	type=int,
	default=1,
	help="Number of updates steps to accumulate before performing a backward/update pass.",
	)
	parser.add_argument(
	"--learning_rate",
	type=float,
	default=1e-4,
	help="Initial learning rate (after the potential warmup period) to use.",
	)
	parser.add_argument(
	"--lr_scheduler",
	type=str,
	default="cosine",
	help=(
	'The scheduler type to use. Choose between ["linear", "cosine", "cosine_with_restarts", "polynomial",'
	' "constant", "constant_with_warmup"]'
	),
	)
	parser.add_argument(
	"--lr_warmup_steps", type=int, default=500, help="Number of steps for the warmup in the lr scheduler."
	)
	parser.add_argument("--adam_beta1", type=float, default=0.95, help="The beta1 parameter for the Adam optimizer.")
	parser.add_argument("--adam_beta2", type=float, default=0.999, help="The beta2 parameter for the Adam optimizer.")
	parser.add_argument(
	"--adam_weight_decay", type=float, default=1e-6, help="Weight decay magnitude for the Adam optimizer."
	)
	parser.add_argument("--adam_epsilon", type=float, default=1e-08, help="Epsilon value for the Adam optimizer.")
	parser.add_argument(
	"--use_ema",
	action="store_true",
	default=True,
	help="Whether to use Exponential Moving Average for the final model weights.",
	)
	parser.add_argument("--ema_inv_gamma", type=float, default=1.0, help="The inverse gamma value for the EMA decay.")
	parser.add_argument("--ema_power", type=float, default=3 / 4, help="The power value for the EMA decay.")
	parser.add_argument("--ema_max_decay", type=float, default=0.9999, help="The maximum decay magnitude for EMA.")
	parser.add_argument("--push_to_hub", action="store_true", help="Whether or not to push the model to the Hub.")
	parser.add_argument("--hub_token", type=str, default=None, help="The token to use to push to the Model Hub.")
	parser.add_argument(
	"--hub_model_id",
	type=str,
	default=None,
	help="The name of the repository to keep in sync with the local `output_dir`.",
	)
	parser.add_argument(
	"--hub_private_repo", action="store_true", help="Whether or not to create a private repository."
	)
	parser.add_argument(
	"--logging_dir",
	type=str,
	default="logs",
	help=(
	"[TensorBoard](https://www.tensorflow.org/tensorboard) log directory. Will default to"
	" output_dir/runs/CURRENT_DATETIME_HOSTNAME**."
	),
	)
	parser.add_argument("--local_rank", type=int, default=-1, help="For distributed training: local_rank")
	parser.add_argument(
	"--mixed_precision",
	type=str,
	default="no",
	choices=["no", "fp16", "bf16"],
	help=(
	"Whether to use mixed precision. Choose"
	"between fp16 and bf16 (bfloat16). Bf16 requires PyTorch >= 1.10."
	"and an Nvidia Ampere GPU."
	),
	)

	parser.add_argument(
	"--predict_epsilon",
	action="store_true",
	default=True,
	help="Whether the model should predict the 'epsilon'/noise error or directly the reconstructed image 'x0'.",
	)

	parser.add_argument("--ddpm_num_steps", type=int, default=1000)
	parser.add_argument("--ddpm_beta_schedule", type=str, default="linear")

	args = parser.parse_args()
	env_local_rank = int(os.environ.get("LOCAL_RANK", -1))
	if env_local_rank != -1 and env_local_rank != args.local_rank:
	args.local_rank = env_local_rank

	if args.dataset_name is None and args.train_data_dir is None:
	raise ValueError("You must specify either a dataset name from the hub or a train data directory.")

	return args


	def get_full_repo_name(model_id: str, organization: Optional[str] = None, token: Optional[str] = None):
	if token is None:
	token = HfFolder.get_token()
	if organization is None:
	username = whoami(token)["name"]
	return f"{username}/{model_id}"
	else:
	return f"{organization}/{model_id}"


	def main(args):
	logging_dir = os.path.join(args.output_dir, args.logging_dir)
	accelerator = Accelerator(
	gradient_accumulation_steps=args.gradient_accumulation_steps,
	mixed_precision=args.mixed_precision,
	log_with="tensorboard",
	logging_dir=logging_dir,
	)

	model = UNet2DModel(
	sample_size=args.resolution,
	in_channels=3,
	out_channels=3,
	layers_per_block=2,
	block_out_channels=(128, 128, 256, 256, 512, 512),
	down_block_types=(
	"DownBlock2D",
	"DownBlock2D",
	"DownBlock2D",
	"DownBlock2D",
	"AttnDownBlock2D",
	"DownBlock2D",
	),
	up_block_types=(
	"UpBlock2D",
	"AttnUpBlock2D",
	"UpBlock2D",
	"UpBlock2D",
	"UpBlock2D",
	"UpBlock2D",
	),
	)
	accepts_predict_epsilon = "predict_epsilon" in set(inspect.signature(DDPMScheduler.__init__).parameters.keys())

	if accepts_predict_epsilon:
	noise_scheduler = DDPMScheduler(
	num_train_timesteps=args.ddpm_num_steps,
	beta_schedule=args.ddpm_beta_schedule,
	predict_epsilon=args.predict_epsilon,
	)
	else:
	noise_scheduler = DDPMScheduler(num_train_timesteps=args.ddpm_num_steps, beta_schedule=args.ddpm_beta_schedule)

	optimizer = torch.optim.AdamW(
	model.parameters(),
	lr=args.learning_rate,
	betas=(args.adam_beta1, args.adam_beta2),
	weight_decay=args.adam_weight_decay,
	eps=args.adam_epsilon,
	)

	augmentations = Compose(
	[
	Resize(args.resolution, interpolation=InterpolationMode.BILINEAR),
	CenterCrop(args.resolution),
	RandomHorizontalFlip(),
	ToTensor(),
	Normalize([0.5], [0.5]),
	]
	)

	if args.dataset_name is not None:
	dataset = load_dataset(
	args.dataset_name,
	args.dataset_config_name,
	cache_dir=args.cache_dir,
	split="train",
	)
	else:
	dataset = load_dataset("imagefolder", data_dir=args.train_data_dir, cache_dir=args.cache_dir, split="train")

	def transforms(examples):
	images = [augmentations(image.convert("RGB")) for image in examples["image"]]
	return {"input": images}

	logger.info(f"Dataset size: {len(dataset)}")

	dataset.set_transform(transforms)
	train_dataloader = torch.utils.data.DataLoader(
	dataset, batch_size=args.train_batch_size, shuffle=True, num_workers=args.dataloader_num_workers
	)

	lr_scheduler = get_scheduler(
	args.lr_scheduler,
	optimizer=optimizer,
	num_warmup_steps=args.lr_warmup_steps,
	num_training_steps=(len(train_dataloader) * args.num_epochs) // args.gradient_accumulation_steps,
	)

	model, optimizer, train_dataloader, lr_scheduler = accelerator.prepare(
	model, optimizer, train_dataloader, lr_scheduler
	)

	num_update_steps_per_epoch = math.ceil(len(train_dataloader) / args.gradient_accumulation_steps)

	ema_model = EMAModel(model, inv_gamma=args.ema_inv_gamma, power=args.ema_power, max_value=args.ema_max_decay)

	# Handle the repository creation
	if accelerator.is_main_process:
	if args.push_to_hub:
	if args.hub_model_id is None:
	repo_name = get_full_repo_name(Path(args.output_dir).name, token=args.hub_token)
	else:
	repo_name = args.hub_model_id
	repo = Repository(args.output_dir, clone_from=repo_name)

	with open(os.path.join(args.output_dir, ".gitignore"), "w+") as gitignore:
	if "step_*" not in gitignore:
	gitignore.write("step_*\n")
	if "epoch_*" not in gitignore:
	gitignore.write("epoch_*\n")
	elif args.output_dir is not None:
	os.makedirs(args.output_dir, exist_ok=True)

	if accelerator.is_main_process:
	run = os.path.split(__file__)[-1].split(".")[0]
	accelerator.init_trackers(run)

	global_step = 0
	for epoch in range(args.num_epochs):
	model.train()
	progress_bar = tqdm(total=num_update_steps_per_epoch, disable=not accelerator.is_local_main_process)
	progress_bar.set_description(f"Epoch {epoch}")
	for step, batch in enumerate(train_dataloader):
	clean_images = batch["input"]
	# Sample noise that we'll add to the images
	noise = torch.randn(clean_images.shape).to(clean_images.device)
	bsz = clean_images.shape[0]
	# Sample a random timestep for each image
	timesteps = torch.randint(
	0, noise_scheduler.config.num_train_timesteps, (bsz,), device=clean_images.device
	).long()

	# Add noise to the clean images according to the noise magnitude at each timestep
	# (this is the forward diffusion process)
	noisy_images = noise_scheduler.add_noise(clean_images, noise, timesteps)

	with accelerator.accumulate(model):
	# Predict the noise residual
	model_output = model(noisy_images, timesteps).sample

	if args.predict_epsilon:
	loss = F.mse_loss(model_output, noise) # this could have different weights!
	else:
	alpha_t = _extract_into_tensor(
	noise_scheduler.alphas_cumprod, timesteps, (clean_images.shape[0], 1, 1, 1)
	)
	snr_weights = alpha_t / (1 - alpha_t)
	loss = snr_weights * F.mse_loss(
	model_output, clean_images, reduction="none"
	) # use SNR weighting from distillation paper
	loss = loss.mean()

	accelerator.backward(loss)

	if accelerator.sync_gradients:
	accelerator.clip_grad_norm_(model.parameters(), 1.0)
	optimizer.step()
	lr_scheduler.step()
	if args.use_ema:
	ema_model.step(model)
	optimizer.zero_grad()

	# Checks if the accelerator has performed an optimization step behind the scenes
	if accelerator.sync_gradients:
	progress_bar.update(1)
	global_step += 1

	logs = {"loss": loss.detach().item(), "lr": lr_scheduler.get_last_lr()[0], "step": global_step}
	if args.use_ema:
	logs["ema_decay"] = ema_model.decay
	progress_bar.set_postfix(**logs)
	accelerator.log(logs, step=global_step)
	progress_bar.close()

	accelerator.wait_for_everyone()

	# Generate sample images for visual inspection
	if accelerator.is_main_process:
	if epoch % args.save_images_epochs == 0 or epoch == args.num_epochs - 1:
	pipeline = DDPMPipeline(
	unet=accelerator.unwrap_model(ema_model.averaged_model if args.use_ema else model),
	scheduler=noise_scheduler,
	)

	deprecate("todo: remove this check", "0.10.0", "when the most used version is >= 0.8.0")
	if diffusers_version < version.parse("0.8.0"):
	generator = torch.manual_seed(0)
	else:
	generator = torch.Generator(device=pipeline.device).manual_seed(0)
	# run pipeline in inference (sample random noise and denoise)
	images = pipeline(
	generator=generator,
	batch_size=args.eval_batch_size,
	output_type="numpy",
	).images

	# denormalize the images and save to tensorboard
	images_processed = (images * 255).round().astype("uint8")
	accelerator.trackers[0].writer.add_images(
	"test_samples", images_processed.transpose(0, 3, 1, 2), epoch
	)

	if epoch % args.save_model_epochs == 0 or epoch == args.num_epochs - 1:
	# save the model
	pipeline.save_pretrained(args.output_dir)
	if args.push_to_hub:
	repo.push_to_hub(commit_message=f"Epoch {epoch}", blocking=False)
	accelerator.wait_for_everyone()

	accelerator.end_training()


	if __name__ == "__main__":
	args = parse_args()
	main(args)