Spaces:

fffiloni
/

ReNO

Sleeping

App Files Files Community

ReNO / models /RewardStableDiffusionXL.py

fffiloni

refactoring for Flux

dd8f929 16 days ago

raw

history blame contribute delete

11.5 kB

	from typing import List, Optional, Union

	import torch
	from diffusers import AutoencoderKL, StableDiffusionXLPipeline, UNet2DConditionModel
	from diffusers.pipelines.stable_diffusion_xl.pipeline_stable_diffusion_xl import (
	retrieve_timesteps,
	)
	from diffusers.schedulers import KarrasDiffusionSchedulers
	from transformers import (
	CLIPImageProcessor,
	CLIPTextModel,
	CLIPTextModelWithProjection,
	CLIPTokenizer,
	CLIPVisionModelWithProjection,
	)


	def freeze_params(params):
	for param in params:
	param.requires_grad = False


	class RewardStableDiffusionXL(StableDiffusionXLPipeline):
	def __init__(
	self,
	vae: AutoencoderKL,
	text_encoder: CLIPTextModel,
	text_encoder_2: CLIPTextModelWithProjection,
	tokenizer: CLIPTokenizer,
	tokenizer_2: CLIPTokenizer,
	unet: UNet2DConditionModel,
	scheduler: KarrasDiffusionSchedulers,
	image_encoder: CLIPVisionModelWithProjection = None,
	feature_extractor: CLIPImageProcessor = None,
	force_zeros_for_empty_prompt: bool = True,
	add_watermarker: bool = False,
	is_hyper: bool = False,
	memsave: bool = False,
	):
	super().__init__(
	vae,
	text_encoder,
	text_encoder_2,
	tokenizer,
	tokenizer_2,
	unet,
	scheduler,
	image_encoder,
	feature_extractor,
	force_zeros_for_empty_prompt,
	add_watermarker,
	)
	# optionally enable memsave_torch
	if memsave:
	import memsave_torch.nn

	self.vae = memsave_torch.nn.convert_to_memory_saving(self.vae)
	self.unet = memsave_torch.nn.convert_to_memory_saving(self.unet)
	self.text_encoder = memsave_torch.nn.convert_to_memory_saving(
	self.text_encoder
	)
	self.text_encoder_2 = memsave_torch.nn.convert_to_memory_saving(
	self.text_encoder_2
	)
	# enable checkpointing
	self.unet.enable_gradient_checkpointing()
	self.vae.enable_gradient_checkpointing()
	self.text_encoder.eval()
	self.text_encoder_2.eval()
	self.unet.eval()
	self.vae.eval()
	self.is_hyper = is_hyper

	# freeze diffusion parameters
	freeze_params(self.vae.parameters())
	freeze_params(self.unet.parameters())
	freeze_params(self.text_encoder.parameters())
	freeze_params(self.text_encoder_2.parameters())

	def decode_latents_tensors(self, latents):
	latents = latents / self.vae.config.scaling_factor
	image = self.vae.decode(latents).sample
	image = (image / 2 + 0.5).clamp(0, 1)
	return image

	def apply(
	self,
	latents: torch.Tensor,
	prompt: Union[str, List[str]] = None,
	prompt_2: Optional[Union[str, List[str]]] = None,
	height: Optional[int] = None,
	width: Optional[int] = None,
	num_inference_steps: int = 1,
	guidance_scale: float = 0.0,
	timesteps: List[int] = None,
	denoising_end: Optional[float] = None,
	negative_prompt: Optional[Union[str, List[str]]] = None,
	negative_prompt_2: Optional[Union[str, List[str]]] = None,
	num_images_per_prompt: Optional[int] = 1,
	eta: float = 0.0,
	generator: Optional[Union[torch.Generator, List[torch.Generator]]] = None,
	) -> torch.Tensor:
	if self.is_hyper:
	timesteps = [800]
	# 0. Default height and width to unet
	height = height or self.default_sample_size * self.vae_scale_factor
	width = width or self.default_sample_size * self.vae_scale_factor

	original_size = (height, width)
	target_size = (height, width)

	# 1. Check inputs. Raise error if not correct
	self.check_inputs(
	prompt,
	prompt_2,
	height,
	width,
	callback_steps=1,
	)

	# 2. Define call parameters

	self._guidance_scale = guidance_scale
	self._clip_skip = 0
	self._cross_attention_kwargs = None
	self._denoising_end = denoising_end
	self._interrupt = False

	# 2. Define call parameters
	batch_size = 1
	device = self._execution_device

	# 3. Encode input prompt
	lora_scale = (
	self.cross_attention_kwargs.get("scale", None)
	if self.cross_attention_kwargs is not None
	else None
	)
	prompt_embeds = None
	negative_prompt_embeds = None
	pooled_prompt_embeds = None
	negative_pooled_prompt_embeds = None
	(
	prompt_embeds,
	negative_prompt_embeds,
	pooled_prompt_embeds,
	negative_pooled_prompt_embeds,
	) = self.encode_prompt(
	prompt=prompt,
	prompt_2=prompt_2,
	device=device,
	num_images_per_prompt=num_images_per_prompt,
	do_classifier_free_guidance=self.do_classifier_free_guidance,
	negative_prompt=negative_prompt,
	negative_prompt_2=negative_prompt_2,
	prompt_embeds=prompt_embeds,
	negative_prompt_embeds=negative_prompt_embeds,
	pooled_prompt_embeds=pooled_prompt_embeds,
	negative_pooled_prompt_embeds=negative_pooled_prompt_embeds,
	lora_scale=lora_scale,
	clip_skip=self.clip_skip,
	)

	# 4. Prepare timesteps
	timesteps, num_inference_steps = retrieve_timesteps(
	self.scheduler, num_inference_steps, device, timesteps
	)

	num_channels_latents = self.unet.config.in_channels
	latents = self.prepare_latents(
	batch_size * num_images_per_prompt,
	num_channels_latents,
	height,
	width,
	prompt_embeds.dtype,
	device,
	generator,
	latents,
	)

	# 6. Prepare extra step kwargs. TODO: Logic should ideally just be moved out of the pipeline
	extra_step_kwargs = self.prepare_extra_step_kwargs(generator, eta)

	# 7. Prepare added time ids & embeddings
	add_text_embeds = pooled_prompt_embeds
	if self.text_encoder_2 is None:
	text_encoder_projection_dim = int(pooled_prompt_embeds.shape[-1])
	else:
	text_encoder_projection_dim = self.text_encoder_2.config.projection_dim

	add_time_ids = self._get_add_time_ids(
	original_size,
	(0, 0),
	target_size,
	dtype=prompt_embeds.dtype,
	text_encoder_projection_dim=text_encoder_projection_dim,
	)
	negative_add_time_ids = add_time_ids

	if self.do_classifier_free_guidance:
	prompt_embeds = torch.cat([negative_prompt_embeds, prompt_embeds], dim=0)
	add_text_embeds = torch.cat(
	[negative_pooled_prompt_embeds, add_text_embeds], dim=0
	)
	add_time_ids = torch.cat([negative_add_time_ids, add_time_ids], dim=0)

	prompt_embeds = prompt_embeds.to(device)
	add_text_embeds = add_text_embeds.to(device)
	add_time_ids = add_time_ids.to(device).repeat(
	batch_size * num_images_per_prompt, 1
	)

	# 8. Denoising loop
	num_warmup_steps = max(
	len(timesteps) - num_inference_steps * self.scheduler.order, 0
	)

	# 8.1 Apply denoising_end
	if (
	self.denoising_end is not None
	and isinstance(self.denoising_end, float)
	and self.denoising_end > 0
	and self.denoising_end < 1
	):
	discrete_timestep_cutoff = int(
	round(
	self.scheduler.config.num_train_timesteps
	- (self.denoising_end * self.scheduler.config.num_train_timesteps)
	)
	)
	num_inference_steps = len(
	list(filter(lambda ts: ts >= discrete_timestep_cutoff, timesteps))
	)
	timesteps = timesteps[:num_inference_steps]

	# 9. Optionally get Guidance Scale Embedding
	timestep_cond = None
	if self.unet.config.time_cond_proj_dim is not None:
	guidance_scale_tensor = torch.tensor(self.guidance_scale - 1).repeat(
	batch_size * num_images_per_prompt
	)
	timestep_cond = self.get_guidance_scale_embedding(
	guidance_scale_tensor, embedding_dim=self.unet.config.time_cond_proj_dim
	).to(device=device, dtype=latents.dtype)

	self._num_timesteps = len(timesteps)

	# 8. Denoising loop
	# 8.1 Apply denoising_end
	if (
	self.denoising_end is not None
	and isinstance(self.denoising_end, float)
	and self.denoising_end > 0
	and self.denoising_end < 1
	):
	discrete_timestep_cutoff = int(
	round(
	self.scheduler.config.num_train_timesteps
	- (self.denoising_end * self.scheduler.config.num_train_timesteps)
	)
	)
	num_inference_steps = len(
	list(filter(lambda ts: ts >= discrete_timestep_cutoff, timesteps))
	)
	timesteps = timesteps[:num_inference_steps]

	# 9. Optionally get Guidance Scale Embedding
	timestep_cond = None

	self._num_timesteps = len(timesteps)
	for i, t in enumerate(timesteps):
	if self._interrupt:
	continue
	# expand the latents if we are doing classifier free guidance
	latent_model_input = (
	torch.cat([latents] * 2)
	if self.do_classifier_free_guidance
	else latents
	)

	latent_model_input = self.scheduler.scale_model_input(latent_model_input, t)

	# predict the noise residual
	added_cond_kwargs = {
	"text_embeds": add_text_embeds,
	"time_ids": add_time_ids,
	}
	noise_pred = self.unet(
	latent_model_input,
	t,
	encoder_hidden_states=prompt_embeds,
	timestep_cond=timestep_cond,
	cross_attention_kwargs=self.cross_attention_kwargs,
	added_cond_kwargs=added_cond_kwargs,
	return_dict=False,
	)[0]

	# perform guidance
	if self.do_classifier_free_guidance:
	noise_pred_uncond, noise_pred_text = noise_pred.chunk(2)
	noise_pred = noise_pred_uncond + self.guidance_scale * (
	noise_pred_text - noise_pred_uncond
	)

	# compute the previous noisy sample x_t -> x_t-1
	latents = self.scheduler.step(
	noise_pred, t, latents, **extra_step_kwargs, return_dict=False
	)[0]

	if self.is_hyper:
	latents = latents.to(torch.float32)
	image = self.decode_latents_tensors(latents)
	image = image.to(torch.float16)
	else:
	image = self.decode_latents_tensors(latents)

	# apply watermark if available
	if self.watermark is not None:
	image = self.watermark.apply_watermark(image)

	# Offload all models
	self.maybe_free_model_hooks()

	return image