Spaces:

ZZZXIANG
/

IMAGETO

Runtime error

App Files Files Community

ZZZXIANG commited on Sep 25

Commit

904e2d4

•

1 Parent(s): 486f0e7

加註解1

Browse files

進度到注意力機制

Files changed (1) hide show

zero123plus/pipeline.py +11 -6

zero123plus/pipeline.py CHANGED Viewed

@@ -25,20 +25,25 @@ from diffusers import (
 from diffusers.image_processor import VaeImageProcessor
 from diffusers.models.attention_processor import Attention, AttnProcessor, XFormersAttnProcessor, AttnProcessor2_0
 from diffusers.utils.import_utils import is_xformers_available
 def to_rgb_image(maybe_rgba: Image.Image):
     if maybe_rgba.mode == 'RGB':
         return maybe_rgba
-    elif maybe_rgba.mode == 'RGBA':
         rgba = maybe_rgba
         img = numpy.random.randint(255, 256, size=[rgba.size[1], rgba.size[0], 3], dtype=numpy.uint8)
-        img = Image.fromarray(img, 'RGB')
         img.paste(rgba, mask=rgba.getchannel('A'))
         return img
     else:
         raise ValueError("Unsupported image type.", maybe_rgba.mode)
 class ReferenceOnlyAttnProc(torch.nn.Module):
     def __init__(
@@ -75,8 +80,8 @@ class ReferenceOnlyAttnProc(torch.nn.Module):
         if self.enabled and is_cfg_guidance:
             res = torch.cat([res0, res])
         return res
 class RefOnlyNoisedUNet(torch.nn.Module):
     def __init__(self, unet: UNet2DConditionModel, train_sched: DDPMScheduler, val_sched: EulerAncestralDiscreteScheduler) -> None:
         super().__init__()

 from diffusers.image_processor import VaeImageProcessor
 from diffusers.models.attention_processor import Attention, AttnProcessor, XFormersAttnProcessor, AttnProcessor2_0
 from diffusers.utils.import_utils import is_xformers_available
+### AutoencoderKL, UNet2DConditionModel ,DDPMScheduler 這幾個用於生成模型的核心模塊,負責編碼.擴散過程和調度
+### 接收一個 PIL 圖像物件，並將該圖像轉換為 RGB 格式
 def to_rgb_image(maybe_rgba: Image.Image):
     if maybe_rgba.mode == 'RGB':
         return maybe_rgba
+    elif maybe_rgba.mode == 'RGBA': # A為透明度
         rgba = maybe_rgba
+        ## 創建一個隨機的 RGB 圖像，尺寸與原始 RGBA 圖像相同
         img = numpy.random.randint(255, 256, size=[rgba.size[1], rgba.size[0], 3], dtype=numpy.uint8)
+        img = Image.fromarray(img, 'RGB') ##將這個 NumPy 陣列轉換為 PIL 的 RGB 圖像
         img.paste(rgba, mask=rgba.getchannel('A'))
         return img
     else:
         raise ValueError("Unsupported image type.", maybe_rgba.mode)
+#### RGB相對RGBA來說與大多數顯示設備兼容，簡單且高效，更加簡單且資源友好
+#### 並且是數位圖像處理和顯示的標準, 此專案中RGB已足夠
+#### 無論是 JPEG、PNG 等圖片格式，還是 HTML 和 CSS 用於網頁設計的顏色表示，RGB 模式都是標準化的選擇。
 class ReferenceOnlyAttnProc(torch.nn.Module):
     def __init__(
         if self.enabled and is_cfg_guidance:
             res = torch.cat([res0, res])
         return res
+#### 一種靈活的注意力機制，它可以在訓練或推理過程中根據不同的模式（"w"、"r"、"m") 進行操作。
+#### 目的是讓模型對不同的輸入數據賦予不同的「權重」，從而突出重要的信息，忽略次要的細節。
 class RefOnlyNoisedUNet(torch.nn.Module):
     def __init__(self, unet: UNet2DConditionModel, train_sched: DDPMScheduler, val_sched: EulerAncestralDiscreteScheduler) -> None:
         super().__init__()