yodayo-ai
/

kivotos-xl-2.0

@@ -217,16 +217,16 @@ These are the key hyperparameters used during training:
 | Feature                       | Pretraining               | Finetuning                      |
 |-------------------------------|----------------------------|---------------------------------|
 | **Hardware**                  | 2x H100 80GB PCIe          | 1x A100 80GB PCIe               |
-| **Batch Size**                | 64                         | 48                              |
 | **Gradient Accumulation Steps** | 2                        | 1                               |
 | **Noise Offset**              | None                       | 0.0357                          |
 | **Epochs**                    | 10                         | 10                              |
 | **UNet Learning Rate**        | 5e-6                       | 3.75e-6                         |
 | **Text Encoder Learning Rate** | 2.5e-6                   | None                            |
-| **Optimizer**                 | AdamW8bit                  | Adafactor                       |
-| **Optimizer Args**            | Weight Decay: 0.1, Betas: (0.9, 0.99) | Scale Parameter: False, Relative Step: False, Warmup Init: False |
 | **Scheduler**                 | Constant with Warmups      | Constant with Warmups           |
-| **Warmup Steps**              | 0.5%                       | 0.5%                            |
 ## License

 | Feature                       | Pretraining               | Finetuning                      |
 |-------------------------------|----------------------------|---------------------------------|
 | **Hardware**                  | 2x H100 80GB PCIe          | 1x A100 80GB PCIe               |
+| **Batch Size**                | 32                         | 48                              |
 | **Gradient Accumulation Steps** | 2                        | 1                               |
 | **Noise Offset**              | None                       | 0.0357                          |
 | **Epochs**                    | 10                         | 10                              |
 | **UNet Learning Rate**        | 5e-6                       | 3.75e-6                         |
 | **Text Encoder Learning Rate** | 2.5e-6                   | None                            |
+| **Optimizer**                 | Adafactor                  | Adafactor                       |
+| **Optimizer Args**            | Scale Parameter: False, Relative Step: False, Warmup Init: False (0.9, 0.99) | Scale Parameter: False, Relative Step: False, Warmup Init: False |
 | **Scheduler**                 | Constant with Warmups      | Constant with Warmups           |
+| **Warmup Steps**              | 0.05%                       | 0.05%                            |
 ## License