Update README.md
Browse files
README.md
CHANGED
@@ -42,10 +42,11 @@ model-index:
|
|
42 |
results: []
|
43 |
---
|
44 |
|
45 |
-
|
46 |
- Fine-tuning of Llama-3.1-8B on german datasets. Same datasets used in [Nekochu/Llama-2-13B-German-ORPO](https://huggingface.co/Nekochu/Llama-2-13B-German-ORPO).
|
47 |
- I've (alway) kept LoRA `QLoRA_German-ORPO` so it can be applied to any *LLaMA-3.1-8B* fine-tuned model but may affect performance.
|
48 |
|
|
|
|
|
49 |
<details>
|
50 |
<summary>This training can be replicated using LLaMA-Factory. </summary>
|
51 |
|
@@ -60,6 +61,8 @@ set CUDA_VISIBLE_DEVICES=0 && llamafactory-cli train --stage dpo --do_train True
|
|
60 |
```
|
61 |
|
62 |
|
|
|
|
|
63 |
<details>
|
64 |
<summary>dataset_info.json</summary>
|
65 |
|
@@ -149,3 +152,27 @@ set CUDA_VISIBLE_DEVICES=0 && llamafactory-cli train --stage dpo --do_train True
|
|
149 |
</details>
|
150 |
|
151 |
</details>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
42 |
results: []
|
43 |
---
|
44 |
|
|
|
45 |
- Fine-tuning of Llama-3.1-8B on german datasets. Same datasets used in [Nekochu/Llama-2-13B-German-ORPO](https://huggingface.co/Nekochu/Llama-2-13B-German-ORPO).
|
46 |
- I've (alway) kept LoRA `QLoRA_German-ORPO` so it can be applied to any *LLaMA-3.1-8B* fine-tuned model but may affect performance.
|
47 |
|
48 |
+
Oh, and I am not a GER speaker. ^^
|
49 |
+
|
50 |
<details>
|
51 |
<summary>This training can be replicated using LLaMA-Factory. </summary>
|
52 |
|
|
|
61 |
```
|
62 |
|
63 |
|
64 |
+
Average training time: 5 days sft, 5d sft, 6h dpo
|
65 |
+
|
66 |
<details>
|
67 |
<summary>dataset_info.json</summary>
|
68 |
|
|
|
152 |
</details>
|
153 |
|
154 |
</details>
|
155 |
+
|
156 |
+
|
157 |
+
<details>
|
158 |
+
<summary>Output Examples</summary>
|
159 |
+
|
160 |
+
```
|
161 |
+
#Question:
|
162 |
+
Wie geht es in diesem Absatz weiter? Dann reibt sie eine Nadel auf einem Wattebausch, schiebt ihn dann auf einen Bleistift und wickelt einen Faden darum. Dann hält sie eine Schachtel mit einem Produkt hoch und gießt dann mehrere Flüssigkeiten in eine Schüssel. sie Wählen Sie Ihre Antwort aus: A. Fügt einen Topf hinzu und schüttelt das Produkt in einer Mühle. B. kneift den Faden, um eine Zigarette zu stylen, und geht dann weg. Dann taucht C. die Nadel in Tinte und zeichnet mit dem Bleistift ein Motiv auf ihr Bein, das sie am Ende mit einem Lappen abreibt. D. beginnt, ihre Haare zu stylen und schneidet sie mehrmals, bevor sie die Spitzen scheitelt, um die Frisur zu zeigen, die sie kreiert hat.
|
163 |
+
|
164 |
+
|
165 |
+
#Only Llama3 3.1 (wrong) - Llama3 Template:
|
166 |
+
Die richtige Antwort ist B.
|
167 |
+
|
168 |
+
#Model SFT GER (wrong) - Alpaca Template:
|
169 |
+
Es ist unklar, welche Handlung sie als nächstes kommt, da der Absatz zu Ende geht.
|
170 |
+
|
171 |
+
#Model SFT+orpo GER (correct) - Alpaca Template, linear RoPE Scaling:
|
172 |
+
C. taucht die Nadel in Tinte und zeichnet mit dem Bleistift ein Motiv auf ihr Bein, das sie am Ende mit einem Lappen abreibt.
|
173 |
+
|
174 |
+
```
|
175 |
+
|
176 |
+
Note: Output from inference [LLaMA-Factory](https://github.com/hiyouga/LLaMA-Factory). Source question: [mayflowergmbh/intel_orca_dpo_pairs_de](https://huggingface.co/datasets/mayflowergmbh/intel_orca_dpo_pairs_de)
|
177 |
+
|
178 |
+
</details>
|