Nekochu commited on
Commit
e19d359
1 Parent(s): 968b1be

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +28 -1
README.md CHANGED
@@ -42,10 +42,11 @@ model-index:
42
  results: []
43
  ---
44
 
45
-
46
  - Fine-tuning of Llama-3.1-8B on german datasets. Same datasets used in [Nekochu/Llama-2-13B-German-ORPO](https://huggingface.co/Nekochu/Llama-2-13B-German-ORPO).
47
  - I've (alway) kept LoRA `QLoRA_German-ORPO` so it can be applied to any *LLaMA-3.1-8B* fine-tuned model but may affect performance.
48
 
 
 
49
  <details>
50
  <summary>This training can be replicated using LLaMA-Factory. </summary>
51
 
@@ -60,6 +61,8 @@ set CUDA_VISIBLE_DEVICES=0 && llamafactory-cli train --stage dpo --do_train True
60
  ```
61
 
62
 
 
 
63
  <details>
64
  <summary>dataset_info.json</summary>
65
 
@@ -149,3 +152,27 @@ set CUDA_VISIBLE_DEVICES=0 && llamafactory-cli train --stage dpo --do_train True
149
  </details>
150
 
151
  </details>
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
42
  results: []
43
  ---
44
 
 
45
  - Fine-tuning of Llama-3.1-8B on german datasets. Same datasets used in [Nekochu/Llama-2-13B-German-ORPO](https://huggingface.co/Nekochu/Llama-2-13B-German-ORPO).
46
  - I've (alway) kept LoRA `QLoRA_German-ORPO` so it can be applied to any *LLaMA-3.1-8B* fine-tuned model but may affect performance.
47
 
48
+ Oh, and I am not a GER speaker. ^^
49
+
50
  <details>
51
  <summary>This training can be replicated using LLaMA-Factory. </summary>
52
 
 
61
  ```
62
 
63
 
64
+ Average training time: 5 days sft, 5d sft, 6h dpo
65
+
66
  <details>
67
  <summary>dataset_info.json</summary>
68
 
 
152
  </details>
153
 
154
  </details>
155
+
156
+
157
+ <details>
158
+ <summary>Output Examples</summary>
159
+
160
+ ```
161
+ #Question:
162
+ Wie geht es in diesem Absatz weiter? Dann reibt sie eine Nadel auf einem Wattebausch, schiebt ihn dann auf einen Bleistift und wickelt einen Faden darum. Dann hält sie eine Schachtel mit einem Produkt hoch und gießt dann mehrere Flüssigkeiten in eine Schüssel. sie Wählen Sie Ihre Antwort aus: A. Fügt einen Topf hinzu und schüttelt das Produkt in einer Mühle. B. kneift den Faden, um eine Zigarette zu stylen, und geht dann weg. Dann taucht C. die Nadel in Tinte und zeichnet mit dem Bleistift ein Motiv auf ihr Bein, das sie am Ende mit einem Lappen abreibt. D. beginnt, ihre Haare zu stylen und schneidet sie mehrmals, bevor sie die Spitzen scheitelt, um die Frisur zu zeigen, die sie kreiert hat.
163
+
164
+
165
+ #Only Llama3 3.1 (wrong) - Llama3 Template:
166
+ Die richtige Antwort ist B.
167
+
168
+ #Model SFT GER (wrong) - Alpaca Template:
169
+ Es ist unklar, welche Handlung sie als nächstes kommt, da der Absatz zu Ende geht.
170
+
171
+ #Model SFT+orpo GER (correct) - Alpaca Template, linear RoPE Scaling:
172
+ C. taucht die Nadel in Tinte und zeichnet mit dem Bleistift ein Motiv auf ihr Bein, das sie am Ende mit einem Lappen abreibt.
173
+
174
+ ```
175
+
176
+ Note: Output from inference [LLaMA-Factory](https://github.com/hiyouga/LLaMA-Factory). Source question: [mayflowergmbh/intel_orca_dpo_pairs_de](https://huggingface.co/datasets/mayflowergmbh/intel_orca_dpo_pairs_de)
177
+
178
+ </details>