Update README.md

Browse files

Files changed (1) hide show

README.md +97 -9

README.md CHANGED Viewed

@@ -32,14 +32,14 @@ Our approach ensures that the model retains its original strengths while acquiri
    - [Training Dataset](#training-dataset)
    - [Merge Procedure](#merge-procedure)
 3. [Evaluation](#evaluation)
-    - [MT-Bench (German)](#mt-bench-german)
-    - [MT-Bench (English)](#mt-bench-english)
     - [Language Model evaluation Harness](#language-model-evaluation-harness)
     - [BigBench](#BBH)
-    - [GPT4ALL](#gpt4all)
     - [Additional German Benchmark results](#additional-german-benchmark-results)
-4. [Disclaimer](#disclaimer)
-5. [Contact](#contact)
 7. [Collaborations](#collaborations)
 8. [Acknowledgement](#acknowledgement)
@@ -174,7 +174,11 @@ SauerkrautLM-7b-HerO  <---                          7.409375
 Mistral-7B-OpenOrca                                 6.915625
 neural-chat-7b-v3-1                                 6.812500
 ```
 ### Language Model evaluation Harness:
 Compared to Aleph Alpha Luminous Models
@@ -184,11 +188,95 @@ Compared to Aleph Alpha Luminous Models
 ### BBH:
 ![BBH](https://vago-solutions.de/wp-content/uploads/2023/11/bbh.png "SauerkrautLM-7b-HerO BBH")
 *performed with newest Language Model Evaluation Harness
-### GPT4ALL:
-Compared to Aleph Alpha Luminous Models, LeoLM and EM_German
-![GPT4ALL diagram](https://vago-solutions.de/wp-content/uploads/2023/11/GPT4All.png "SauerkrautLM-7b-HerO GPT4ALL Diagram")
-![GPT4ALL table](https://vago-solutions.de/wp-content/uploads/2023/11/GPT4All-Tabelle.png "SauerkrautLM-7b-HerO GPT4ALL Table")
 ### Additional German Benchmark results:
 ![GermanBenchmarks](https://vago-solutions.de/wp-content/uploads/2023/11/German-benchmarks.png "SauerkrautLM-7b-HerO German Benchmarks")
 *performed with newest Language Model Evaluation Harness

    - [Training Dataset](#training-dataset)
    - [Merge Procedure](#merge-procedure)
 3. [Evaluation](#evaluation)
+    - [GPT4ALL](#gpt4all)
     - [Language Model evaluation Harness](#language-model-evaluation-harness)
     - [BigBench](#BBH)
+    - [MT-Bench (German)](#mt-bench-german)
+    - [MT-Bench (English)](#mt-bench-english)
     - [Additional German Benchmark results](#additional-german-benchmark-results)
+5. [Disclaimer](#disclaimer)
+6. [Contact](#contact)
 7. [Collaborations](#collaborations)
 8. [Acknowledgement](#acknowledgement)
 Mistral-7B-OpenOrca                                 6.915625
 neural-chat-7b-v3-1                                 6.812500
 ```
+### GPT4ALL:
+Compared to Aleph Alpha Luminous Models, LeoLM and EM_German
+![GPT4ALL diagram](https://vago-solutions.de/wp-content/uploads/2023/11/GPT4All.png "SauerkrautLM-7b-HerO GPT4ALL Diagram")
+![GPT4ALL table](https://vago-solutions.de/wp-content/uploads/2023/11/GPT4All-Tabelle.png "SauerkrautLM-7b-HerO GPT4ALL Table")
 ### Language Model evaluation Harness:
 Compared to Aleph Alpha Luminous Models
 ### BBH:
 ![BBH](https://vago-solutions.de/wp-content/uploads/2023/11/bbh.png "SauerkrautLM-7b-HerO BBH")
 *performed with newest Language Model Evaluation Harness
+### MT-Bench (German):
+![MT-Bench German Diagram](https://vago-solutions.de/wp-content/uploads/2023/11/MT-Bench-German.png "SauerkrautLM-7b-HerO MT-Bench German Diagram")
+```
+########## First turn ##########
+                                                           score
+model                                              turn
+SauerkrautLM-70b-v1                                1     7.25000
+SauerkrautLM-7b-HerO  <---                         1     6.96875
+SauerkrautLM-7b-v1-mistral                         1     6.30625
+leo-hessianai-13b-chat                             1     6.18750
+SauerkrautLM-13b-v1                                1     6.16250
+leo-mistral-hessianai-7b-chat                      1     6.15625
+Llama-2-70b-chat-hf                                1     6.03750
+vicuna-13b-v1.5                                    1     5.80000
+SauerkrautLM-7b-v1                                 1     5.65000
+leo-hessianai-7b-chat                              1     5.52500
+vicuna-7b-v1.5                                     1     5.42500
+Mistral-7B-v0.1                                    1     5.37500
+SauerkrautLM-3b-v1                                 1     3.17500
+Llama-2-7b                                         1     1.28750
+open_llama_3b_v2                                   1     1.68750
+########## Second turn ##########
+                                                           score
+model                                              turn
+SauerkrautLM-70b-v1                                2     6.83125
+SauerkrautLM-7b-HerO  <---                         2     6.30625
+vicuna-13b-v1.5                                    2     5.63125
+SauerkrautLM-13b-v1                                2     5.34375
+SauerkrautLM-7b-v1-mistral                         2     5.26250
+leo-mistral-hessianai-7b-chat                      2     4.99375
+SauerkrautLM-7b-v1                                 2     4.73750
+leo-hessianai-13b-chat                             2     4.71250
+vicuna-7b-v1.5                                     2     4.67500
+Llama-2-70b-chat-hf                                2     4.66250
+Mistral-7B-v0.1                                    2     4.53750
+leo-hessianai-7b-chat                              2     2.65000
+SauerkrautLM-3b-v1                                 2     1.98750
+open_llama_3b_v2                                   2     1.22500
+Llama-2-7b                                         2     1.07500
+########## Average ##########
+                                                       score
+model
+SauerkrautLM-70b-v1                                 7.040625
+SauerkrautLM-7b-HerO   <---                         6.637500
+SauerkrautLM-7b-v1-mistral                          5.784375
+SauerkrautLM-13b-v1                                 5.753125
+vicuna-13b-v1.5                                     5.715625
+leo-mistral-hessianai-7b-chat                       5.575000
+leo-hessianai-13b-chat                              5.450000
+Llama-2-70b-chat-hf                                 5.350000
+SauerkrautLM-v1-7b                                  5.193750
+vicuna-7b-v1.5                                      5.050000
+Mistral-7B-v0.1                                     4.956250
+leo-hessianai-7b-chat                               4.087500
+SauerkrautLM-3b-v1                                  2.581250
+open_llama_3b_v2                                    1.456250
+Llama-2-7b                                          1.181250
+```
+### MT-Bench (English):
+![MT-Bench English Diagram](https://vago-solutions.de/wp-content/uploads/2023/11/MT-Bench-Englisch.png "SauerkrautLM-7b-HerO MT-Bench English Diagram")
+```
+########## First turn ##########
+                                                           score
+model                                              turn
+OpenHermes-2.5-Mistral-7B                          1     8.21875
+SauerkrautLM-7b-HerO    <---                       1     8.03125
+Mistral-7B-OpenOrca                                1     7.65625
+neural-chat-7b-v3-1                                1     7.22500
+########## Second turn ##########
+                                                          score
+model                                              turn
+OpenHermes-2.5-Mistral-7B                          2     7.1000
+SauerkrautLM-7b-HerO  <---                         2     6.7875
+neural-chat-7b-v3-1                                2     6.4000
+Mistral-7B-OpenOrca                                2     6.1750
+########## Average ##########
+                                                       score
+model
+OpenHermes-2.5-Mistral-7B                           7.659375
+SauerkrautLM-7b-HerO  <---                          7.409375
+Mistral-7B-OpenOrca                                 6.915625
+neural-chat-7b-v3-1                                 6.812500
+```
 ### Additional German Benchmark results:
 ![GermanBenchmarks](https://vago-solutions.de/wp-content/uploads/2023/11/German-benchmarks.png "SauerkrautLM-7b-HerO German Benchmarks")
 *performed with newest Language Model Evaluation Harness