stabilityai
/

stablelm-2-12b-chat

@@ -154,10 +154,31 @@ The dataset is comprised of a mixture of open datasets large-scale datasets avai
 ## Performance
 ### MT-Bench
 ### OpenLLM Leaderboard
 ### Training Infrastructure

 ## Performance
 ### MT-Bench
+| Model                                 | Parameters | MT Bench (Inflection-corrected) |
+|---------------------------------------|------------|---------------------------------|
+| mistralai/Mixtral-8x7B-Instruct-v0.1 | 13B/47B    | 8.48 ± 0.06                    |
+| stabilityai/stablelm-2-12b-chat       | 12B        | 8.15 ± 0.08                    |
+| Qwen/Qwen1.5-14B-Chat                 | 14B        | 7.95 ± 0.10                    |
+| HuggingFaceH4/zephyr-7b-gemma-v0.1    | 8.5B       | 7.82 ± 0.03                    |
+| mistralai/Mistral-7B-Instruct-v0.2    | 7B         | 7.48 ± 0.02                    |
+| meta-llama/Llama-2-70b-chat-hf        | 70B        | 7.29 ± 0.05                    |
 ### OpenLLM Leaderboard
+| Model                                  | Parameters | Average | ARC Challenge (25-shot) | HellaSwag (10-shot) | MMLU (5-shot) | TruthfulQA (0-shot) | Winogrande (5-shot) | GSM8K (5-shot) |
+| -------------------------------------- | ---------- | ------- | ---------------------- | ------------------- | ------------- | ------------------- | ------------------- | -------------- |
+| mistralai/Mixtral-8x7B-Instruct-v0.1  | 13B/47B    | 72.71   | 70.14                  | 87.55               | 71.40         | 64.98               | 81.06               | 61.11          |
+| stabilityai/stablelm-2-12b-chat        | 12B        | 68.45   | 65.02                  | 86.06               | 61.14         | 62.00               | 78.77               | 57.70          |
+| Qwen/Qwen1.5-14B                       | 14B        | 66.70   | 56.57                  | 81.08               | 69.36         | 52.06               | 73.48               | 67.63          |
+| mistralai/Mistral-7B-Instruct-v0.2     | 7B         | 65.71   | 63.14                  | 84.88               | 60.78         | 60.26               | 77.19               | 40.03          |
+| HuggingFaceH4/zephyr-7b-gemma-v0.1     | 8.5B       | 62.41   | 58.45                  | 83.48               | 60.68         | 52.07               | 74.19               | 45.56          |
+| Qwen/Qwen1.5-14B-Chat                  | 14B        | 62.37   | 58.79                  | 82.33               | 68.52         | 60.38               | 73.32               | 30.86          |
+| google/gemma-7b                        | 8.5B       | 63.75   | 61.09                  | 82.20               | 64.56         | 44.79               | 79.01               | 50.87          |
+| stabilityai/stablelm-2-12b             | 12B        | 63.53   | 58.45                  | 84.33               | 62.09         | 48.16               | 78.10               | 56.03          |
+| mistralai/Mistral-7B-v0.1              | 7B         | 60.97   | 59.98                  | 83.31               | 64.16         | 42.15               | 78.37               | 37.83          |
+| meta-llama/Llama-2-13b-hf              | 13B        | 55.69   | 59.39                  | 82.13               | 55.77         | 37.38               | 76.64               | 22.82          |
+| meta-llama/Llama-2-13b-chat-hf         | 13B        | 54.92   | 59.04                  | 81.94               | 54.64         | 41.12               | 74.51               | 15.24          |
 ### Training Infrastructure