JuhaoLiang
commited on
Commit
•
bf4a467
1
Parent(s):
3a9c305
Update README.md
Browse files
README.md
CHANGED
@@ -42,19 +42,28 @@ Benchmark evaluations are conducted using accuracy or F1 scores as metrics, foll
|
|
42 |
| AceGPT-v1.5-7B-Chat | 45.77 | 56.62 | 43.69 | 69.46 | 70.86 | 72.45 | 60.49 | 59.90 |
|
43 |
| ChatGPT 3.5 Turbo | 46.07 | 57.72 | 45.63 | 74.45 | 76.88 | 76.12 | 60.24 | 62.44 |
|
44 |
| AceGPT-v1.5-13B-Chat | 47.33 | 61.70 | 48.37 | 76.90 | 76.37 | 69.33 | 63.99 | 63.42 |
|
45 |
-
|
|
46 |
-
| AceGPT-v2-
|
47 |
-
| AceGPT-v2-
|
48 |
-
|
|
|
|
49 |
|
50 |
|
51 |
|
52 |
## Samples
|
53 |
#### Sample1(abstract_algebra)
|
|
|
|
|
54 |
|
55 |
-
|
|
|
56 |
|
|
|
|
|
|
|
57 |
|
|
|
|
|
58 |
|
59 |
# Reference
|
60 |
```
|
|
|
42 |
| AceGPT-v1.5-7B-Chat | 45.77 | 56.62 | 43.69 | 69.46 | 70.86 | 72.45 | 60.49 | 59.90 |
|
43 |
| ChatGPT 3.5 Turbo | 46.07 | 57.72 | 45.63 | 74.45 | 76.88 | 76.12 | 60.24 | 62.44 |
|
44 |
| AceGPT-v1.5-13B-Chat | 47.33 | 61.70 | 48.37 | 76.90 | 76.37 | 69.33 | 63.99 | 63.42 |
|
45 |
+
| Qwen1.5-32B-Chat | 51.99 | 57.35 | 46.29 | 78.08 | 78.26 | 77.61 | 71.25 | 65.83 |
|
46 |
+
| AceGPT-v2-8B-Chat | 54.45 | 62.21 | 52.98 | 76.54 | 76.55 | 71.65 | 72.44 | 66.69 |
|
47 |
+
| **AceGPT-v2-32B-Chat** | 57.12 | 68.70 | 52.89 | <u>81.36</u> | <u>79.03</u> | 77.22 | 78.07 | 70.63 |
|
48 |
+
| AceGPT-v2-70B-Chat | <u>64.26</u> | **72.50** | <u>56.99</u> | 78.61 | 77.38 | <u>82.66</u> | <u>85.53</u> | <u>73.99</u> |
|
49 |
+
| GPT-4 | **65.04** | **72.50** | **57.76** | **84.06** | **79.43** | **85.99** | **85.67** | **75.78** |
|
50 |
|
51 |
|
52 |
|
53 |
## Samples
|
54 |
#### Sample1(abstract_algebra)
|
55 |
+
* <b>input:</b>
|
56 |
+
"\<User\>: فيما يلي أسئلة الاختيار من متعدد حول جبر تجريدي\n\nسؤال: ما هو الدرجة للامتداد الميداني الناتج من Q(sqrt(2), sqrt(3), sqrt(18)) على Q؟\nA. 0\nB. 4\nC. 2\nD. 6\nمن فضلك اختر إجابة واحدة من بين 'A، B، C، D' دون شرح. \<Assistant\>: "
|
57 |
|
58 |
+
* <b>output:</b>
|
59 |
+
"B\n\nالشرح:\n\nالإجابة هي"
|
60 |
|
61 |
+
#### Sample2(business_ethics)
|
62 |
+
* <b>input:</b>
|
63 |
+
"\<User\>: فيما يلي أسئلة الاختيار من متعدد حول أخلاقيات الأعمال\n\nسؤال: تُصبح _______ مثل البيتكوين أكثر انتشارًا وتحمل مجموعة كبيرة من الآثار الأخلاقية المرتبطة بها، على سبيل المثال، إنها _______ وأكثر _______. ومع ذلك، تم استخدامها أيضًا للمشاركة في _______.\nA. العملات الرقمية، مكلفة، آمنة، جرائم مالية\nB. العملات التقليدية، رخيصة، غير آمنة، العطاء الخيري\nC. العملات الرقمية، رخيصة، آمنة، جرائم مالية\nD. العملات التقليدية، مكلفة، غير آمنة، العطاء الخيري\nمن فضلك اختر إجابة واحدة من بين 'A، B، C، D' دون شرح. \<Assistant\>: "
|
64 |
|
65 |
+
* <b>output:</b>
|
66 |
+
"C\n\nالشرح:\n\nالإجابة هي"
|
67 |
|
68 |
# Reference
|
69 |
```
|