Update README.md
Browse files
README.md
CHANGED
@@ -28,4 +28,29 @@ print(tokenizer.decode(output[0]))
|
|
28 |
Output:
|
29 |
```
|
30 |
Искусственный интеллект - это всего-навсего программа, которая анализирует данные и решает, насколько тот или иной выбор может оказаться оптимальным. Как и во всех остальных сферах человеческой деятельности, в IT есть свои плюсы и минусы. И если в прошлом веке искусственный интеллект был чем
|
31 |
-
```
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
28 |
Output:
|
29 |
```
|
30 |
Искусственный интеллект - это всего-навсего программа, которая анализирует данные и решает, насколько тот или иной выбор может оказаться оптимальным. Как и во всех остальных сферах человеческой деятельности, в IT есть свои плюсы и минусы. И если в прошлом веке искусственный интеллект был чем
|
31 |
+
```
|
32 |
+
|
33 |
+
# Evaluation
|
34 |
+
The results are obtained through the Russian-language benchmark [MERA](https://mera.a-ai.ru/ru)
|
35 |
+
|
36 |
+
Total score: 0.198
|
37 |
+
|
38 |
+
| Задача | Результат | Метрика |
|
39 |
+
|--------------|---------------|--------------------|
|
40 |
+
| BPS | 0.44 | Accuracy |
|
41 |
+
| LCS | 0.118 | Accuracy |
|
42 |
+
| RCB | 0.333 / 0.167 | Avg. F1 / Accuracy |
|
43 |
+
| USE | 0 | Grade Norm |
|
44 |
+
| RWSD | 0.523 | Accuracy |
|
45 |
+
| PARus | 0.498 | Accuracy |
|
46 |
+
| ruTiE | 0.5 | Accuracy |
|
47 |
+
| MultiQ | 0.059 / 0.007 | F1-score/EM |
|
48 |
+
| ruMMLU | 0.25 | Accuracy |
|
49 |
+
| CheGeKa | 0.006 / 0 | F1 / EM |
|
50 |
+
| ruModAr | 0.001 | Accuracy |
|
51 |
+
| SimpleAr | 0.001 | Accuracy |
|
52 |
+
| ruMultiAr | 0.011 | Accuracy |
|
53 |
+
| MathLogicQA | 0.245 | Accuracy |
|
54 |
+
| ruHumanEval | 0 / 0 / 0 | pass@k |
|
55 |
+
| ruWorldTree | 0.265 / 0.246 | Avg. F1 / Accuracy |
|
56 |
+
| ruOpenBookQA | 0.24 / 0.221 | Avg. F1 / Accuracy |
|