让我们共同期待OpenCompass 2023年度大模型榜单的发布,期待各大模型在榜单上的精彩表现!
## 🧭 欢迎 来到**OpenCompass**! 就像指南针在我们的旅程中为我们导航一样,我们希望OpenCompass能够帮助你穿越评估大型语言模型的重重迷雾。OpenCompass提供丰富的算法和功能支持,期待OpenCompass能够帮助社区更便捷地对NLP模型的性能进行公平全面的评估。 🚩🚩🚩 欢迎加入 OpenCompass!我们目前**招聘全职研究人员/工程师和实习生**。如果您对 LLM 和 OpenCompass 充满热情,请随时通过[电子邮件](mailto:zhangsongyang@pjlab.org.cn)与我们联系。我们非常期待与您交流! 🔥🔥🔥 祝贺 **OpenCompass 作为大模型标准测试工具被Meta AI官方推荐**, 点击 Llama 的 [入门文档](https://ai.meta.com/llama/get-started/#validation) 获取更多信息. > **注意**语言 | 知识 | 推理 | 考试 |
字词释义- WiC - SummEdits成语习语- CHID语义相似度- AFQMC - BUSTM指代消解- CLUEWSC - WSC - WinoGrande翻译- Flores - IWSLT2017多语种问答- TyDi-QA - XCOPA多语种总结- XLSum |
知识问答- BoolQ - CommonSenseQA - NaturalQuestions - TriviaQA |
文本蕴含- CMNLI - OCNLI - OCNLI_FC - AX-b - AX-g - CB - RTE - ANLI常识推理- StoryCloze - COPA - ReCoRD - HellaSwag - PIQA - SIQA数学推理- MATH - GSM8K定理应用- TheoremQA - StrategyQA - SciBench综合推理- BBH |
初中/高中/大学/职业考试- C-Eval - AGIEval - MMLU - GAOKAO-Bench - CMMLU - ARC - Xiezhi医学考试- CMB |
理解 | 长文本 | 安全 | 代码 |
阅读理解- C3 - CMRC - DRCD - MultiRC - RACE - DROP - OpenBookQA - SQuAD2.0内容总结- CSL - LCSTS - XSum - SummScreen内容分析- EPRSTMT - LAMBADA - TNEWS |
长文本理解- LEval - LongBench - GovReports - NarrativeQA - Qasper |
安全- CivilComments - CrowsPairs - CValues - JigsawMultilingual - TruthfulQA健壮性- AdvGLUE |
代码- HumanEval - HumanEvalX - MBPP - APPs - DS1000 |
开源模型 | API 模型 |
- [InternLM](https://github.com/InternLM/InternLM) - [LLaMA](https://github.com/facebookresearch/llama) - [Vicuna](https://github.com/lm-sys/FastChat) - [Alpaca](https://github.com/tatsu-lab/stanford_alpaca) - [Baichuan](https://github.com/baichuan-inc) - [WizardLM](https://github.com/nlpxucan/WizardLM) - [ChatGLM2](https://github.com/THUDM/ChatGLM2-6B) - [ChatGLM3](https://github.com/THUDM/ChatGLM3-6B) - [TigerBot](https://github.com/TigerResearch/TigerBot) - [Qwen](https://github.com/QwenLM/Qwen) - [BlueLM](https://github.com/vivo-ai-lab/BlueLM) - …… | - OpenAI - Claude - ZhipuAI(ChatGLM) - Baichuan - ByteDance(YunQue) - Huawei(PanGu) - 360 - Baidu(ERNIEBot) - MiniMax(ABAB-Chat) - SenseTime(nova) - Xunfei(Spark) - …… |