🏆 Leaderboards & Arenas 排行榜和评测基准

zh-ai-community 's Collections

🚀 Trending Demo

🖼️ MLLMs

🎬 Video models

💻 Code Models

🎨 Image models

📊 Dataset

✨ MoE models

🔊 Audio Models

📑 Trending Papers - October 🔟

📑Trending Papers - September 9⃣️

🔥 LLMs < 10B Base

🔥 LLMs < 10B Chat

📌 LLMs < 35B Base

📌 LLMs < 35B Chat

⚜️ LLMs < 100B

🏆 Leaderboards & Arenas 排行榜和评测基准

updated 5 days ago

Upvote

Running

4

🌎

CompassJudger Subjective Evaluation Learderboard

CompassJudger Subjective Evaluation Learderboard

Note By Shanghai AI Lab
Running on CPU Upgrade

501

🌎

Open VLM Leaderboard

VLMEvalKit Evaluation Results Collection

Note By OpenMMLab The OpenVLM Leaderboard evaluates and ranks 62 Vision-Language Models (VLMs) across 23 multi-modal benchmarks using the VLMEvalKit, featuring only open-source or publicly available API models.
Running on CPU Upgrade

94

🏆

Open Chinese LLM Leaderboard

Note By BAAI. The Open Chinese LLM Leaderboard aims to track, rank, and evaluate open Chinese large language models (LLMs). This leaderboard is powered by the FlagEval platform, providing corresponding computational resources and runtime environment. The evaluation dataset consists entirely of Chinese data to assess Chinese language proficiency.
Running

4

🐢

FlagEval-Arena

Arena

Note By BAAI Featuring 50 popular closed-source models from China and beyond!
Running

84

🚀

OpenCompass LLM Leaderboard

Note By Shanghai AI Lab An LLM leaderboard for Chinese models on many metric axes - super complete
Running

32

⚡

EvalCrafter

Note By Tencent AI Text to video generation leaderboard
Running on Zero

249

📈

GenAI Arena

Realtime Image/Video Gen AI Arena

Note By Tiger Lab An arena for image generation!
Running

16

🥇

SeaExam Leaderboard

Note By Alibaba - DAMO Southeast Asian (SEA) languages leaderboard
Running on CPU Upgrade

60

🥇

AIR-Bench Leaderboard

Note By Jina AI and BAAI A new benchmark focuses on fair out-of-domain evaluation for RAG & NeuralIR
Running

9

👁

Science Leaderboard

Leaderboard for LLM for Science Reasoning

Note By Tiger Lab Leaderboard for Science reasoning.
Running

127

📊

VBench Leaderboard

Note By Shanghai AI Lab Leaderboard for Video Generative Models.
Running

19

🏢

CompassArena
Running

4

🌎

JudgerBench Leaderboard

JudgerBench Leaderboard
Running

15

🥇

ChronoMagic Bench

A Benchmark for Metamorphic Evaluation of T2V Generation

Note By PKU-Yuan group ChronoMagic-Bench represents the inaugural benchmark dedicated to assessing T2V models' capabilities in generating time-lapse videos that demonstrate significant metamorphic amplitude and temporal coherence. The benchmark probes T2V models for their physics, biology, and chemistry capabilities, in a free-form text control.
Running

9

🥇

TempCompass

Note TempCompass is a benchmark to evaluate the temporal perception ability of Video LLMs.
Running on Zero

43

📈

K-Sort Arena

Efficient Image/Video K-Sort Arena

Note K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences
Sleeping

7

🏢

Salad Bench Leaderboard

Note Leaderboard for LLM Safety.

Upvote

🏆 Leaderboards & Arenas 排行榜和评测基准

CompassJudger Subjective Evaluation Learderboard

Open VLM Leaderboard

Open Chinese LLM Leaderboard

FlagEval-Arena

OpenCompass LLM Leaderboard

EvalCrafter

GenAI Arena

SeaExam Leaderboard

AIR-Bench Leaderboard

Science Leaderboard

VBench Leaderboard

CompassArena

JudgerBench Leaderboard

ChronoMagic Bench

TempCompass

K-Sort Arena

Salad Bench Leaderboard