Fan Zhou's picture

Fan Zhou

koalazf99

·

https://koalazf99.github.io/

AI & ML interests

Deep Learning; Natural Language Processing; Foundation Models

Organizations

koalazf99's activity

upvoted a paper 10 days ago

OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models

Paper • 2411.04905 • Published 12 days ago • 105

upvoted 2 collections 27 days ago

💡 DICE

Self-alignment with DPO Implicit Rewards • 5 items • Updated Jul 28 • 8

🫐 ProX Projects

Collection for: "Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale" • 18 items • Updated 27 days ago • 2

upvoted a paper 29 days ago

Arctic-SnowCoder: Demystifying High-Quality Data in Code Pretraining

Paper • 2409.02326 • Published Sep 3 • 18

upvoted a collection about 1 month ago

Llama-3.1-Nemotron-70B

SOTA models on Arena Hard and RewardBench as of 1 Oct 2024. • 6 items • Updated Oct 15 • 137

upvoted a paper about 1 month ago

Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates

Paper • 2410.07137 • Published Oct 9 • 6

upvoted 3 collections about 1 month ago

📑Trending Papers - September 9⃣️

10 items • Updated 4 days ago • 8

ProX Refining Models

Adapted small language models used to generate data refining programs • 5 items • Updated Oct 10 • 2

Qwen2.5-Math

Math-specific model series based on Qwen2.5 • 9 items • Updated Sep 23 • 45

upvoted an article about 2 months ago

Article

RegMix: Data Mixture as Regression for Language Model Pre-training

By

•

Jul 11

• 10

upvoted a collection about 2 months ago

ProX Dataset

a collection of pre-training corpora refined by ProX • 5 items • Updated Oct 18 • 5

upvoted a paper about 2 months ago

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models

Paper • 2409.17146 • Published Sep 25 • 101

upvoted an article about 2 months ago

Article

ZebraLogic: Benchmarking the Logical Reasoning Ability of Language Models

By

•

Jul 27

• 23

upvoted a paper about 2 months ago

Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale

Paper • 2409.17115 • Published Sep 25 • 59

upvoted a paper 2 months ago

Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18 • 135

upvoted an article 4 months ago

Article

SmolLM - blazingly fast and remarkably powerful

Jul 16

• 263

upvoted a paper 4 months ago

ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation

Paper • 2407.06135 • Published Jul 8 • 20

upvoted 2 papers 5 months ago

RegMix: Data Mixture as Regression for Language Model Pre-training

Paper • 2407.01492 • Published Jul 1 • 35

OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI

Paper • 2406.12753 • Published Jun 18 • 14

upvoted a paper 7 months ago

Benchmarking Benchmark Leakage in Large Language Models

Paper • 2404.18824 • Published Apr 29 • 6