UniLM's picture

UniLM

unilm

·

AI & ML interests

Language Model Pre-Training

Organizations

unilm's activity

upvoted a paper 15 days ago

BEiT: BERT Pre-Training of Image Transformers

Paper • 2106.08254 • Published Jun 15, 2021 • 2

upvoted 2 papers about 2 months ago

ALPINE: Unveiling the Planning Capability of Autoregressive Learning in Language Models

Paper • 2405.09220 • Published May 15 • 23

You Only Cache Once: Decoder-Decoder Architectures for Language Models

Paper • 2405.05254 • Published May 8 • 8

upvoted a paper 2 months ago

Multi-Head Mixture-of-Experts

Paper • 2404.15045 • Published Apr 23 • 55

upvoted 3 papers 4 months ago

Algorithmic progress in language models

Paper • 2403.05812 • Published Mar 9 • 17

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Paper • 2402.17764 • Published Feb 27 • 573

Towards Optimal Learning of Language Models

Paper • 2402.17759 • Published Feb 27 • 16

upvoted 6 papers 8 months ago

TEAL: Tokenize and Embed ALL for Multi-modal Large Language Models

Paper • 2311.04589 • Published Nov 8, 2023 • 17

Does GPT-4 Pass the Turing Test?

Paper • 2310.20216 • Published Oct 31, 2023 • 17

Text Rendering Strategies for Pixel Language Models

Paper • 2311.00522 • Published Nov 1, 2023 • 10

Idempotent Generative Network

Paper • 2311.01462 • Published Nov 2, 2023 • 22

Levels of AGI: Operationalizing Progress on the Path to AGI

Paper • 2311.02462 • Published Nov 4, 2023 • 31

DEsignBench: Exploring and Benchmarking DALL-E 3 for Imagining Visual Design

Paper • 2310.15144 • Published Oct 23, 2023 • 12

upvoted a paper 9 months ago

BitNet: Scaling 1-bit Transformers for Large Language Models

Paper • 2310.11453 • Published Oct 17, 2023 • 94

upvoted a paper 10 months ago

Large Language Model for Science: A Study on P vs. NP

Paper • 2309.05689 • Published Sep 11, 2023 • 20

upvoted 2 papers 12 months ago

Retentive Network: A Successor to Transformer for Large Language Models

Paper • 2307.08621 • Published Jul 17, 2023 • 168

LongNet: Scaling Transformers to 1,000,000,000 Tokens

Paper • 2307.02486 • Published Jul 5, 2023 • 80

upvoted 2 papers about 1 year ago

Kosmos-2: Grounding Multimodal Large Language Models to the World

Paper • 2306.14824 • Published Jun 26, 2023 • 34

Augmenting Language Models with Long-Term Memory

Paper • 2306.07174 • Published Jun 12, 2023 • 17