Amsterdam Document Classification - a FemkeBakker Collection

FemkeBakker 's Collections

Amsterdam Document Classification

Amsterdam Document Classification

updated Jun 30

Collection of fine-tuned LLMs and datasets used in a project of the Municipality of Amsterdam to classify Dutch documents.

FemkeBakker/AmsterdamDocClassificationMistral200T1Epochs

Text Generation • Updated Jul 12 • 1
FemkeBakker/AmsterdamDocClassificationMistral200T2Epochs

Text Generation • Updated Jul 12 • 12
FemkeBakker/AmsterdamDocClassificationMistral200T3Epochs

Text Generation • Updated Jul 12 • 5
FemkeBakker/AmsterdamDocClassificationLlama200T1Epochs

Text Generation • Updated Jul 12 • 4
FemkeBakker/AmsterdamDocClassificationLlama200T2Epochs

Text Generation • Updated Jul 12 • 8
FemkeBakker/AmsterdamDocClassificationLlama200T3Epochs

Text Generation • Updated Jul 12 • 11
FemkeBakker/AmsterdamDocClassificationGEITje200T1Epochs

Text Generation • Updated Jul 12
FemkeBakker/AmsterdamDocClassificationGEITje200T2Epochs

Text Generation • Updated Jul 12 • 5
FemkeBakker/AmsterdamDocClassificationGEITje200T3Epochs

Text Generation • Updated Jul 12 • 3
FemkeBakker/AmsterdamBalancedFirst200Tokens

Viewer • Updated Jul 12 • 20.8k • 43

Note Dataset used to fine-tune the models. The documents are already shortened and data is formatted into conversations, using the zero-shot prompt. It's ready to use for training.
FemkeBakker/AmsterdamDocClassificationDataset

Viewer • Updated Jul 12 • 20.8k • 48

Note The dataset includes the full text of the documents, labels, num_pages and data split (train, test, val, discard).