model dump

Browse files

Files changed (7) hide show

README.md +348 -0
config.json +67 -0
pytorch_model.bin +3 -0
special_tokens_map.json +1 -0
tokenizer.json +0 -0
tokenizer_config.json +1 -0
train.args +1 -0

README.md ADDED Viewed

	@@ -0,0 +1,348 @@

+---
+language:
+- de
+license: apache-2.0
+library_name: transformers
+tags:
+- part-of-speech
+- token-classification
+datasets:
+- universal_dependencies
+metrics:
+- accuracy
+model-index:
+- name: xlm-roberta-base-ft-udpos28-de
+  results:
+  - task:
+      type: token-classification
+      name: Part-of-Speech Tagging
+    dataset:
+      type: universal_dependencies
+      name: Universal Dependencies v2.8
+    metrics:
+      - type: accuracy
+        name: English Test accuracy
+        value: 87.0
+      - type: accuracy
+        name: Dutch Test accuracy
+        value: 89.6
+      - type: accuracy
+        name: German Test accuracy
+        value: 97.2
+      - type: accuracy
+        name: Italian Test accuracy
+        value: 85.6
+      - type: accuracy
+        name: French Test accuracy
+        value: 84.8
+      - type: accuracy
+        name: Spanish Test accuracy
+        value: 88.4
+      - type: accuracy
+        name: Russian Test accuracy
+        value: 89.4
+      - type: accuracy
+        name: Swedish Test accuracy
+        value: 92.3
+      - type: accuracy
+        name: Norwegian Test accuracy
+        value: 87.7
+      - type: accuracy
+        name: Danish Test accuracy
+        value: 88.9
+      - type: accuracy
+        name: Low Saxon Test accuracy
+        value: 44.3
+      - type: accuracy
+        name: Akkadian Test accuracy
+        value: 21.4
+      - type: accuracy
+        name: Armenian Test accuracy
+        value: 85.6
+      - type: accuracy
+        name: Welsh Test accuracy
+        value: 69.0
+      - type: accuracy
+        name: Old East Slavic Test accuracy
+        value: 67.7
+      - type: accuracy
+        name: Albanian Test accuracy
+        value: 84.6
+      - type: accuracy
+        name: Slovenian Test accuracy
+        value: 76.5
+      - type: accuracy
+        name: Guajajara Test accuracy
+        value: 18.1
+      - type: accuracy
+        name: Kurmanji Test accuracy
+        value: 74.1
+      - type: accuracy
+        name: Turkish Test accuracy
+        value: 75.6
+      - type: accuracy
+        name: Finnish Test accuracy
+        value: 83.8
+      - type: accuracy
+        name: Indonesian Test accuracy
+        value: 82.2
+      - type: accuracy
+        name: Ukrainian Test accuracy
+        value: 89.0
+      - type: accuracy
+        name: Polish Test accuracy
+        value: 86.6
+      - type: accuracy
+        name: Portuguese Test accuracy
+        value: 87.8
+      - type: accuracy
+        name: Kazakh Test accuracy
+        value: 80.6
+      - type: accuracy
+        name: Latin Test accuracy
+        value: 75.8
+      - type: accuracy
+        name: Old French Test accuracy
+        value: 36.3
+      - type: accuracy
+        name: Buryat Test accuracy
+        value: 49.8
+      - type: accuracy
+        name: Kaapor Test accuracy
+        value: 11.7
+      - type: accuracy
+        name: Korean Test accuracy
+        value: 61.4
+      - type: accuracy
+        name: Estonian Test accuracy
+        value: 86.6
+      - type: accuracy
+        name: Croatian Test accuracy
+        value: 88.8
+      - type: accuracy
+        name: Gothic Test accuracy
+        value: 8.1
+      - type: accuracy
+        name: Swiss German Test accuracy
+        value: 54.4
+      - type: accuracy
+        name: Assyrian Test accuracy
+        value: 17.2
+      - type: accuracy
+        name: North Sami Test accuracy
+        value: 25.0
+      - type: accuracy
+        name: Naija Test accuracy
+        value: 28.2
+      - type: accuracy
+        name: Latvian Test accuracy
+        value: 83.9
+      - type: accuracy
+        name: Chinese Test accuracy
+        value: 52.6
+      - type: accuracy
+        name: Tagalog Test accuracy
+        value: 72.1
+      - type: accuracy
+        name: Bambara Test accuracy
+        value: 17.5
+      - type: accuracy
+        name: Lithuanian Test accuracy
+        value: 82.6
+      - type: accuracy
+        name: Galician Test accuracy
+        value: 85.2
+      - type: accuracy
+        name: Vietnamese Test accuracy
+        value: 60.8
+      - type: accuracy
+        name: Greek Test accuracy
+        value: 88.7
+      - type: accuracy
+        name: Catalan Test accuracy
+        value: 86.8
+      - type: accuracy
+        name: Czech Test accuracy
+        value: 87.4
+      - type: accuracy
+        name: Erzya Test accuracy
+        value: 33.6
+      - type: accuracy
+        name: Bhojpuri Test accuracy
+        value: 46.5
+      - type: accuracy
+        name: Thai Test accuracy
+        value: 62.4
+      - type: accuracy
+        name: Marathi Test accuracy
+        value: 86.5
+      - type: accuracy
+        name: Basque Test accuracy
+        value: 77.3
+      - type: accuracy
+        name: Slovak Test accuracy
+        value: 87.6
+      - type: accuracy
+        name: Kiche Test accuracy
+        value: 21.6
+      - type: accuracy
+        name: Yoruba Test accuracy
+        value: 16.6
+      - type: accuracy
+        name: Warlpiri Test accuracy
+        value: 21.5
+      - type: accuracy
+        name: Tamil Test accuracy
+        value: 84.2
+      - type: accuracy
+        name: Maltese Test accuracy
+        value: 15.3
+      - type: accuracy
+        name: Ancient Greek Test accuracy
+        value: 62.0
+      - type: accuracy
+        name: Icelandic Test accuracy
+        value: 84.1
+      - type: accuracy
+        name: Mbya Guarani Test accuracy
+        value: 20.5
+      - type: accuracy
+        name: Urdu Test accuracy
+        value: 68.0
+      - type: accuracy
+        name: Romanian Test accuracy
+        value: 83.5
+      - type: accuracy
+        name: Persian Test accuracy
+        value: 76.0
+      - type: accuracy
+        name: Apurina Test accuracy
+        value: 22.2
+      - type: accuracy
+        name: Japanese Test accuracy
+        value: 36.2
+      - type: accuracy
+        name: Hungarian Test accuracy
+        value: 86.7
+      - type: accuracy
+        name: Hindi Test accuracy
+        value: 73.0
+      - type: accuracy
+        name: Classical Chinese Test accuracy
+        value: 28.6
+      - type: accuracy
+        name: Komi Permyak Test accuracy
+        value: 34.9
+      - type: accuracy
+        name: Faroese Test accuracy
+        value: 76.6
+      - type: accuracy
+        name: Sanskrit Test accuracy
+        value: 9.4
+      - type: accuracy
+        name: Livvi Test accuracy
+        value: 50.9
+      - type: accuracy
+        name: Arabic Test accuracy
+        value: 79.4
+      - type: accuracy
+        name: Wolof Test accuracy
+        value: 21.1
+      - type: accuracy
+        name: Bulgarian Test accuracy
+        value: 91.1
+      - type: accuracy
+        name: Akuntsu Test accuracy
+        value: 14.4
+      - type: accuracy
+        name: Makurap Test accuracy
+        value: 1.4
+      - type: accuracy
+        name: Kangri Test accuracy
+        value: 40.5
+      - type: accuracy
+        name: Breton Test accuracy
+        value: 60.0
+      - type: accuracy
+        name: Telugu Test accuracy
+        value: 83.2
+      - type: accuracy
+        name: Cantonese Test accuracy
+        value: 48.9
+      - type: accuracy
+        name: Old Church Slavonic Test accuracy
+        value: 38.7
+      - type: accuracy
+        name: Karelian Test accuracy
+        value: 64.4
+      - type: accuracy
+        name: Upper Sorbian Test accuracy
+        value: 65.5
+      - type: accuracy
+        name: South Levantine Arabic Test accuracy
+        value: 66.8
+      - type: accuracy
+        name: Komi Zyrian Test accuracy
+        value: 28.4
+      - type: accuracy
+        name: Irish Test accuracy
+        value: 66.3
+      - type: accuracy
+        name: Nayini Test accuracy
+        value: 44.9
+      - type: accuracy
+        name: Munduruku Test accuracy
+        value: 8.0
+      - type: accuracy
+        name: Manx Test accuracy
+        value: 20.6
+      - type: accuracy
+        name: Skolt Sami Test accuracy
+        value: 25.8
+      - type: accuracy
+        name: Afrikaans Test accuracy
+        value: 88.9
+      - type: accuracy
+        name: Old Turkish Test accuracy
+        value: 31.7
+      - type: accuracy
+        name: Tupinamba Test accuracy
+        value: 20.9
+      - type: accuracy
+        name: Belarusian Test accuracy
+        value: 89.5
+      - type: accuracy
+        name: Serbian Test accuracy
+        value: 89.8
+      - type: accuracy
+        name: Moksha Test accuracy
+        value: 31.3
+      - type: accuracy
+        name: Western Armenian Test accuracy
+        value: 77.6
+      - type: accuracy
+        name: Scottish Gaelic Test accuracy
+        value: 56.5
+      - type: accuracy
+        name: Khunsari Test accuracy
+        value: 35.1
+      - type: accuracy
+        name: Hebrew Test accuracy
+        value: 91.7
+      - type: accuracy
+        name: Uyghur Test accuracy
+        value: 71.5
+      - type: accuracy
+        name: Chukchi Test accuracy
+        value: 29.0
+---
+# XLM-RoBERTa base Universal Dependencies v2.8 POS tagging: German
+This model is part of our paper called:
+- Make the Best of Cross-lingual Transfer: Evidence from POS Tagging with over 100 Languages
+Check the [Space]([Space](https://huggingface.co/spaces/wietsedv/xpos)) for more details.

config.json ADDED Viewed

	@@ -0,0 +1,67 @@

+{
+  "_name_or_path": "output/xlm-roberta-base_ft_udpos28-de/1d6ca3e8",
+  "architectures": [
+    "XLMRobertaForTokenClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "ADJ",
+    "1": "ADP",
+    "2": "ADV",
+    "3": "AUX",
+    "4": "CCONJ",
+    "5": "DET",
+    "6": "INTJ",
+    "7": "NOUN",
+    "8": "NUM",
+    "9": "PART",
+    "10": "PRON",
+    "11": "PROPN",
+    "12": "PUNCT",
+    "13": "SCONJ",
+    "14": "SYM",
+    "15": "VERB",
+    "16": "X"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "ADJ": 0,
+    "ADP": 1,
+    "ADV": 2,
+    "AUX": 3,
+    "CCONJ": 4,
+    "DET": 5,
+    "INTJ": 6,
+    "NOUN": 7,
+    "NUM": 8,
+    "PART": 9,
+    "PRON": 10,
+    "PROPN": 11,
+    "PUNCT": 12,
+    "SCONJ": 13,
+    "SYM": 14,
+    "VERB": 15,
+    "X": 16
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "xlm-roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.10.2",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 250002
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f6171b1114abe08e63737cfed4aad0257230c474a524ee942904dac00ed1b1c
+size 1109946481

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "pad_token": "<pad>", "cls_token": "<s>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": false}}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"bos_token": "<s>", "eos_token": "</s>", "sep_token": "</s>", "cls_token": "<s>", "unk_token": "<unk>", "pad_token": "<pad>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "add_prefix_space": true, "model_max_length": 512, "special_tokens_map_file": null, "name_or_path": "output/xlm-roberta-base_ft_udpos28-de/1d6ca3e8", "tokenizer_class": "XLMRobertaTokenizer"}

train.args ADDED Viewed

	@@ -0,0 +1 @@


1	+ udpos -tt=token-classification -tn=udpos28 -mi=xlm-roberta-base -mt=ft --learning_rate=5e-5 --eval_steps=1000 --eval_batch_size=10 --train_batch_size=10 --num_train_epochs=3 --multi