model improved

Browse files

Files changed (4) hide show

config.json +158 -139
pytorch_model.bin +2 -2
supar.model +1 -1
tokenizer.json +0 -0

config.json CHANGED Viewed

@@ -27,26 +27,26 @@
     "15": "B-NOUN",
     "16": "B-NOUN+ADP",
     "17": "B-NOUN+ADP+NOUN",
-    "18": "B-NOUN+ADP+VERB",
-    "19": "B-NOUN+ADV",
-    "20": "B-NOUN+NOUN",
-    "21": "B-NOUN+VERB",
-    "22": "B-NUM",
-    "23": "B-NUM+NOUN",
-    "24": "B-PART",
-    "25": "B-PART+AUX",
-    "26": "B-PART+NOUN",
-    "27": "B-PART+VERB",
-    "28": "B-PRON",
-    "29": "B-PROPN",
-    "30": "B-PUNCT",
-    "31": "B-SCONJ",
-    "32": "B-SCONJ+ADV",
-    "33": "B-VERB",
-    "34": "B-VERB+NOUN",
-    "35": "B-VERB+PART",
-    "36": "B-VERB+SCONJ",
-    "37": "B-VERT",
     "38": "CCONJ",
     "39": "DET",
     "40": "DET+NOUN",
@@ -65,45 +65,47 @@
     "53": "I-NOUN",
     "54": "I-NOUN+ADP",
     "55": "I-NOUN+ADP+NOUN",
-    "56": "I-NOUN+ADP+VERB",
-    "57": "I-NOUN+ADV",
-    "58": "I-NOUN+NOUN",
-    "59": "I-NOUN+VERB",
-    "60": "I-NUM",
-    "61": "I-NUM+NOUN",
-    "62": "I-PART",
-    "63": "I-PART+AUX",
-    "64": "I-PART+NOUN",
-    "65": "I-PART+VERB",
-    "66": "I-PRON",
-    "67": "I-PROPN",
-    "68": "I-PUNCT",
-    "69": "I-SCONJ",
-    "70": "I-SCONJ+ADV",
-    "71": "I-VERB",
-    "72": "I-VERB+NOUN",
-    "73": "I-VERB+PART",
-    "74": "I-VERB+SCONJ",
-    "75": "I-VERT",
     "76": "INTJ",
     "77": "NOUN",
     "78": "NOUN+ADP",
     "79": "NOUN+NOUN",
     "80": "NOUN+VERB",
     "81": "NUM",
-    "82": "PART",
-    "83": "PART+VERB",
-    "84": "PROPN",
-    "85": "PUNCT",
-    "86": "SCONJ",
-    "87": "SYM",
-    "88": "VERB",
-    "89": "VERB+AUX",
-    "90": "VERB+NOUN",
-    "91": "VERB+PART",
-    "92": "VERB+VERB",
-    "93": "VERT",
-    "94": "X"
   },
   "initializer_range": 0.02,
   "intermediate_size": 3072,
@@ -126,26 +128,26 @@
     "B-NOUN": 15,
     "B-NOUN+ADP": 16,
     "B-NOUN+ADP+NOUN": 17,
-    "B-NOUN+ADP+VERB": 18,
-    "B-NOUN+ADV": 19,
-    "B-NOUN+NOUN": 20,
-    "B-NOUN+VERB": 21,
-    "B-NUM": 22,
-    "B-NUM+NOUN": 23,
-    "B-PART": 24,
-    "B-PART+AUX": 25,
-    "B-PART+NOUN": 26,
-    "B-PART+VERB": 27,
-    "B-PRON": 28,
-    "B-PROPN": 29,
-    "B-PUNCT": 30,
-    "B-SCONJ": 31,
-    "B-SCONJ+ADV": 32,
-    "B-VERB": 33,
-    "B-VERB+NOUN": 34,
-    "B-VERB+PART": 35,
-    "B-VERB+SCONJ": 36,
-    "B-VERT": 37,
     "CCONJ": 38,
     "DET": 39,
     "DET+NOUN": 40,
@@ -164,45 +166,47 @@
     "I-NOUN": 53,
     "I-NOUN+ADP": 54,
     "I-NOUN+ADP+NOUN": 55,
-    "I-NOUN+ADP+VERB": 56,
-    "I-NOUN+ADV": 57,
-    "I-NOUN+NOUN": 58,
-    "I-NOUN+VERB": 59,
-    "I-NUM": 60,
-    "I-NUM+NOUN": 61,
-    "I-PART": 62,
-    "I-PART+AUX": 63,
-    "I-PART+NOUN": 64,
-    "I-PART+VERB": 65,
-    "I-PRON": 66,
-    "I-PROPN": 67,
-    "I-PUNCT": 68,
-    "I-SCONJ": 69,
-    "I-SCONJ+ADV": 70,
-    "I-VERB": 71,
-    "I-VERB+NOUN": 72,
-    "I-VERB+PART": 73,
-    "I-VERB+SCONJ": 74,
-    "I-VERT": 75,
     "INTJ": 76,
     "NOUN": 77,
     "NOUN+ADP": 78,
     "NOUN+NOUN": 79,
     "NOUN+VERB": 80,
     "NUM": 81,
-    "PART": 82,
-    "PART+VERB": 83,
-    "PROPN": 84,
-    "PUNCT": 85,
-    "SCONJ": 86,
-    "SYM": 87,
-    "VERB": 88,
-    "VERB+AUX": 89,
-    "VERB+NOUN": 90,
-    "VERB+PART": 91,
-    "VERB+VERB": 92,
-    "VERT": 93,
-    "X": 94
   },
   "layer_norm_eps": 1e-07,
   "max_position_embeddings": 512,
@@ -294,22 +298,18 @@
           "Oro",
           "wano"
         ],
-        "Oshmaketa": [
-          "Oshmake",
-          "ta"
-        ],
         "Pet-samaketa": [
           "Pet-samake",
           "ta"
         ],
         "Soita": [
           "Soi",
           "ta"
         ],
-        "cheppone": [
-          "cheppo",
-          "ne"
-        ],
         "keseta": [
           "kese",
           "ta"
@@ -326,10 +326,6 @@
           "oro",
           "wano"
         ],
-        "oshmaketa": [
-          "oshmake",
-          "ta"
-        ],
         "otta": [
           "ot",
           "ta"
@@ -338,6 +334,10 @@
           "samake",
           "ta"
         ],
         "soyta": [
           "soy",
           "ta"
@@ -363,13 +363,6 @@
           "puray"
         ]
       },
-      "NOUN+ADP+VERB": {
-        "soytaarpa": [
-          "soy",
-          "ta",
-          "arpa"
-        ]
-      },
       "NOUN+ADV": {
         "Tambeta ne": [
           "Tambe",
@@ -486,19 +479,33 @@
           "to"
         ]
       },
-      "PART+AUX": {
-        "chine": [
-          "chi",
-          "ne"
         ]
       },
       "PART+NOUN": {
         "=anpe": [
           "=an",
           "pe"
         ]
       },
       "PART+VERB": {
         "ainu-wap": [
           "a",
           "inu-wap"
@@ -522,6 +529,10 @@
         "karapa": [
           "k",
           "arapa"
         ]
       },
       "SCONJ+ADV": {
@@ -531,6 +542,14 @@
         ]
       },
       "VERB+AUX": {
         "sattek": [
           "sat",
           "tek"
@@ -549,9 +568,13 @@
           "an",
           "pe"
         ],
-        "anto": [
-          "an",
-          "to"
         ],
         "h\u00e9sep\u00e1ha": [
           "h\u00e9se",
@@ -561,9 +584,9 @@
           "kar",
           "i"
         ],
-        "ponchise": [
-          "pon",
-          "chise"
         ],
         "wenpuri": [
           "wen",
@@ -582,10 +605,6 @@
         "sapash": [
           "sap",
           "ash"
-        ],
-        "shinotash": [
-          "shinot",
-          "ash"
         ]
       },
       "VERB+SCONJ": {

     "15": "B-NOUN",
     "16": "B-NOUN+ADP",
     "17": "B-NOUN+ADP+NOUN",
+    "18": "B-NOUN+ADV",
+    "19": "B-NOUN+NOUN",
+    "20": "B-NOUN+VERB",
+    "21": "B-NUM",
+    "22": "B-NUM+NOUN",
+    "23": "B-PART",
+    "24": "B-PART+NOUN",
+    "25": "B-PART+VERB",
+    "26": "B-PRON",
+    "27": "B-PROPN",
+    "28": "B-PUNCT",
+    "29": "B-SCONJ",
+    "30": "B-SCONJ+ADV",
+    "31": "B-VERB",
+    "32": "B-VERB+AUX",
+    "33": "B-VERB+NOUN",
+    "34": "B-VERB+PART",
+    "35": "B-VERB+SCONJ",
+    "36": "B-VERT",
+    "37": "B-X",
     "38": "CCONJ",
     "39": "DET",
     "40": "DET+NOUN",
     "53": "I-NOUN",
     "54": "I-NOUN+ADP",
     "55": "I-NOUN+ADP+NOUN",
+    "56": "I-NOUN+ADV",
+    "57": "I-NOUN+NOUN",
+    "58": "I-NOUN+VERB",
+    "59": "I-NUM",
+    "60": "I-NUM+NOUN",
+    "61": "I-PART",
+    "62": "I-PART+NOUN",
+    "63": "I-PART+VERB",
+    "64": "I-PRON",
+    "65": "I-PROPN",
+    "66": "I-PUNCT",
+    "67": "I-SCONJ",
+    "68": "I-SCONJ+ADV",
+    "69": "I-VERB",
+    "70": "I-VERB+AUX",
+    "71": "I-VERB+NOUN",
+    "72": "I-VERB+PART",
+    "73": "I-VERB+SCONJ",
+    "74": "I-VERT",
+    "75": "I-X",
     "76": "INTJ",
     "77": "NOUN",
     "78": "NOUN+ADP",
     "79": "NOUN+NOUN",
     "80": "NOUN+VERB",
     "81": "NUM",
+    "82": "NUM+VERB+NOUN",
+    "83": "PART",
+    "84": "PART+NOUN",
+    "85": "PART+VERB",
+    "86": "PROPN",
+    "87": "PUNCT",
+    "88": "SCONJ",
+    "89": "SYM",
+    "90": "VERB",
+    "91": "VERB+AUX",
+    "92": "VERB+NOUN",
+    "93": "VERB+PART",
+    "94": "VERB+VERB",
+    "95": "VERT",
+    "96": "X"
   },
   "initializer_range": 0.02,
   "intermediate_size": 3072,
     "B-NOUN": 15,
     "B-NOUN+ADP": 16,
     "B-NOUN+ADP+NOUN": 17,
+    "B-NOUN+ADV": 18,
+    "B-NOUN+NOUN": 19,
+    "B-NOUN+VERB": 20,
+    "B-NUM": 21,
+    "B-NUM+NOUN": 22,
+    "B-PART": 23,
+    "B-PART+NOUN": 24,
+    "B-PART+VERB": 25,
+    "B-PRON": 26,
+    "B-PROPN": 27,
+    "B-PUNCT": 28,
+    "B-SCONJ": 29,
+    "B-SCONJ+ADV": 30,
+    "B-VERB": 31,
+    "B-VERB+AUX": 32,
+    "B-VERB+NOUN": 33,
+    "B-VERB+PART": 34,
+    "B-VERB+SCONJ": 35,
+    "B-VERT": 36,
+    "B-X": 37,
     "CCONJ": 38,
     "DET": 39,
     "DET+NOUN": 40,
     "I-NOUN": 53,
     "I-NOUN+ADP": 54,
     "I-NOUN+ADP+NOUN": 55,
+    "I-NOUN+ADV": 56,
+    "I-NOUN+NOUN": 57,
+    "I-NOUN+VERB": 58,
+    "I-NUM": 59,
+    "I-NUM+NOUN": 60,
+    "I-PART": 61,
+    "I-PART+NOUN": 62,
+    "I-PART+VERB": 63,
+    "I-PRON": 64,
+    "I-PROPN": 65,
+    "I-PUNCT": 66,
+    "I-SCONJ": 67,
+    "I-SCONJ+ADV": 68,
+    "I-VERB": 69,
+    "I-VERB+AUX": 70,
+    "I-VERB+NOUN": 71,
+    "I-VERB+PART": 72,
+    "I-VERB+SCONJ": 73,
+    "I-VERT": 74,
+    "I-X": 75,
     "INTJ": 76,
     "NOUN": 77,
     "NOUN+ADP": 78,
     "NOUN+NOUN": 79,
     "NOUN+VERB": 80,
     "NUM": 81,
+    "NUM+VERB+NOUN": 82,
+    "PART": 83,
+    "PART+NOUN": 84,
+    "PART+VERB": 85,
+    "PROPN": 86,
+    "PUNCT": 87,
+    "SCONJ": 88,
+    "SYM": 89,
+    "VERB": 90,
+    "VERB+AUX": 91,
+    "VERB+NOUN": 92,
+    "VERB+PART": 93,
+    "VERB+VERB": 94,
+    "VERT": 95,
+    "X": 96
   },
   "layer_norm_eps": 1e-07,
   "max_position_embeddings": 512,
           "Oro",
           "wano"
         ],
         "Pet-samaketa": [
           "Pet-samake",
           "ta"
         ],
+        "Shoita": [
+          "Shoi",
+          "ta"
+        ],
         "Soita": [
           "Soi",
           "ta"
         ],
         "keseta": [
           "kese",
           "ta"
           "oro",
           "wano"
         ],
         "otta": [
           "ot",
           "ta"
           "samake",
           "ta"
         ],
+        "shoita": [
+          "shoi",
+          "ta"
+        ],
         "soyta": [
           "soy",
           "ta"
           "puray"
         ]
       },
       "NOUN+ADV": {
         "Tambeta ne": [
           "Tambe",
           "to"
         ]
       },
+      "NUM+VERB+NOUN": {
+        "Shineanto": [
+          "Shine",
+          "an",
+          "to"
+        ],
+        "sineanto": [
+          "sine",
+          "an",
+          "to"
         ]
       },
       "PART+NOUN": {
         "=anpe": [
           "=an",
           "pe"
+        ],
+        "shichorpok": [
+          "shi",
+          "chorpok"
         ]
       },
       "PART+VERB": {
+        "Chirushka": [
+          "Chi",
+          "rushka"
+        ],
         "ainu-wap": [
           "a",
           "inu-wap"
         "karapa": [
           "k",
           "arapa"
+        ],
+        "shiokote": [
+          "shi",
+          "okote"
         ]
       },
       "SCONJ+ADV": {
         ]
       },
       "VERB+AUX": {
+        "poppeta ashinnangoro": [
+          "poppeta ashin",
+          "nangoro"
+        ],
+        "poppetaasinnankor": [
+          "poppetaasin",
+          "nankor"
+        ],
         "sattek": [
           "sat",
           "tek"
           "an",
           "pe"
         ],
+        "ashbe": [
+          "ash",
+          "be"
+        ],
+        "aspe": [
+          "as",
+          "pe"
         ],
         "h\u00e9sep\u00e1ha": [
           "h\u00e9se",
           "kar",
           "i"
         ],
+        "ohasiri": [
+          "oha",
+          "siri"
         ],
         "wenpuri": [
           "wen",
         "sapash": [
           "sap",
           "ash"
         ]
       },
       "VERB+SCONJ": {

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:130950825f157a277a247ff50be3c172941fa762e5f44a9a209b404021e9ac08
-size 416089171

 version https://git-lfs.github.com/spec/v1
+oid sha256:540dae77de84baec491ec433af635a0a345f9ceb4a7c0fe9845948fa5181efbf
+size 416095379

supar.model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:babbe8b36455e1b5441261b62b7bbc48da3082d0d0980788b0244bddc0f6a04b
 size 461045771

 version https://git-lfs.github.com/spec/v1
+oid sha256:9af6a91919dc6e9ba6390a1933911dd5ce8c8c44d9f84e56a26e21cd7e8f84cc
 size 461045771

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff