Create readability pipeline.

Browse files

Files changed (13) hide show

.ipynb_checkpoints/config-checkpoint.cfg +170 -0
README.md +3 -4
attribute_ruler/patterns +0 -0
config.cfg +3 -2
en_readability-any-py3-none-any.whl +2 -2
meta.json +3 -2
parser/model +1 -1
parser/moves +1 -2
tagger/cfg +1 -0
tagger/model +2 -2
tok2vec/model +2 -2
tokenizer +0 -0
vocab/strings.json +2 -2

.ipynb_checkpoints/config-checkpoint.cfg ADDED Viewed

	@@ -0,0 +1,170 @@

+[paths]
+train = null
+dev = null
+vectors = null
+init_tok2vec = null
+[system]
+seed = 0
+gpu_allocator = null
+[nlp]
+lang = "en"
+pipeline = ["tok2vec","tagger","parser","attribute_ruler","readability"]
+disabled = []
+before_creation = null
+after_creation = null
+after_pipeline_creation = null
+batch_size = 1000
+tokenizer = {"@tokenizers":"spacy.Tokenizer.v1"}
+[components]
+[components.attribute_ruler]
+factory = "attribute_ruler"
+scorer = {"@scorers":"spacy.attribute_ruler_scorer.v1"}
+validate = false
+[components.parser]
+factory = "parser"
+learn_tokens = false
+min_action_freq = 30
+moves = null
+scorer = {"@scorers":"spacy.parser_scorer.v1"}
+update_with_oracle_cut_size = 100
+[components.parser.model]
+@architectures = "spacy.TransitionBasedParser.v2"
+state_type = "parser"
+extra_state_tokens = false
+hidden_width = 64
+maxout_pieces = 2
+use_upper = true
+nO = null
+[components.parser.model.tok2vec]
+@architectures = "spacy.Tok2VecListener.v1"
+width = 96
+upstream = "tok2vec"
+[components.readability]
+factory = "readability"
+[components.tagger]
+factory = "tagger"
+neg_prefix = "!"
+overwrite = false
+scorer = {"@scorers":"spacy.tagger_scorer.v1"}
+[components.tagger.model]
+@architectures = "spacy.Tagger.v1"
+nO = null
+[components.tagger.model.tok2vec]
+@architectures = "spacy.Tok2VecListener.v1"
+width = 96
+upstream = "tok2vec"
+[components.tok2vec]
+factory = "tok2vec"
+[components.tok2vec.model]
+@architectures = "spacy.Tok2Vec.v2"
+[components.tok2vec.model.embed]
+@architectures = "spacy.MultiHashEmbed.v2"
+width = 96
+attrs = ["NORM","PREFIX","SUFFIX","SHAPE","SPACY"]
+rows = [5000,2500,2500,2500,100]
+include_static_vectors = false
+[components.tok2vec.model.encode]
+@architectures = "spacy.MaxoutWindowEncoder.v2"
+width = 96
+depth = 4
+window_size = 1
+maxout_pieces = 3
+[corpora]
+[corpora.dev]
+@readers = "spacy.Corpus.v1"
+path = ${paths.dev}
+gold_preproc = false
+max_length = 0
+limit = 0
+augmenter = null
+[corpora.train]
+@readers = "spacy.Corpus.v1"
+path = ${paths.train}
+gold_preproc = false
+max_length = 0
+limit = 0
+augmenter = null
+[training]
+seed = ${system.seed}
+gpu_allocator = ${system.gpu_allocator}
+dropout = 0.1
+accumulate_gradient = 1
+patience = 1600
+max_epochs = 0
+max_steps = 20000
+eval_frequency = 200
+frozen_components = []
+annotating_components = []
+dev_corpus = "corpora.dev"
+train_corpus = "corpora.train"
+before_to_disk = null
+[training.batcher]
+@batchers = "spacy.batch_by_words.v1"
+discard_oversize = false
+tolerance = 0.2
+get_length = null
+[training.batcher.size]
+@schedules = "compounding.v1"
+start = 100
+stop = 1000
+compound = 1.001
+t = 0.0
+[training.logger]
+@loggers = "spacy.ConsoleLogger.v1"
+progress_bar = false
+[training.optimizer]
+@optimizers = "Adam.v1"
+beta1 = 0.9
+beta2 = 0.999
+L2_is_weight_decay = true
+L2 = 0.01
+grad_clip = 1.0
+use_averages = false
+eps = 0.00000001
+learn_rate = 0.001
+[training.score_weights]
+tag_acc = 0.5
+dep_uas = 0.25
+dep_las = 0.25
+dep_las_per_type = null
+sents_p = null
+sents_r = null
+sents_f = 0.0
+[pretraining]
+[initialize]
+vectors = ${paths.vectors}
+init_tok2vec = ${paths.init_tok2vec}
+vocab_data = null
+lookups = null
+before_init = null
+after_init = null
+[initialize.components]
+[initialize.tokenizer]

README.md CHANGED Viewed

@@ -1,5 +1,4 @@
 ---
-license: other
 tags:
 - spacy
 - text-classification
@@ -12,7 +11,7 @@ A Spacy pipeline for generating readability scores
 | --- | --- |
 | **Name** | `en_readability` |
 | **Version** | `0.1` |
-| **spaCy** | `>=3.2.1,<3.3.0` |
 | **Default Pipeline** | `tok2vec`, `tagger`, `parser`, `attribute_ruler`, `readability` |
 | **Components** | `tok2vec`, `tagger`, `parser`, `attribute_ruler`, `readability` |
 | **Vectors** | 0 keys, 0 unique vectors (0 dimensions) |
@@ -24,11 +23,11 @@ A Spacy pipeline for generating readability scores
 <details>
-<summary>View label scheme (94 labels for 2 components)</summary>
 | Component | Labels |
 | --- | --- |
-| **`tagger`** | `$`, `''`, `,`, `-LRB-`, `-RRB-`, `.`, `:`, `ADD`, `AFX`, `CC`, `CD`, `DT`, `EX`, `FW`, `HYPH`, `IN`, `JJ`, `JJR`, `JJS`, `LS`, `MD`, `NFP`, `NN`, `NNP`, `NNPS`, `NNS`, `PDT`, `POS`, `PRP`, `PRP$`, `RB`, `RBR`, `RBS`, `RP`, `SYM`, `TO`, `UH`, `VB`, `VBD`, `VBG`, `VBN`, `VBP`, `VBZ`, `WDT`, `WP`, `WP$`, `WRB`, `XX`, ```` |
 | **`parser`** | `ROOT`, `acl`, `acomp`, `advcl`, `advmod`, `agent`, `amod`, `appos`, `attr`, `aux`, `auxpass`, `case`, `cc`, `ccomp`, `compound`, `conj`, `csubj`, `csubjpass`, `dative`, `dep`, `det`, `dobj`, `expl`, `intj`, `mark`, `meta`, `neg`, `nmod`, `npadvmod`, `nsubj`, `nsubjpass`, `nummod`, `oprd`, `parataxis`, `pcomp`, `pobj`, `poss`, `preconj`, `predet`, `prep`, `prt`, `punct`, `quantmod`, `relcl`, `xcomp` |
 </details>

 ---
 tags:
 - spacy
 - text-classification
 | --- | --- |
 | **Name** | `en_readability` |
 | **Version** | `0.1` |
+| **spaCy** | `>=3.4.0,<3.5.0` |
 | **Default Pipeline** | `tok2vec`, `tagger`, `parser`, `attribute_ruler`, `readability` |
 | **Components** | `tok2vec`, `tagger`, `parser`, `attribute_ruler`, `readability` |
 | **Vectors** | 0 keys, 0 unique vectors (0 dimensions) |
 <details>
+<summary>View label scheme (95 labels for 2 components)</summary>
 | Component | Labels |
 | --- | --- |
+| **`tagger`** | `$`, `''`, `,`, `-LRB-`, `-RRB-`, `.`, `:`, `ADD`, `AFX`, `CC`, `CD`, `DT`, `EX`, `FW`, `HYPH`, `IN`, `JJ`, `JJR`, `JJS`, `LS`, `MD`, `NFP`, `NN`, `NNP`, `NNPS`, `NNS`, `PDT`, `POS`, `PRP`, `PRP$`, `RB`, `RBR`, `RBS`, `RP`, `SYM`, `TO`, `UH`, `VB`, `VBD`, `VBG`, `VBN`, `VBP`, `VBZ`, `WDT`, `WP`, `WP$`, `WRB`, `XX`, `_SP`, ```` |
 | **`parser`** | `ROOT`, `acl`, `acomp`, `advcl`, `advmod`, `agent`, `amod`, `appos`, `attr`, `aux`, `auxpass`, `case`, `cc`, `ccomp`, `compound`, `conj`, `csubj`, `csubjpass`, `dative`, `dep`, `det`, `dobj`, `expl`, `intj`, `mark`, `meta`, `neg`, `nmod`, `npadvmod`, `nsubj`, `nsubjpass`, `nummod`, `oprd`, `parataxis`, `pcomp`, `pobj`, `poss`, `preconj`, `predet`, `prep`, `prt`, `punct`, `quantmod`, `relcl`, `xcomp` |
 </details>

attribute_ruler/patterns CHANGED Viewed

Binary files a/attribute_ruler/patterns and b/attribute_ruler/patterns differ

config.cfg CHANGED Viewed

@@ -57,8 +57,9 @@ overwrite = false
 scorer = {"@scorers":"spacy.tagger_scorer.v1"}
 [components.tagger.model]
-@architectures = "spacy.Tagger.v1"
 nO = null
 [components.tagger.model.tok2vec]
 @architectures = "spacy.Tok2VecListener.v1"
@@ -75,7 +76,7 @@ factory = "tok2vec"
 @architectures = "spacy.MultiHashEmbed.v2"
 width = 96
 attrs = ["NORM","PREFIX","SUFFIX","SHAPE","SPACY"]
-rows = [5000,2500,2500,2500,100]
 include_static_vectors = false
 [components.tok2vec.model.encode]

 scorer = {"@scorers":"spacy.tagger_scorer.v1"}
 [components.tagger.model]
+@architectures = "spacy.Tagger.v2"
 nO = null
+normalize = false
 [components.tagger.model.tok2vec]
 @architectures = "spacy.Tok2VecListener.v1"
 @architectures = "spacy.MultiHashEmbed.v2"
 width = 96
 attrs = ["NORM","PREFIX","SUFFIX","SHAPE","SPACY"]
+rows = [5000,1000,2500,2500,50]
 include_static_vectors = false
 [components.tok2vec.model.encode]

en_readability-any-py3-none-any.whl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e565d770eb3af162c4bde937b46a628fc98d5094340b3543583ed4de1eb256d
-size 6873891

 version https://git-lfs.github.com/spec/v1
+oid sha256:53adcc14fe186b430af7cda67efa72e3bf21f519ff28ce2eb9bf091cc27cbc16
+size 6324285

meta.json CHANGED Viewed

@@ -7,8 +7,8 @@
   "email":"",
   "url":"www.valurank.com",
   "license":"",
-  "spacy_version":">=3.2.1,<3.3.0",
-  "spacy_git_version":"800737b41",
   "vectors":{
     "width":0,
     "vectors":0,
@@ -68,6 +68,7 @@
       "WP$",
       "WRB",
       "XX",
       "``"
     ],
     "parser":[

   "email":"",
   "url":"www.valurank.com",
   "license":"",
+  "spacy_version":">=3.4.0,<3.5.0",
+  "spacy_git_version":"d583626a8",
   "vectors":{
     "width":0,
     "vectors":0,
       "WP$",
       "WRB",
       "XX",
+      "_SP",
       "``"
     ],
     "parser":[

parser/model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b59392116d91c4703c8f57d775d471c14a788104c0491b0364ee00c1ed3dc906
 size 319909

 version https://git-lfs.github.com/spec/v1
+oid sha256:e80971fd38f1f20f11dabe644a485c6ef0846064256c7b2e929148a8b3ce6b97
 size 319909

parser/moves CHANGED Viewed

	@@ -1,2 +1 @@
1	- ��moves�
2	- {"0":{"":995932},"1":{"":989662},"2":{"det":172430,"nsubj":165679,"compound":116803,"amod":106128,"aux":87078,"punct":65505,"advmod":62711,"poss":36427,"mark":27913,"nummod":22583,"auxpass":15597,"prep":13989,"nsubjpass":13867,"neg":12358,"cc":10694,"nmod":9572,"advcl":9063,"npadvmod":8135,"quantmod":7071,"intj":6557,"ccomp":5899,"dobj":3427,"expl":3360,"dep":3191,"predet":1945,"parataxis":1826,"csubj":1431,"preconj":620,"pobj\|\|prep":615,"attr":578,"meta":448,"advmod\|\|conj":367,"dobj\|\|xcomp":352,"acomp":284,"nsubj\|\|ccomp":224,"dative":206,"advmod\|\|xcomp":149,"dobj\|\|ccomp":70,"csubjpass":64,"dobj\|\|conj":62,"prep\|\|conj":51,"acl":48,"prep\|\|nsubj":41,"prep\|\|dobj":36,"xcomp":34,"advmod\|\|ccomp":32,"oprd":31},"3":{"punct":183437,"pobj":182256,"prep":173845,"dobj":89650,"conj":59689,"cc":51858,"ccomp":30404,"advmod":22820,"xcomp":21045,"relcl":20968,"advcl":19833,"attr":17739,"acomp":16824,"appos":14963,"case":13361,"acl":12091,"pcomp":10345,"npadvmod":9702,"prt":8179,"agent":3884,"dative":3867,"nsubj":3465,"intj":2898,"neg":2871,"amod":2843,"nummod":2510,"oprd":2304,"dep":1518,"parataxis":1261,"quantmod":317,"nmod":296,"acl\|\|dobj":202,"prep\|\|dobj":190,"prep\|\|nsubj":162,"acl\|\|nsubj":159,"appos\|\|nsubj":145,"relcl\|\|dobj":134,"relcl\|\|nsubj":111,"aux":103,"expl":96,"meta":93,"appos\|\|dobj":86,"preconj":71,"csubj":65,"prep\|\|nsubjpass":55,"prep\|\|advmod":54,"prep\|\|acomp":53,"det":51,"nsubjpass":45,"acl\|\|nsubjpass":42,"relcl\|\|pobj":41,"mark":40,"auxpass":39,"prep\|\|pobj":36,"relcl\|\|nsubjpass":32,"appos\|\|nsubjpass":31},"4":{"ROOT":110979}}�cfg��neg_key�


1	+ ��moves�{"0":{"":994332},"1":{"":999432},"2":{"det":172595,"nsubj":165748,"compound":116623,"amod":105184,"aux":86667,"punct":65478,"advmod":62763,"poss":36443,"mark":27941,"nummod":22598,"auxpass":15594,"prep":14001,"nsubjpass":13856,"neg":12357,"cc":10739,"nmod":9562,"advcl":9062,"npadvmod":8168,"quantmod":7101,"intj":6464,"ccomp":5896,"dobj":3427,"expl":3360,"dep":2871,"predet":1944,"parataxis":1837,"csubj":1428,"preconj":621,"pobj\|\|prep":616,"attr":578,"meta":376,"advmod\|\|conj":368,"dobj\|\|xcomp":352,"acomp":284,"nsubj\|\|ccomp":224,"dative":206,"advmod\|\|xcomp":149,"dobj\|\|ccomp":70,"csubjpass":64,"dobj\|\|conj":62,"prep\|\|conj":51,"acl":48,"prep\|\|nsubj":41,"prep\|\|dobj":36,"xcomp":34,"advmod\|\|ccomp":32,"oprd":31},"3":{"punct":183790,"pobj":182191,"prep":174008,"dobj":89615,"conj":59687,"cc":51930,"ccomp":30385,"advmod":22861,"xcomp":21021,"relcl":20969,"advcl":19828,"attr":17741,"acomp":16922,"appos":15265,"case":13388,"acl":12085,"pcomp":10324,"dep":10116,"npadvmod":9796,"prt":8179,"agent":3903,"dative":3866,"nsubj":3470,"neg":2906,"amod":2839,"intj":2819,"nummod":2732,"oprd":2301,"parataxis":1261,"quantmod":319,"nmod":294,"acl\|\|dobj":200,"prep\|\|dobj":190,"prep\|\|nsubj":162,"acl\|\|nsubj":159,"appos\|\|nsubj":145,"relcl\|\|dobj":134,"relcl\|\|nsubj":111,"aux":103,"expl":96,"meta":92,"appos\|\|dobj":86,"preconj":71,"csubj":65,"prep\|\|nsubjpass":55,"prep\|\|advmod":54,"prep\|\|acomp":53,"det":51,"nsubjpass":45,"relcl\|\|pobj":42,"acl\|\|nsubjpass":42,"mark":40,"auxpass":39,"prep\|\|pobj":36,"relcl\|\|nsubjpass":32,"appos\|\|nsubjpass":31},"4":{"ROOT":111664}}�cfg��neg_key�

tagger/cfg CHANGED Viewed

@@ -48,6 +48,7 @@
     "WP$",
     "WRB",
     "XX",
     "``"
   ],
   "neg_prefix":"!",

     "WP$",
     "WRB",
     "XX",
+    "_SP",
     "``"
   ],
   "neg_prefix":"!",

tagger/model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba998456472a6669d24e643e1924f24daeb15da1b5eb985abae8c3e787162364
-size 19389

 version https://git-lfs.github.com/spec/v1
+oid sha256:d62054e74f89be08b720157a45ddf3a5a5a9e8c51f191cdea364e390c0032d7e
+size 19829

tok2vec/model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f529c77a3dd14a7d13e59bf848a8606f40a5d45928e324b8e3a1ecca98d14ce
-size 6734429

 version https://git-lfs.github.com/spec/v1
+oid sha256:6967e88ec7b0680d94a75500c46fe19a1b1e01ef5f608a58826077e45af5010d
+size 6139229

tokenizer CHANGED Viewed

The diff for this file is too large to render. See raw diff

vocab/strings.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d478b0a3e9b0a537949cb4949b3690251e99851da80eb192a01c7cc9496db90
-size 1089573

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b2696502155e027d7e26609065b911a03ee6c5004b150fa989e2d03a3ca4338
+size 1104000