josedossantos commited on
Commit
11c9b0b
1 Parent(s): d190ac2

Add new SentenceTransformer model.

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,370 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language: []
3
+ library_name: sentence-transformers
4
+ tags:
5
+ - sentence-transformers
6
+ - sentence-similarity
7
+ - feature-extraction
8
+ - dataset_size:10K<n<100K
9
+ - loss:ContrastiveLoss
10
+ base_model: raquelsilveira/legalbertpt_fp
11
+ widget:
12
+ - source_sentence: Alteração, fixação, jornada de trabalho, psicólogo.
13
+ sentences:
14
+ - "Alteração, lei federal, definição, jornada de trabalho, psicólogo.\r\n\r\n"
15
+ - Concessão, Pensão especial, pessoa, Sequela, Coronavírus, sujeição, tratamento
16
+ médico, ineficácia, diretrizes.
17
+ - Alteração, Código Civil, garantia, companheiro, direito real, habitação, imóvel
18
+ residencial, inventário.
19
+ - source_sentence: Criação, Fundo Garantidor, empresa, alimentação.
20
+ sentences:
21
+ - 'Critérios, concessão, auxíio financeiro, Municípios, compensação, redução, cota,
22
+ Fundo de Participação dos Municípios (FPM). '
23
+ - Alteração, Lei dos Crimes Hediondos, inclusão, crime hediondo, concussão, corrupção
24
+ ativa, corrupção passiva.
25
+ - Constituição federal (1988), Direitos e garantias fundamentais, acesso, Internet,
26
+ inviolabilidade, sigilo, comunicação eletrônica.
27
+ - source_sentence: Fixação, preço, Gás Liquefeito de Petróleo (GLP).
28
+ sentences:
29
+ - Autorização, Porto do Forno, município, Arraial do Cabo, (RJ), importação, exportação,
30
+ biocombustível.
31
+ - 'Obrigatoriedade, instalação, agência lotérica, banheiro feminino, banheiro masculino,
32
+ bebedouro, consumidor. '
33
+ - Proibição, empresa, telefonia móvel, mensagem, cobrança, inadimplência, ligação,
34
+ cliente.
35
+ - source_sentence: Fixação, prazo, mandato, membro, Tribunal de Contas.
36
+ sentences:
37
+ - 'Constituição Federal (1988), criação, mandato coletivo, mandato parlamentar. '
38
+ - 'Alteração, Lei Antifumo, teor alcóolico, proibição, propaganda comercial, bebida
39
+ alcoólica, comunicação de massa. '
40
+ - Obrigatoriedade, restaurante, concessão, desconto, cliente, cirurgia bariátrica,
41
+ gastroplastia endoscópica, descumprimento, multa.
42
+ - source_sentence: Regulamentação, profissão, designer de interiores.
43
+ sentences:
44
+ - Regulamentação profissional, Influenciador digital, criação, geração, Conteúdo
45
+ digital, Rede social, Mídia social, atribuição, deveres.
46
+ - 'Proibição, nomeação, homem, Cargo em comissão, Administração federal, condenação,
47
+ crime, violência contra mulher. '
48
+ - 'Alteração, Código Penal, crime contra a liberdade sexual, tipicidade penal,
49
+ violação sexual mediante fraude, utilização, sedação, reclusão. '
50
+ pipeline_tag: sentence-similarity
51
+ ---
52
+
53
+ # SentenceTransformer based on raquelsilveira/legalbertpt_fp
54
+
55
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [raquelsilveira/legalbertpt_fp](https://huggingface.co/raquelsilveira/legalbertpt_fp). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
56
+
57
+ ## Model Details
58
+
59
+ ### Model Description
60
+ - **Model Type:** Sentence Transformer
61
+ - **Base model:** [raquelsilveira/legalbertpt_fp](https://huggingface.co/raquelsilveira/legalbertpt_fp) <!-- at revision c6d8158c5561e78815d354efce6ff77a9e6730c7 -->
62
+ - **Maximum Sequence Length:** 512 tokens
63
+ - **Output Dimensionality:** 768 tokens
64
+ - **Similarity Function:** Cosine Similarity
65
+ <!-- - **Training Dataset:** Unknown -->
66
+ <!-- - **Language:** Unknown -->
67
+ <!-- - **License:** Unknown -->
68
+
69
+ ### Model Sources
70
+
71
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
72
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
73
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
74
+
75
+ ### Full Model Architecture
76
+
77
+ ```
78
+ SentenceTransformer(
79
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
80
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
81
+ )
82
+ ```
83
+
84
+ ## Usage
85
+
86
+ ### Direct Usage (Sentence Transformers)
87
+
88
+ First install the Sentence Transformers library:
89
+
90
+ ```bash
91
+ pip install -U sentence-transformers
92
+ ```
93
+
94
+ Then you can load this model and run inference.
95
+ ```python
96
+ from sentence_transformers import SentenceTransformer
97
+
98
+ # Download from the 🤗 Hub
99
+ model = SentenceTransformer("josedossantos/urf-txtIndexacao-legalbertpt")
100
+ # Run inference
101
+ sentences = [
102
+ 'Regulamentação, profissão, designer de interiores.',
103
+ 'Regulamentação profissional, Influenciador digital, criação, geração, Conteúdo digital, Rede social, Mídia social, atribuição, deveres.',
104
+ 'Proibição, nomeação, homem, Cargo em comissão, Administração federal, condena��ão, crime, violência contra mulher. ',
105
+ ]
106
+ embeddings = model.encode(sentences)
107
+ print(embeddings.shape)
108
+ # [3, 768]
109
+
110
+ # Get the similarity scores for the embeddings
111
+ similarities = model.similarity(embeddings, embeddings)
112
+ print(similarities.shape)
113
+ # [3, 3]
114
+ ```
115
+
116
+ <!--
117
+ ### Direct Usage (Transformers)
118
+
119
+ <details><summary>Click to see the direct usage in Transformers</summary>
120
+
121
+ </details>
122
+ -->
123
+
124
+ <!--
125
+ ### Downstream Usage (Sentence Transformers)
126
+
127
+ You can finetune this model on your own dataset.
128
+
129
+ <details><summary>Click to expand</summary>
130
+
131
+ </details>
132
+ -->
133
+
134
+ <!--
135
+ ### Out-of-Scope Use
136
+
137
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
138
+ -->
139
+
140
+ <!--
141
+ ## Bias, Risks and Limitations
142
+
143
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
144
+ -->
145
+
146
+ <!--
147
+ ### Recommendations
148
+
149
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
150
+ -->
151
+
152
+ ## Training Details
153
+
154
+ ### Training Dataset
155
+
156
+ #### Unnamed Dataset
157
+
158
+
159
+ * Size: 10,962 training samples
160
+ * Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>label</code>
161
+ * Approximate statistics based on the first 1000 samples:
162
+ | | sentence_0 | sentence_1 | label |
163
+ |:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:------------------------------------------------|
164
+ | type | string | string | int |
165
+ | details | <ul><li>min: 9 tokens</li><li>mean: 49.68 tokens</li><li>max: 249 tokens</li></ul> | <ul><li>min: 9 tokens</li><li>mean: 53.11 tokens</li><li>max: 421 tokens</li></ul> | <ul><li>0: ~49.90%</li><li>1: ~50.10%</li></ul> |
166
+ * Samples:
167
+ | sentence_0 | sentence_1 | label |
168
+ |:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------|
169
+ | <code>Alteração, Lei de Benefícios da Previdência Social, criação, disciplinamento, auxílio-cuidador, segurado, Regime Geral de Previdência Social (RGPS), familiar, exercício, atividade, cuidador de deficientes.</code> | <code>Alteração, Estatuto do Idoso, requisito, exercício profissional, cuidador de idosos. _Poder público, estímulo, adoção, idoso, campanha educativa. </code> | <code>1</code> |
170
+ | <code>Equiparação, doença, Lúpus Eritematoso Sistêmico, deficiência física, deficiência intelectual, efeito jurídico.</code> | <code>Criação, Política Nacional de Conscientização e Orientação sobre LES, combate, doença grave, campanha educativa, tratamento médico, informações, coleta, dados, portador, doença, pesquisa científica, garantia, acesso, medicamentos, inclusão, cosméticos, bloqueador solar, proteção, radiação ultravioleta, pele.</code> | <code>0</code> |
171
+ | <code>Alteração, Lei de Isenção do IPI para Compra de Automóveis, critério, isenção tributária, Imposto sobre Produtos Industrializados (IPI), aquisição, Automóvel, motorista, Transporte individual, transporte de passageiro, Motorista de aplicativo, benefício fiscal, tributação.</code> | <code>Alteração, Lei de Isenção do IPI para Compra de Automóveis, isenção, Imposto sobre Produtos Industrializados (IPI), motorista de aplicativo, aquisição, veículo de passageiro, tributação.</code> | <code>1</code> |
172
+ * Loss: [<code>ContrastiveLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#contrastiveloss) with these parameters:
173
+ ```json
174
+ {
175
+ "distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE",
176
+ "margin": 0.5,
177
+ "size_average": true
178
+ }
179
+ ```
180
+
181
+ ### Training Hyperparameters
182
+ #### Non-Default Hyperparameters
183
+
184
+ - `per_device_train_batch_size`: 2
185
+ - `per_device_eval_batch_size`: 2
186
+ - `num_train_epochs`: 1
187
+ - `multi_dataset_batch_sampler`: round_robin
188
+
189
+ #### All Hyperparameters
190
+ <details><summary>Click to expand</summary>
191
+
192
+ - `overwrite_output_dir`: False
193
+ - `do_predict`: False
194
+ - `prediction_loss_only`: True
195
+ - `per_device_train_batch_size`: 2
196
+ - `per_device_eval_batch_size`: 2
197
+ - `per_gpu_train_batch_size`: None
198
+ - `per_gpu_eval_batch_size`: None
199
+ - `gradient_accumulation_steps`: 1
200
+ - `eval_accumulation_steps`: None
201
+ - `learning_rate`: 5e-05
202
+ - `weight_decay`: 0.0
203
+ - `adam_beta1`: 0.9
204
+ - `adam_beta2`: 0.999
205
+ - `adam_epsilon`: 1e-08
206
+ - `max_grad_norm`: 1
207
+ - `num_train_epochs`: 1
208
+ - `max_steps`: -1
209
+ - `lr_scheduler_type`: linear
210
+ - `lr_scheduler_kwargs`: {}
211
+ - `warmup_ratio`: 0.0
212
+ - `warmup_steps`: 0
213
+ - `log_level`: passive
214
+ - `log_level_replica`: warning
215
+ - `log_on_each_node`: True
216
+ - `logging_nan_inf_filter`: True
217
+ - `save_safetensors`: True
218
+ - `save_on_each_node`: False
219
+ - `save_only_model`: False
220
+ - `no_cuda`: False
221
+ - `use_cpu`: False
222
+ - `use_mps_device`: False
223
+ - `seed`: 42
224
+ - `data_seed`: None
225
+ - `jit_mode_eval`: False
226
+ - `use_ipex`: False
227
+ - `bf16`: False
228
+ - `fp16`: False
229
+ - `fp16_opt_level`: O1
230
+ - `half_precision_backend`: auto
231
+ - `bf16_full_eval`: False
232
+ - `fp16_full_eval`: False
233
+ - `tf32`: None
234
+ - `local_rank`: 0
235
+ - `ddp_backend`: None
236
+ - `tpu_num_cores`: None
237
+ - `tpu_metrics_debug`: False
238
+ - `debug`: []
239
+ - `dataloader_drop_last`: False
240
+ - `dataloader_num_workers`: 0
241
+ - `dataloader_prefetch_factor`: None
242
+ - `past_index`: -1
243
+ - `disable_tqdm`: False
244
+ - `remove_unused_columns`: True
245
+ - `label_names`: None
246
+ - `load_best_model_at_end`: False
247
+ - `ignore_data_skip`: False
248
+ - `fsdp`: []
249
+ - `fsdp_min_num_params`: 0
250
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
251
+ - `fsdp_transformer_layer_cls_to_wrap`: None
252
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True}
253
+ - `deepspeed`: None
254
+ - `label_smoothing_factor`: 0.0
255
+ - `optim`: adamw_torch
256
+ - `optim_args`: None
257
+ - `adafactor`: False
258
+ - `group_by_length`: False
259
+ - `length_column_name`: length
260
+ - `ddp_find_unused_parameters`: None
261
+ - `ddp_bucket_cap_mb`: None
262
+ - `ddp_broadcast_buffers`: False
263
+ - `dataloader_pin_memory`: True
264
+ - `dataloader_persistent_workers`: False
265
+ - `skip_memory_metrics`: True
266
+ - `use_legacy_prediction_loop`: False
267
+ - `push_to_hub`: False
268
+ - `resume_from_checkpoint`: None
269
+ - `hub_model_id`: None
270
+ - `hub_strategy`: every_save
271
+ - `hub_private_repo`: False
272
+ - `hub_always_push`: False
273
+ - `gradient_checkpointing`: False
274
+ - `gradient_checkpointing_kwargs`: None
275
+ - `include_inputs_for_metrics`: False
276
+ - `fp16_backend`: auto
277
+ - `push_to_hub_model_id`: None
278
+ - `push_to_hub_organization`: None
279
+ - `mp_parameters`:
280
+ - `auto_find_batch_size`: False
281
+ - `full_determinism`: False
282
+ - `torchdynamo`: None
283
+ - `ray_scope`: last
284
+ - `ddp_timeout`: 1800
285
+ - `torch_compile`: False
286
+ - `torch_compile_backend`: None
287
+ - `torch_compile_mode`: None
288
+ - `dispatch_batches`: None
289
+ - `split_batches`: None
290
+ - `include_tokens_per_second`: False
291
+ - `include_num_input_tokens_seen`: False
292
+ - `neftune_noise_alpha`: None
293
+ - `optim_target_modules`: None
294
+ - `batch_sampler`: batch_sampler
295
+ - `multi_dataset_batch_sampler`: round_robin
296
+
297
+ </details>
298
+
299
+ ### Training Logs
300
+ | Epoch | Step | Training Loss |
301
+ |:------:|:----:|:-------------:|
302
+ | 0.0912 | 500 | 0.0278 |
303
+ | 0.1824 | 1000 | 0.0242 |
304
+ | 0.2737 | 1500 | 0.0226 |
305
+ | 0.3649 | 2000 | 0.0201 |
306
+ | 0.4561 | 2500 | 0.0189 |
307
+ | 0.5473 | 3000 | 0.0165 |
308
+ | 0.6386 | 3500 | 0.0148 |
309
+ | 0.7298 | 4000 | 0.0135 |
310
+ | 0.8210 | 4500 | 0.0122 |
311
+ | 0.9122 | 5000 | 0.0128 |
312
+
313
+
314
+ ### Framework Versions
315
+ - Python: 3.10.14
316
+ - Sentence Transformers: 3.0.0
317
+ - Transformers: 4.39.3
318
+ - PyTorch: 2.2.0
319
+ - Accelerate: 0.30.1
320
+ - Datasets: 2.14.4
321
+ - Tokenizers: 0.15.1
322
+
323
+ ## Citation
324
+
325
+ ### BibTeX
326
+
327
+ #### Sentence Transformers
328
+ ```bibtex
329
+ @inproceedings{reimers-2019-sentence-bert,
330
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
331
+ author = "Reimers, Nils and Gurevych, Iryna",
332
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
333
+ month = "11",
334
+ year = "2019",
335
+ publisher = "Association for Computational Linguistics",
336
+ url = "https://arxiv.org/abs/1908.10084",
337
+ }
338
+ ```
339
+
340
+ #### ContrastiveLoss
341
+ ```bibtex
342
+ @inproceedings{hadsell2006dimensionality,
343
+ author={Hadsell, R. and Chopra, S. and LeCun, Y.},
344
+ booktitle={2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06)},
345
+ title={Dimensionality Reduction by Learning an Invariant Mapping},
346
+ year={2006},
347
+ volume={2},
348
+ number={},
349
+ pages={1735-1742},
350
+ doi={10.1109/CVPR.2006.100}
351
+ }
352
+ ```
353
+
354
+ <!--
355
+ ## Glossary
356
+
357
+ *Clearly define terms in order to be accessible across audiences.*
358
+ -->
359
+
360
+ <!--
361
+ ## Model Card Authors
362
+
363
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
364
+ -->
365
+
366
+ <!--
367
+ ## Model Card Contact
368
+
369
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
370
+ -->
config.json ADDED
@@ -0,0 +1,32 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "sentence-transformers/models/urf/txtIndexacao_raq/",
3
+ "architectures": [
4
+ "BertModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "classifier_dropout": null,
8
+ "directionality": "bidi",
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.1,
11
+ "hidden_size": 768,
12
+ "initializer_range": 0.02,
13
+ "intermediate_size": 3072,
14
+ "layer_norm_eps": 1e-12,
15
+ "max_position_embeddings": 512,
16
+ "model_type": "bert",
17
+ "num_attention_heads": 12,
18
+ "num_hidden_layers": 12,
19
+ "output_past": true,
20
+ "pad_token_id": 0,
21
+ "pooler_fc_size": 768,
22
+ "pooler_num_attention_heads": 12,
23
+ "pooler_num_fc_layers": 3,
24
+ "pooler_size_per_head": 128,
25
+ "pooler_type": "first_token_transform",
26
+ "position_embedding_type": "absolute",
27
+ "torch_dtype": "float32",
28
+ "transformers_version": "4.42.4",
29
+ "type_vocab_size": 2,
30
+ "use_cache": true,
31
+ "vocab_size": 29794
32
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.0.1",
4
+ "transformers": "4.42.4",
5
+ "pytorch": "2.3.1+cu118"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:91615a54dfe7c1cb09e9528a7eecef95391985e41be45f83b57a196071c87897
3
+ size 435714904
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,37 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": {
3
+ "content": "[CLS]",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "mask_token": {
10
+ "content": "[MASK]",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": {
17
+ "content": "[PAD]",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "sep_token": {
24
+ "content": "[SEP]",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "unk_token": {
31
+ "content": "[UNK]",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ }
37
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,64 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "[PAD]",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "100": {
12
+ "content": "[UNK]",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "101": {
20
+ "content": "[CLS]",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "102": {
28
+ "content": "[SEP]",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "103": {
36
+ "content": "[MASK]",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "clean_up_tokenization_spaces": true,
45
+ "cls_token": "[CLS]",
46
+ "do_basic_tokenize": true,
47
+ "do_lower_case": false,
48
+ "mask_token": "[MASK]",
49
+ "max_length": 512,
50
+ "model_max_length": 512,
51
+ "never_split": null,
52
+ "pad_to_multiple_of": null,
53
+ "pad_token": "[PAD]",
54
+ "pad_token_type_id": 0,
55
+ "padding_side": "right",
56
+ "sep_token": "[SEP]",
57
+ "stride": 0,
58
+ "strip_accents": null,
59
+ "tokenize_chinese_chars": true,
60
+ "tokenizer_class": "BertTokenizer",
61
+ "truncation_side": "right",
62
+ "truncation_strategy": "longest_first",
63
+ "unk_token": "[UNK]"
64
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff