Iker commited on
Commit
1baaa84
1 Parent(s): e635164

Upload tokenizer

Browse files
README.md CHANGED
@@ -1,55 +1,49 @@
1
  ---
2
- ---
 
3
  license: cc-by-nc-sa-4.0
 
 
 
 
 
 
 
 
4
  datasets:
5
- - Iker/NoticIA
6
- language:
7
- - es
8
  metrics:
9
- - rouge
10
- library_name: transformers
11
  pipeline_tag: text-generation
12
- base_model: NousResearch/Nous-Hermes-2-SOLAR-10.7B
13
- tags:
14
- - clickbait
15
- - noticia
16
- - spanish
17
- - summary
18
- - summarization
19
  widget:
20
- - example_title: Summary Example
21
- messages:
22
- - role: user
23
- content: "Ahora eres una Inteligencia Artificial experta en desmontar titulares
24
- sensacionalistas o clickbait. Tu tarea consiste en analizar noticias
25
- con titulares sensacionalistas y generar un resumen de una sola frase
26
- que revele la verdad detrás del titular.\\nEste es el titular de la
27
- noticia: Le compra un abrigo a su abuela de 97 años y la reacción de
28
- esta es una fantasía\\nEl titular plantea una pregunta o proporciona
29
- información incompleta. Debes buscar en el cuerpo de la noticia una
30
- frase que responda lo que se sugiere en el título. Siempre que puedas
31
- cita el texto original, especialmente si se trata de una frase que
32
- alguien ha dicho. Si citas una frase que alguien ha dicho, usa
33
- comillas para indicar que es una cita. Usa siempre las mínimas
34
- palabras posibles. No es necesario que la respuesta sea una oración
35
- completa. Puede ser sólo el foco de la pregunta. Recuerda responder
36
- siempre en Español.\\nEste es el cuerpo de la noticia:\\nLa usuaria de
37
- X @Kokreta1 ha relatado la conversación que ha tenido con su abuela de
38
- 97 años cuando le ha dado el abrigo que le ha comprado para su
39
- cumpleaños.\\nTeniendo en cuenta la avanzada edad de la señora, la
40
- tuitera le ha regalado una prenda acorde a sus años, algo con lo que
41
- su yaya no ha estado de acuerdo.\\nEl abrigo es de vieja, ha opinado
42
- la mujer cuando lo ha visto. Os juro que soy muy fan. Mañana vamos las
43
- dos (a por otro). Eso sí, la voy a llevar al Bershka, ha asegurado
44
- entre risas la joven.\\nSegún la propia cadena de ropa, la cual
45
- pertenece a Inditex, su público se caracteriza por ser jóvenes
46
- atrevidos, conocedores de las últimas tendencias e interesados en la
47
- música, las redes sociales y las nuevas tecnologías, por lo que la
48
- gente mayor no suele llevar este estilo.\\nLa inusual personalidad de
49
- la señora ha encantado a los usuarios de la red. Es por eso que el
50
- relato ha acumulado más de 1.000 me gusta y cerca de 100 retuits,
51
- además de una multitud de comentarios.\\n"
52
-
53
  ---
54
 
55
  <table>
 
1
  ---
2
+ language:
3
+ - es
4
  license: cc-by-nc-sa-4.0
5
+ library_name: transformers
6
+ tags:
7
+ - clickbait
8
+ - noticia
9
+ - spanish
10
+ - summary
11
+ - summarization
12
+ base_model: NousResearch/Nous-Hermes-2-SOLAR-10.7B
13
  datasets:
14
+ - Iker/NoticIA
 
 
15
  metrics:
16
+ - rouge
 
17
  pipeline_tag: text-generation
 
 
 
 
 
 
 
18
  widget:
19
+ - example_title: Summary Example
20
+ messages:
21
+ - role: user
22
+ content: 'Ahora eres una Inteligencia Artificial experta en desmontar titulares
23
+ sensacionalistas o clickbait. Tu tarea consiste en analizar noticias con titulares
24
+ sensacionalistas y generar un resumen de una sola frase que revele la verdad
25
+ detrás del titular.\nEste es el titular de la noticia: Le compra un abrigo a
26
+ su abuela de 97 años y la reacción de esta es una fantasía\nEl titular plantea
27
+ una pregunta o proporciona información incompleta. Debes buscar en el cuerpo
28
+ de la noticia una frase que responda lo que se sugiere en el título. Siempre
29
+ que puedas cita el texto original, especialmente si se trata de una frase que
30
+ alguien ha dicho. Si citas una frase que alguien ha dicho, usa comillas para
31
+ indicar que es una cita. Usa siempre las mínimas palabras posibles. No es necesario
32
+ que la respuesta sea una oración completa. Puede ser sólo el foco de la pregunta.
33
+ Recuerda responder siempre en Español.\nEste es el cuerpo de la noticia:\nLa
34
+ usuaria de X @Kokreta1 ha relatado la conversación que ha tenido con su abuela
35
+ de 97 años cuando le ha dado el abrigo que le ha comprado para su cumpleaños.\nTeniendo
36
+ en cuenta la avanzada edad de la señora, la tuitera le ha regalado una prenda
37
+ acorde a sus años, algo con lo que su yaya no ha estado de acuerdo.\nEl abrigo
38
+ es de vieja, ha opinado la mujer cuando lo ha visto. Os juro que soy muy fan.
39
+ Mañana vamos las dos (a por otro). Eso sí, la voy a llevar al Bershka, ha asegurado
40
+ entre risas la joven.\nSegún la propia cadena de ropa, la cual pertenece a Inditex,
41
+ su público se caracteriza por ser jóvenes atrevidos, conocedores de las últimas
42
+ tendencias e interesados en la música, las redes sociales y las nuevas tecnologías,
43
+ por lo que la gente mayor no suele llevar este estilo.\nLa inusual personalidad
44
+ de la señora ha encantado a los usuarios de la red. Es por eso que el relato
45
+ ha acumulado más de 1.000 me gusta y cerca de 100 retuits, además de una multitud
46
+ de comentarios.\n'
 
 
 
 
 
47
  ---
48
 
49
  <table>
added_tokens.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "<|im_end|>": 32000,
3
+ "<|im_start|>": 32001
4
+ }
special_tokens_map.json CHANGED
@@ -1,24 +1,20 @@
1
  {
2
- "additional_special_tokens": [
3
- "<start_of_turn>",
4
- "<end_of_turn>"
5
- ],
6
  "bos_token": {
7
- "content": "<bos>",
8
  "lstrip": false,
9
  "normalized": false,
10
  "rstrip": false,
11
  "single_word": false
12
  },
13
  "eos_token": {
14
- "content": "<eos>",
15
  "lstrip": false,
16
  "normalized": false,
17
  "rstrip": false,
18
  "single_word": false
19
  },
20
  "pad_token": {
21
- "content": "<pad>",
22
  "lstrip": false,
23
  "normalized": false,
24
  "rstrip": false,
 
1
  {
 
 
 
 
2
  "bos_token": {
3
+ "content": "<s>",
4
  "lstrip": false,
5
  "normalized": false,
6
  "rstrip": false,
7
  "single_word": false
8
  },
9
  "eos_token": {
10
+ "content": "<|im_end|>",
11
  "lstrip": false,
12
  "normalized": false,
13
  "rstrip": false,
14
  "single_word": false
15
  },
16
  "pad_token": {
17
+ "content": "</s>",
18
  "lstrip": false,
19
  "normalized": false,
20
  "rstrip": false,
tokenizer.json CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:05e97791a5e007260de1db7e1692e53150e08cea481e2bf25435553380c147ee
3
- size 17477929
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f5bdf1c387219fbafb2b203302c17a4267cad5aa131c6cadc8c898825e10f66f
3
+ size 1796152
tokenizer.model CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:61a7b147390c64585d6c3543dd6fc636906c9af3865a5548f27f31aee1d4c8e2
3
- size 4241003
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:dadfd56d766715c61d2ef780a525ab43b8e6da4de6865bda3d95fdef5e134055
3
+ size 493443
tokenizer_config.json CHANGED
@@ -1,9 +1,10 @@
1
  {
2
  "add_bos_token": true,
3
- "add_eos_token": false,
 
4
  "added_tokens_decoder": {
5
  "0": {
6
- "content": "<pad>",
7
  "lstrip": false,
8
  "normalized": false,
9
  "rstrip": false,
@@ -11,7 +12,7 @@
11
  "special": true
12
  },
13
  "1": {
14
- "content": "<eos>",
15
  "lstrip": false,
16
  "normalized": false,
17
  "rstrip": false,
@@ -19,52 +20,43 @@
19
  "special": true
20
  },
21
  "2": {
22
- "content": "<bos>",
23
  "lstrip": false,
24
  "normalized": false,
25
  "rstrip": false,
26
  "single_word": false,
27
  "special": true
28
  },
29
- "3": {
30
- "content": "<unk>",
31
  "lstrip": false,
32
  "normalized": false,
33
  "rstrip": false,
34
  "single_word": false,
35
  "special": true
36
  },
37
- "106": {
38
- "content": "<start_of_turn>",
39
  "lstrip": false,
40
  "normalized": false,
41
  "rstrip": false,
42
  "single_word": false,
43
- "special": true
44
- },
45
- "107": {
46
- "content": "<end_of_turn>",
47
- "lstrip": false,
48
- "normalized": false,
49
- "rstrip": false,
50
- "single_word": false,
51
- "special": true
52
  }
53
  },
54
- "additional_special_tokens": [
55
- "<start_of_turn>",
56
- "<end_of_turn>"
57
- ],
58
- "bos_token": "<bos>",
59
- "chat_template": "{{ bos_token }}{% if messages[0]['role'] == 'system' %}{{ raise_exception('System role not supported') }}{% endif %}{% for message in messages %}{% if (message['role'] == 'user') != (loop.index0 % 2 == 0) %}{{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}{% endif %}{% if (message['role'] == 'assistant') %}{% set role = 'model' %}{% else %}{% set role = message['role'] %}{% endif %}{{ '<start_of_turn>' + role + '\n' + message['content'] | trim + '<end_of_turn>\n' }}{% endfor %}{% if add_generation_prompt %}{{'<start_of_turn>model\n'}}{% endif %}",
60
  "clean_up_tokenization_spaces": false,
61
- "eos_token": "<eos>",
62
- "legacy": null,
63
  "model_max_length": 1000000000000000019884624838656,
64
- "pad_token": "<pad>",
65
  "sp_model_kwargs": {},
66
  "spaces_between_special_tokens": false,
67
- "tokenizer_class": "GemmaTokenizer",
 
68
  "unk_token": "<unk>",
69
- "use_default_system_prompt": false
 
70
  }
 
1
  {
2
  "add_bos_token": true,
3
+ "add_eos_token": true,
4
+ "add_prefix_space": true,
5
  "added_tokens_decoder": {
6
  "0": {
7
+ "content": "<unk>",
8
  "lstrip": false,
9
  "normalized": false,
10
  "rstrip": false,
 
12
  "special": true
13
  },
14
  "1": {
15
+ "content": "<s>",
16
  "lstrip": false,
17
  "normalized": false,
18
  "rstrip": false,
 
20
  "special": true
21
  },
22
  "2": {
23
+ "content": "</s>",
24
  "lstrip": false,
25
  "normalized": false,
26
  "rstrip": false,
27
  "single_word": false,
28
  "special": true
29
  },
30
+ "32000": {
31
+ "content": "<|im_end|>",
32
  "lstrip": false,
33
  "normalized": false,
34
  "rstrip": false,
35
  "single_word": false,
36
  "special": true
37
  },
38
+ "32001": {
39
+ "content": "<|im_start|>",
40
  "lstrip": false,
41
  "normalized": false,
42
  "rstrip": false,
43
  "single_word": false,
44
+ "special": false
 
 
 
 
 
 
 
 
45
  }
46
  },
47
+ "additional_special_tokens": [],
48
+ "bos_token": "<s>",
49
+ "chat_template": "{% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
 
 
 
50
  "clean_up_tokenization_spaces": false,
51
+ "eos_token": "<|im_end|>",
52
+ "legacy": true,
53
  "model_max_length": 1000000000000000019884624838656,
54
+ "pad_token": "</s>",
55
  "sp_model_kwargs": {},
56
  "spaces_between_special_tokens": false,
57
+ "tokenizer_class": "LlamaTokenizer",
58
+ "trust_remote_code": false,
59
  "unk_token": "<unk>",
60
+ "use_default_system_prompt": true,
61
+ "use_fast": true
62
  }