rmayormartins commited on
Commit
601b2f1
1 Parent(s): fe97a2a

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +91 -3
README.md CHANGED
@@ -1,3 +1,91 @@
1
- ---
2
- license: ecl-2.0
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: ecl-2.0
3
+ datasets:
4
+ - mozilla-foundation/common_voice_11_0
5
+ language:
6
+ - es
7
+ - en
8
+ metrics:
9
+ - accuracy
10
+ library_name: transformers
11
+ tags:
12
+ - code
13
+ ---
14
+
15
+ # Clasificador de Sotaques de Español
16
+
17
+ 🎙️🤖🇪🇸
18
+
19
+ Este proyecto es un clasificador de acentos que distingue entre el español y otros acentos.
20
+
21
+ ## Resumen del Proyecto
22
+
23
+ Esta aplicación utiliza un modelo entrenado para clasificar acentos de habla en dos categorías:
24
+ 1. Español
25
+ 2. Otro
26
+
27
+ El modelo se basa en el trabajo del autor [resultados] y utiliza la porción en español del conjunto de datos Common Voice (versión 11.0) de la Fundación Mozilla.
28
+
29
+ ## Conjunto de Datos
30
+
31
+ El proyecto utiliza el subconjunto en español del conjunto de datos Common Voice:
32
+ - Conjunto de datos: "mozilla-foundation/common_voice_11_0", "es"
33
+
34
+ Acentos en español incluidos en el conjunto de datos:
35
+ - Español de España
36
+ - Español de México
37
+ - Español de Argentina
38
+ - Español de Colombia
39
+ - Y varias mezclas regionales
40
+
41
+ ## Modelo y Procesador
42
+
43
+ El proyecto utiliza el siguiente modelo y procesador:
44
+ - Modelo Base: "facebook/wav2vec2-base-960h"
45
+ - Procesador: Wav2Vec2Processor.from_pretrained
46
+
47
+ ## Versiones del Modelo
48
+
49
+ Se entrenaron tres versiones del modelo con diferentes configuraciones:
50
+
51
+ 1. **(NUEVO) v 1.0**:
52
+ - Épocas: 20
53
+ - Muestras de entrenamiento: 5000
54
+ - Muestras de validación: 1000
55
+
56
+ Todos los modelos se entrenaron utilizando GPU de alta RAM en Google Colab Pro.
57
+
58
+ ## Estructura del Modelo (archivos)
59
+
60
+ Cada versión del modelo incluye los siguientes archivos:
61
+ - config.json
62
+ - preprocessor_config.json
63
+ - model.safetensors
64
+ - special_tokens_map.json
65
+ - tokenizer_config.json
66
+ - vocab.json
67
+
68
+ ## Cómo Usar
69
+
70
+ Prueba grabando o subiendo un archivo de audio. Para probar, recomiendo frases cortas.
71
+
72
+ ## Licencia
73
+
74
+ Este proyecto está licenciado bajo la Licencia Pública de Eclipse 2.0 (ECL-2.0).
75
+
76
+ ## Información del Desarrollador
77
+
78
+ Desarrollado por Ramon Mayor Martins (2024)
79
+ - Email: [email protected]
80
+ - Página web: https://rmayormartins.github.io/
81
+ - Twitter: @rmayormartins
82
+ - GitHub: https://github.com/rmayormartins
83
+
84
+ ## Agradecimientos
85
+
86
+ Agradecimientos especiales al Instituto Federal de Santa Catarina (Instituto Federal de Santa Catarina) IFSC-São José-Brasil.
87
+
88
+ ## Contacto
89
+
90
+ Para cualquier consulta o sugerencia, por favor contacte al desarrollador utilizando la información proporcionada anteriormente.
91
+