YAML Metadata
Error:
"datasets[1]" with value "falabrasil/Audio_Corpora-Bases_de_áudio" is not valid. If possible, use a dataset id from https://hf.co/datasets.
Wav2Vec 2.0 - Brazilian Portuguese
This model is a fine-tuned of facebook/wav2vec2-large-xlsr-53 model with the following datasets:
- Common Voice 13.0
- FalaBrasil
- Multilingual Librispeech (MLS) Portuguese
- TTS-Portuguese-Corpus
- VoxForge
- Custom_dataset - With me talking - Not available
All datasets were pre-processed and cleaned (trying to keep only brazilian speakers), not original training, testing and validating files wer not used. The files used to training, testing and validating are in the "dataset_files" folder.
The model was fine-tuned using the ProgramadorArificial/transformers repository, more specific, the speech-recognition folder.
from transformers import AutoModelForCTC, Wav2Vec2Processor
processor = Wav2Vec2Processor.from_pretrained('ProgramadorArtificial/wav2vec2-large-xlsr-53-portuguese')
model = AutoModelForCTC.from_pretrained('ProgramadorArtificial/wav2vec2-large-xlsr-53-portuguese')
Video explaining how this model was trained (portuguese): https://youtu.be/ff_NQVUwtx4
Results test and validation dataset
Test
WER | CER |
---|---|
11.7% | 3.3% |
Prediction | Real |
---|---|
ele é considerado por seus companheiros de tropa como um oficial moderado | ele é considerado por seus companheiros de tropa como um oficial moderado |
os empréstimos do banco mundial exigem contrapartidas do governo beneficiados | os empréstimos do banco mundial exigem contrapartidas dos governos beneficiados |
mwendel queiroz rodrigues | wendell queiroz rodrgues |
virmontes | virmond |
conversões pelo dólar turismo a mil seiscentos e oitenta reais | conversões pelo dólar turismo a mil seiscentos e oitenta reais |
o grupo de moda são paulo promove o seu primeiro encontro | o grupo de moda são paulo promove o seu primeiro encontro |
abandonou a frança e se fixou em são paulo | abandonou a frança e se fixou em são paulo |
o avanço da tecnologia fez esta divisão perder o sentido | o avanço da tecnologia fez esta divisão perder o sentido |
reservadamente confessa não entender o comportamento do presidente | reservadamente confessa não entender o comportamento do presidente |
foi definido o campeonato estadual que começa no dia trinta | foi definido o campeonato estadual que começa no dia trinta |
Validation
WER | CER |
---|---|
9.5% | 2.6% |
Prediction | Real |
---|---|
pontex gestal | pontes gestal |
o cruzeiro real continua valendo até o dia quinze de julho | o cruzeiro real continua valendo até o dia quinze de julho |
o espaço fica portanto vago e disponível para o traficante | o espaço fica portanto vago e disponível para o traficante |
os botões estão empilhados | os botões estão empilhados |
as chances que apareciam eram perdidas pelos atacantes cruzeirenses | as chances que apareciam eram perdidas pelos atacantes cruzeirenses |
possibilitar que a população se sinta identificada com o estado | possibilitar que a população se sinta identificada com o estado |
os detentos serão transferidos das delegacias que estiverem lotadas | os detentos serão transferidos das delegacias que estiverem lotadas |
a euforia pela pista menos quente causou três incidentes | a euforia pela pista menos quente causou três incidentes |
almeida é presidente da liga independente das escolas de samba | almeida é presidente da liga independente das escolas de samba |
os modos de seu pensamento as cendências de seu espírito e até as menores particularidades de sua vida é nessa fonte que deve beber o poeta brasileiro é dela que há de sair o verdadeiro poema nacional tal como eu o imagino | os modos de seu pensamento as tendências de seu espírito e até as menores particularidades de sua vida é nessa fonte que deve beber o poeta brasileiro é dela que há de sair o verdadeiro poema nacional tal como eu o imagino |
Autor
- Downloads last month
- 29
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.