mohammed commited on
Commit
01fd723
1 Parent(s): e2e35f4

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +51 -1
README.md CHANGED
@@ -46,7 +46,57 @@ This model is a fine-tuned version of openai/whisper-small on the Common Voice 1
46
 
47
  ## Intended uses & limitations
48
 
49
- More information needed
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
50
 
51
  ## Training and evaluation data
52
 
 
46
 
47
  ## Intended uses & limitations
48
 
49
+ ```python
50
+ from datasets import load_dataset
51
+ from transformers import WhisperProcessor, WhisperForConditionalGeneration
52
+ from datasets import Audio
53
+
54
+ # load the dataset
55
+ test_dataset = load_dataset("mozilla-foundation/common_voice_11_0", "ar", split="test", use_auth_token=True, trust_remote_code=True)
56
+
57
+ # get the processor and model from mohammed/whisper-small-arabic-cv-11
58
+ processor = WhisperProcessor.from_pretrained("mohammed/whisper-small-arabic-cv-11")
59
+ model = WhisperForConditionalGeneration.from_pretrained("mohammed/whisper-small-arabic-cv-11")
60
+ model.config.forced_decoder_ids = None
61
+
62
+ # resample the audio files to 16000
63
+ test_dataset = test_dataset.cast_column("audio", Audio(sampling_rate=16000))
64
+
65
+ # get 10 exmaples of model transcription
66
+ for i in range(10):
67
+ sample = test_dataset[i]["audio"]
68
+ input_features = processor(sample["array"], sampling_rate=sample["sampling_rate"], return_tensors="pt").input_features
69
+ predicted_ids = model.generate(input_features)
70
+ transcription = processor.batch_decode(predicted_ids, skip_special_tokens=False)
71
+ transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
72
+ print(f"{i} Reference Sentence: {test_dataset[i]['sentence']}")
73
+ print(f"{i} Predicted Sentence: {transcription[0]}")
74
+ ```
75
+
76
+ The output is:
77
+
78
+ ```
79
+ 0 Reference Sentence: زارني في أوائل الشهر بدري
80
+ 0 Predicted Sentence: زارني في أوائل الشهر بدري
81
+ 1 Reference Sentence: إبنك بطل.
82
+ 1 Predicted Sentence: ابنك بطل
83
+ 2 Reference Sentence: الواعظ الأمرد هذا الذي
84
+ 2 Predicted Sentence: الوعز الأمرد هذا الذي
85
+ 3 Reference Sentence: سمح له هذا بالتخصص في البرونز الصغير، الذي يتم إنتاجه بشكل رئيسي ومربح للتصدير.
86
+ 3 Predicted Sentence: صمح له هازب التخزوس في البرونز الصغير الذي زيت معنى به بشكل رئيسي من غربح للتصدير
87
+ 4 Reference Sentence: ألديك قلم ؟
88
+ 4 Predicted Sentence: ألديك قلم
89
+ 5 Reference Sentence: يا نديمي قسم بي الى الصهباء
90
+ 5 Predicted Sentence: يا نديمي قد سنبي إلى الصحباء
91
+ 6 Reference Sentence: إنك تكبر المشكلة.
92
+ 6 Predicted Sentence: إنك تكبر المشكلة
93
+ 7 Reference Sentence: يرغب أن يلتقي بك.
94
+ 7 Predicted Sentence: يرغب أن يلتقي بك
95
+ 8 Reference Sentence: إنهم لا يعرفون لماذا حتى.
96
+ 8 Predicted Sentence: إنهم لا يعرفون لماذا حبت
97
+ 9 Reference Sentence: سيسعدني مساعدتك أي وقت تحب.
98
+ 9 Predicted Sentence: سيسعد لمساعدتك أي وقت تحب
99
+ ```
100
 
101
  ## Training and evaluation data
102