Update README.md
Browse files
README.md
CHANGED
@@ -46,7 +46,57 @@ This model is a fine-tuned version of openai/whisper-small on the Common Voice 1
|
|
46 |
|
47 |
## Intended uses & limitations
|
48 |
|
49 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
50 |
|
51 |
## Training and evaluation data
|
52 |
|
|
|
46 |
|
47 |
## Intended uses & limitations
|
48 |
|
49 |
+
```python
|
50 |
+
from datasets import load_dataset
|
51 |
+
from transformers import WhisperProcessor, WhisperForConditionalGeneration
|
52 |
+
from datasets import Audio
|
53 |
+
|
54 |
+
# load the dataset
|
55 |
+
test_dataset = load_dataset("mozilla-foundation/common_voice_11_0", "ar", split="test", use_auth_token=True, trust_remote_code=True)
|
56 |
+
|
57 |
+
# get the processor and model from mohammed/whisper-small-arabic-cv-11
|
58 |
+
processor = WhisperProcessor.from_pretrained("mohammed/whisper-small-arabic-cv-11")
|
59 |
+
model = WhisperForConditionalGeneration.from_pretrained("mohammed/whisper-small-arabic-cv-11")
|
60 |
+
model.config.forced_decoder_ids = None
|
61 |
+
|
62 |
+
# resample the audio files to 16000
|
63 |
+
test_dataset = test_dataset.cast_column("audio", Audio(sampling_rate=16000))
|
64 |
+
|
65 |
+
# get 10 exmaples of model transcription
|
66 |
+
for i in range(10):
|
67 |
+
sample = test_dataset[i]["audio"]
|
68 |
+
input_features = processor(sample["array"], sampling_rate=sample["sampling_rate"], return_tensors="pt").input_features
|
69 |
+
predicted_ids = model.generate(input_features)
|
70 |
+
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=False)
|
71 |
+
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
|
72 |
+
print(f"{i} Reference Sentence: {test_dataset[i]['sentence']}")
|
73 |
+
print(f"{i} Predicted Sentence: {transcription[0]}")
|
74 |
+
```
|
75 |
+
|
76 |
+
The output is:
|
77 |
+
|
78 |
+
```
|
79 |
+
0 Reference Sentence: زارني في أوائل الشهر بدري
|
80 |
+
0 Predicted Sentence: زارني في أوائل الشهر بدري
|
81 |
+
1 Reference Sentence: إبنك بطل.
|
82 |
+
1 Predicted Sentence: ابنك بطل
|
83 |
+
2 Reference Sentence: الواعظ الأمرد هذا الذي
|
84 |
+
2 Predicted Sentence: الوعز الأمرد هذا الذي
|
85 |
+
3 Reference Sentence: سمح له هذا بالتخصص في البرونز الصغير، الذي يتم إنتاجه بشكل رئيسي ومربح للتصدير.
|
86 |
+
3 Predicted Sentence: صمح له هازب التخزوس في البرونز الصغير الذي زيت معنى به بشكل رئيسي من غربح للتصدير
|
87 |
+
4 Reference Sentence: ألديك قلم ؟
|
88 |
+
4 Predicted Sentence: ألديك قلم
|
89 |
+
5 Reference Sentence: يا نديمي قسم بي الى الصهباء
|
90 |
+
5 Predicted Sentence: يا نديمي قد سنبي إلى الصحباء
|
91 |
+
6 Reference Sentence: إنك تكبر المشكلة.
|
92 |
+
6 Predicted Sentence: إنك تكبر المشكلة
|
93 |
+
7 Reference Sentence: يرغب أن يلتقي بك.
|
94 |
+
7 Predicted Sentence: يرغب أن يلتقي بك
|
95 |
+
8 Reference Sentence: إنهم لا يعرفون لماذا حتى.
|
96 |
+
8 Predicted Sentence: إنهم لا يعرفون لماذا حبت
|
97 |
+
9 Reference Sentence: سيسعدني مساعدتك أي وقت تحب.
|
98 |
+
9 Predicted Sentence: سيسعد لمساعدتك أي وقت تحب
|
99 |
+
```
|
100 |
|
101 |
## Training and evaluation data
|
102 |
|