Spaces:
Paused
Paused
import torch | |
import torchaudio | |
import jiwer | |
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC, Wav2Vec2CTCTokenizer | |
# Load the Arabic-specific processor and model | |
model_name = "omarxadel/wav2vec2-large-xlsr-53-arabic-egyptian" | |
tokenizer = Wav2Vec2CTCTokenizer.from_pretrained(model_name) | |
processor = Wav2Vec2Processor.from_pretrained(model_name, tokenizer=tokenizer) | |
model = Wav2Vec2ForCTC.from_pretrained(model_name) | |
def transcribe(audio_file): | |
try: | |
# Load the audio file | |
print("Loading audio file...") | |
audio_input, sr = torchaudio.load(audio_file) | |
print(f"Audio loaded: {audio_input.shape}, Sample rate: {sr}") | |
# Resample if needed | |
if sr != 16000: | |
print("Resampling audio...") | |
resampler = torchaudio.transforms.Resample(orig_freq=sr, new_freq=16000) | |
audio_input = resampler(audio_input) | |
sr = 16000 | |
print(f"Audio shape after resampling: {audio_input.shape}, Sample rate: {sr}") | |
# Convert tensor to numpy array | |
audio_input = audio_input[0].numpy() | |
# Process audio input | |
print("Processing audio input...") | |
input_values = processor(audio_input, return_tensors="pt", sampling_rate=sr).input_values | |
# Run model inference | |
print("Running model inference...") | |
with torch.no_grad(): | |
logits = model(input_values).logits | |
# Decode transcription | |
print("Decoding transcription...") | |
predicted_ids = torch.argmax(logits, dim=-1) | |
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True) | |
return transcription[0] | |
except Exception as e: | |
print(f"An error occurred: {e}") | |
return None | |
# Define reference transcription for WER calculation | |
reference_transcription = " ูุงู ุงูู ุตูู ุฑุญู ู ุงููู ุชุนุงูู ูููุนูุง ุงููู ุจุนููู ู ูู ุงูุฏุงุฑูู ุงู ูู ูุตู ูุงูุฑุจุง ูู ุงูุฐูุจ ูุงููุถู ูุงูู ุทุนูู ุงุช ุงูุฑุจุง ุดูู ู ู ุงุดูุงู ุงูุจููุน ููู ุชุจุงุฏู ู ุซู ุงูุซู ู ูุงูู ุซู ู ูููุง ููู ู ุงู ุจุงุฒุงุก ู ุงู ููุฐูู ุงุฎุชูุท ุงูุงู ุฑ ุนูู ุงูู ุดุฑููู ูู ู ูู ููุงููุง ุงูู ุง ุงูุจูุน ู ุซู ุงูุฑุจุง ูุนูู ูุฐุง ููู ู ุจุงุฏูู ููุฐุง ููู ู ุจุงุฏูู ููู ุงูู ุจุงุฏูู ุฒูุงุฏู ุจูู ุงูุซู ู ู ุงูู ุซู ู ูููุง ุฒูุงุฏู ุจูู ุงูุซู ู ูุงูู ุซู ู ูู ุง ุงููุฑู ูุญู ูุจูุน ููุดุชุฑู ูุงููุฑู ูู ุงู ุงููู ุณุจุญุงูู ูุชุนุงูู ุงู ุฑ ุจุญุฑู ุฉ ุงูุฑุจุง ู ู ุงุฌู ุงูุญูุงุธ ุนูู ูุธุงู ุงูุงูุชุตุงุฏ ุงูููุฏู ู ู ุฏุงุฎูู ููู ุงุจุงุญ ุงููู ุงูุฑุจุง ููุงู ููุงู ุฒูุงุฏู ูู ูุณูุท ุงูุชุจุงุฏู ุฏูู ุฒูุงุฏุฉ ุงูุงูุชุงุฌ ููุญุฏุซ ุจุฐูู ุงูุชุถุฎู ู ู ุฏุงุฎู ุงููุธุงู ูุงุฐุง ุญุฏุซ ุงูุชุถุฎู ู ู ุฐุงุช ุงููุธุงู ู ุงูุฐู ูุถุงุฑ ุจุฐูู ู ุญุฏูุฏ ุงูุฏุฎู ุงูุฐู ูุถุงุฑ ุจุฐูู ุงููููุฑ ูุญุฑู ุงููู ุงูุฑุจุง ู ู ุงุฌู ุงูุง ููุน ุธูู ุนูู ุงููููุฑ ูุงูุฌุจ ุงูุฒูุงู ุญุชู ูุชุนุงุฏู ุฏุฎู ุงููููุฑ ูุงุฏุงุก ู ูุชุถูุงุช ุงูุญูุงู ูุชุญุฑูู ุงูุฑุจุง ู ุฑุชุจุท ูู ุงููุธุฑ ุงูุงููู ู ุน ุงูุฌุงุจ ุงูุฒูุงู ุญุฑู ุงููู ุงูุฑุจุง ูุงูุฌุจ ุญุฑู ูุงูุฌุจ ุงูุฒูุงู ู ู ุงุฌู ุญู ุงูุฉ ุงูุณุงููุฉ ุงููููุฑ ู ุญุฏูุฏ ุงูุฏุฎู ููุง ูุฌุฏ ุงูุงุณุนุงุฑ ููู ุงูุทุงูู ููุณุชุทูุน ุงู ูุญุตู ุจุงุณุชููุงูู ูู ุง ุงุฎุฐู ู ู ุงูุฒูุงู ู ุง ูุฑูุฏ ู ู ู ูุชุถูุงุช ุงูุญูุงู ูุงุฐุง ูุงู ุงูุงู ุฑ ูุฐูู ููุฐุง ูุธุงู ุฑุจุงูู ุงููู ูุงู ุญุฑุง ูุง ูุณุชุทูุน ุงุญุฏ ุงู ูุชุญูู ููู ูุง ูู ุงุฌุชู ุงุน ููุง ูู ุณูุงุณู ููุง ูู ุงูุชุตุงุฏ ููู ู ุงูู ูุธูู ู ุงูุตูุงู ูุงุฐุง ุฐูุจูุง ุงููุงุณ ููููุง ู ุชุฌุงูุฑูู ุงูุบูู ุจุฌูุงุฑู ุงููููุฑ ูุงููููุฑ ุจุฌูุงุฑู ุงูู ุณููู ูุงูู ุณููู ุจุฌูุงุฑู ุงูุบูู ูุง ูุฑู ุจูููู ุง ูุงูุตู ุงูุงูู ู ูุงุฎ ู ู ุณุจู ุณุจู ุงูู ุงูุตู ุงูุงูู ุงูุบูู ุงู ุณุจู ุงูู ุงูุตู ุงูุซุงูู ุงู ุณุจู ุงูู ุงูุตู ุงูุงูู ุงููููุฑ ูุง ูุณุชุทูุน ุงุญุฏ ุงู ูุฌุฐุจู ู ู ุงูููุชู ุญุชู ูุชุงุฎุฑ ุจุณุจุจ ุบูุงู ุงู ุฌุงูู ุงู ุณูุทุงูู ูุงู ู ู ุฌุงุก ููุฌุฏ ุงูุตูุงู ููููุญู ุจูุง ุญูุซ ู ุง ุงูุชูู ุจู ุงูุตู ููุฐูู ูู ุทูุจ ุงูุนูู ุญูุซ ู ุง ุงูุชูู ุจู ุงูู ุฌูุณ ู ู ุงูู ุชุชุงุชู ูุฐู ุงูููุณูู ุงูุงุจูู ู ู ุฏูู ูุจุฑ ุงูู ุง ุจุนุฒู ูุฑูู ูุงูุณุงููู ุจูุฌูุจ ุงูุฒูุงู ูุงูุฒูุงุฉ ููุณุช ู ูู ููุง ุนุทูู ููุง ูู ูุฏ ุนููุง ู ุจุญุฑู ุฉ ุงูุฑุจุง ุญุชู ูุญุงูุธ ุนูู ุงููุธุงู ุงูุงูุชุตุงุฏู ู ู ุฏุงุฎูู ู ู ุงูุชุถุฎู ุฐูุจุช ุงูุงูุงู ูุฌุงุกุช ุงูุงูุงู ูุชุณูุท ุนูููุง ุงุจุงูุณู ุงูุฌู ูุงูุงูุณ ูุงุฎุฑุฌูุง ุงูุฐูุจ ูุงููุถู ู ู ุงูุชุนุงู ู ูุงุณุชุจุฏููุง ุจูุง ุญููู ุณุฎููู ููู ุญููู ุงููุฑู ุงูููุฏู ุฌุนููุง ูู ุงููุง ุบุทุงุก ุซู ุจุนุฏ ุฐูู ุชูุงุณูุง ุงูุบุทุงุก ูุงุตุจุญ ูุฑูุง ูุง ููู ู ูู ูู ุงูุชุงุฌู ู ุน ููู ุชู ุฏููุงุฑ ุงูุฐูุจ 4 ุฌุฑุงู ูุฑุจุน ูู ุณูุญูุงู ูุทูุน 4 ุฌุฑุงู ูุฑุจุน ุฐูุจ ูู ุตูููุงู ูุทูุน 4 ุฌุฑุงู ูุฑุจุน ุฐูุจ ูู ุจุนูุงู ูุทูุน 4 ุฌุฑุงู ูุฑุจุน ุงูุฐูุจ ููู ุชู ููู ุงููุฑูู ุงู 200 ุฌููู ุงููู ูู ุฌูุจู ู ุชูููู 16 ูุฑุด ุญุชุฉ ุงููุฑูู ุฏู ูุดููุฉ ุงูุงุญุจุงุฑ ุงููู ุนูููุง 16 ูุฑุด ุทุจ ุงููุฑู ุจูู 16 ูุฑุด ู200 ุฌููู ููู ุณูุทุฉ ุงูุฏููู ุณูุทุฉ ุงูุงุตุฏุงุฑ ูุณูุทุฉ ุงูุฏููู ุฏู ุจุชุชุญุณุจ ุงุฒุงู ูู ููุณูุง ุจูุง ูุนูู ุฌูู ู ุตุฑ ูุฏู ูุจูู ุจูุง ูุนูู ุงู 200 ุฌููู 200 ุฌููู ุทุจ ููู ุฎุงุฑุฌูุง ูุจูู ุจููุฉ ุงูุชุงุฌูุง ูุงูุฏููุงุฑ ูุจูู ุจ 50 ุฌููู ุงููู ูู ูุงู ุจ 39 ูุฑุด ููุต ูุนูู ูุงู ุงูุฌููู ุจ 5 ุฏููุงุฑ ูุจุนุฏูู ูู ุง ุงููุงุฑ ุจูู 2 ููุต ูู ุงูุงูู ูู ุงูุงุฑุจุนููุงุช ูุงู ุงูุฌููู ุงูู ุตุฑู ุจ 5 ุฏููุงุฑ 5 ุฏููุงุฑ ูู 50 ุฌููู ูุจูู ุจูุงู ูุจูู ุจ 250 ู ุฑู ูุจูู ุงูุฌููู ุงุจู 40 ุณูุฉ 40 ุจูุณุงูู 250 ุฌููู ู ู ุงูุฌูููุงุช ุงููู ู ุนุงูุง ุฏู ุชุฎูู ุงุถุฑุจ ุฏุฎูู ูู 250 ููู ุณุงููุง ุงูุดูุฎ ููุงู ููุง ุนูุงู ุจุชุงุฎุฏ ูุงู ูููููู ุนุจุงุฑู ุนู 6000 ุฌููู ูู ุงูุดูุฑ ุทุจ 6000 ุฌููู ูู ุงูุดูุฑ ุงุถุฑุจูุง ูู 250 ูุจูู 150 ูุตุงุฏูุง ุตูุฑ ูุจูู ู ูููู ููุต ูุง ุชุฎูู ููุณู ุจูู ุงู ุงูุช ู ุนุงู ู ูููู ููุต ูู ุดูุฑ ูุชุนุฑู ุชุณูู ูุชุนุฑู ุชุดุชุฑู ูู ุนุฑุจูู ู ู ุงู 2 ู ูููู ุฏู ุงูู ุญุงุฌู ุญุชู ุงูุนุฑุจูู ุงู 14 ู ูููู ู ู ูู ุชุฌูุจูุง ุจุณ ุจุงูุชูุณูุท ุงููู ูู ุงูู ุงููู ุญุตู ุชุถุฎู ูุงูุชุถุฎู ุฏู ู ุนูุงุชู ุงูู ู ุนูุงุชู ุงู ูุฐุง ุงููุณูุท ููุชุจุงุฏู ูู ูุนุฏ ุณุจุจุง ูุงุบูุงุก ุงููููุฑ ุงูููุงู ุฏู ููู ูุง ุงุฎู ููููุง ุงูุดุงูุนู ููู ู ุงูููุงู ุงููู ุงุญูุง ูููุงู ุฏู ูุงูุงู ุงู ุงูุบุฒุงูู ุฑูู ุงูุดุงูุนูู ูุงูู ููู ุจููุชุจูู ุนุงุฏู ูุฏู ููููู ุฑุถู ุงููู ุชุนุงูู ุนูู ูู ุงูุงู ูุนูุฉ ุงูุฑุจุง ุชุนุจุฏูู ูุงูุฐูุจ ูุงููุถู ุฌุฒุก ุนูู ูุนูู ุฌุฒุก ุงูุนูู ูุนูู ุงุฐุง ุฎุฑุฌ ุนู ุงูุฐูุจูู ูุงููุถูู ููุง ุฑุจุง ููููู ุงุจู ุงูุญุงุฌุจ ููู ุญุฑู ุงูุฑุจุง ูุฌููุฑูู ุง ุงู ูุฌููุฑูุชูู ุง ุงูุฐูุจ ูุงููุถู ูุฌููุฑูู ุง ุนุดุงู ูู ุฐูุจ ููุถู ููุง ูุงููู ูุณูุท ููุชุจุงุฏู ูุงู ุจู ูุฌููุฑูู ุง ูุฌููุฑูู ุง ูุนูู ูุงููู ุฐูุจ ููุถู ู ุด ูุฌููุฑูุชูู ุง ูุนูู ููููู ูุณูุท ููุชุจุงุฏู ุจูู ุงููุงุณ ูู ูุงู ูุณูุท " | |
# Transcribe the audio file | |
transcription = transcribe("sidiali_reba_zahab_feda.wav") | |
if transcription: | |
print(transcription) | |
# Calculate Word Error Rate (WER) | |
wer = jiwer.wer(reference_transcription, transcription) | |
print(f"Word Error Rate (WER): {wer}") | |
# Save the transcription and WER to a file | |
with open("evaluation_results.txt", "w", encoding="utf-8") as f: | |
f.write(f"Transcription: {transcription}\n") | |
f.write(f"Reference: {reference_transcription}\n") | |
f.write(f"Word Error Rate (WER): {wer}\n") | |
print("Evaluation results saved to evaluation_results.txt") | |