Spaces:

mskov
/

test

Runtime error

App Files Files Community

mskov commited on Jun 29, 2023

Commit

db75012

•

1 Parent(s): 3836e33

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -2

app.py CHANGED Viewed

@@ -4,7 +4,7 @@ os.system("pip install transformers==4.27.0")
 os.system("pip install torch")
 os.system("pip install openai")
 os.system("pip install accelerate")
-from transformers import pipeline, WhisperModel, WhisperTokenizer, WhisperFeatureExtractor, AutoFeatureExtractor
 os.system("pip install evaluate")
 #import evaluate
 #os.system("pip install evaluate[evaluator]")
@@ -24,15 +24,33 @@ disable_caching()
 huggingface_token = os.environ["huggingface_token"]
 model = WhisperModel.from_pretrained("mskov/whisper_miso", use_auth_token=huggingface_token)
 feature_extractor = AutoFeatureExtractor.from_pretrained("mskov/whisper_miso", use_auth_token=huggingface_token)
 ds = load_dataset("mskov/miso_test", split="test")
 ds = ds.cast_column("audio", Audio(sampling_rate=16000))
 inputs = feature_extractor(ds[0]["audio"]["array"], return_tensors="pt")
 print(inputs)
 input_features = inputs.input_features
 decoder_input_ids = torch.tensor([[1, 1]]) * model.config.decoder_start_token_id
 last_hidden_state = model(input_features, decoder_input_ids=decoder_input_ids).last_hidden_state
 list(last_hidden_state.shape)
-print(list(last_hidden_state.shape))

 os.system("pip install torch")
 os.system("pip install openai")
 os.system("pip install accelerate")
+from transformers import pipeline, WhisperModel, WhisperTokenizer, WhisperFeatureExtractor, AutoFeatureExtractor, AutoProcessor
 os.system("pip install evaluate")
 #import evaluate
 #os.system("pip install evaluate[evaluator]")
 huggingface_token = os.environ["huggingface_token"]
+processor = AutoProcessor.from_pretrained("mskov/whisper_miso", use_auth_token=huggingface_token)
+def prepare_dataset(batch):
+    audio = batch["audio"]
+    batch["input_values"] = processor(audio["array"], sampling_rate=audio["sampling_rate"]).input_values[0]
+    batch["input_length"] = len(batch["input_values"])
+    with processor.as_target_processor():
+        batch["labels"] = processor(batch["sentence"]).input_ids
+    return batch
+dataset = dataset.map(prepare_dataset, remove_columns=dataset.column_names)
+print(dataset)
+'''
 model = WhisperModel.from_pretrained("mskov/whisper_miso", use_auth_token=huggingface_token)
 feature_extractor = AutoFeatureExtractor.from_pretrained("mskov/whisper_miso", use_auth_token=huggingface_token)
 ds = load_dataset("mskov/miso_test", split="test")
 ds = ds.cast_column("audio", Audio(sampling_rate=16000))
 inputs = feature_extractor(ds[0]["audio"]["array"], return_tensors="pt")
 print(inputs)
 input_features = inputs.input_features
 decoder_input_ids = torch.tensor([[1, 1]]) * model.config.decoder_start_token_id
 last_hidden_state = model(input_features, decoder_input_ids=decoder_input_ids).last_hidden_state
 list(last_hidden_state.shape)
+print(list(last_hidden_state.shape))
+'''