Spaces:

HeshamHaroon
/

Arabic_Tokenizer

Runtime error

HeshamHaroon commited on Feb 28

Commit

4c91389

•

1 Parent(s): 3b0ce68

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -36,6 +36,7 @@ def compare_tokenizers(tokenizer_name, text):
     if tokenizer_name in ["FreedomIntelligence/AceGPT-13B", "FreedomIntelligence/AceGPT-7B", "inception-mbzuai/jais-13b"]:
         tokenizer = tokenizers[tokenizer_name]()
         tokens = tokenizer.tokenize(text)
         encoded_output = tokenizer.encode(text, add_special_tokens=True, return_tensors="pt")
         decoded_text = tokenizer.decode(encoded_output[0], skip_special_tokens=True)
     else:
@@ -57,7 +58,7 @@ inputs_component = [
 ]
 outputs_component = gr.Dataframe(
-    headers=["Tokenizer", "Tokens", "Encoded Output", "Decoded Text"],
     label="Results",
     type="pandas"
 )

     if tokenizer_name in ["FreedomIntelligence/AceGPT-13B", "FreedomIntelligence/AceGPT-7B", "inception-mbzuai/jais-13b"]:
         tokenizer = tokenizers[tokenizer_name]()
         tokens = tokenizer.tokenize(text)
+        tokens_arabic = [token.encode('utf-8').decode('utf-8') for token in tokens]
         encoded_output = tokenizer.encode(text, add_special_tokens=True, return_tensors="pt")
         decoded_text = tokenizer.decode(encoded_output[0], skip_special_tokens=True)
     else:
 ]
 outputs_component = gr.Dataframe(
+    headers=["Tokenizer", "Tokens", "Encoded", "Decoded"],
     label="Results",
     type="pandas"
 )