Spaces:

xu-song
/

tokenizer-arena

Running

xu-song commited on Jul 18

Commit

efd894c

•

1 Parent(s): b0c41e0

fix typo

Files changed (1) hide show

compression_app.py CHANGED Viewed

@@ -28,7 +28,7 @@ from compression_util import get_compression_leaderboard, common_corpuses
 docs = """## 📖 What is a good tokenizer?
 From a compression perspective, a good tokenizer should be lossless,
-and keep high compression rate (less tokens for a given text).
 The encoding and decoding process can be formulated as
 ```python
     token_ids = tokenizer.encode(input_text)    # compressed tokens
@@ -144,7 +144,7 @@ with gr.Blocks(theme=theme) as demo:
     gr.Markdown("## 🏆 Compression Rate Leaderboard\n"
                 "This leaderboard aims to evaluate tokenizer performance on different languages.\n"
-                "Lower `oov_ratio` refers to less out-of-vocabulary tokens.\n"
                 "Lower `char/token` means more words might be segmented into subwords."
                 )
     search_bar = gr.Textbox(

 docs = """## 📖 What is a good tokenizer?
 From a compression perspective, a good tokenizer should be lossless,
+and keep high compression rate (fewer tokens for given text).
 The encoding and decoding process can be formulated as
 ```python
     token_ids = tokenizer.encode(input_text)    # compressed tokens
     gr.Markdown("## 🏆 Compression Rate Leaderboard\n"
                 "This leaderboard aims to evaluate tokenizer performance on different languages.\n"
+                "Lower `oov_ratio` refers to fewer out-of-vocabulary tokens.\n"
                 "Lower `char/token` means more words might be segmented into subwords."
                 )
     search_bar = gr.Textbox(