Spaces:

taka-yamakoshi
/

tokenizer-demo

Running

taka-yamakoshi commited on Jul 27, 2022

Commit

6751661

•

1 Parent(s): ef0b5c6

fix a minor bug

Files changed (1) hide show

app.py CHANGED Viewed

@@ -95,7 +95,7 @@ if __name__=='__main__':
     # Title
     st.markdown(generate_markdown('WordPiece Explorer',size=32), unsafe_allow_html=True)
-    st.markdown(generate_markdown('quick and easy way to explore how tokenizers work',size=24), unsafe_allow_html=True)
     # Select and load the tokenizer
     st.sidebar.write('1. Choose the tokenizer from below')
@@ -139,7 +139,7 @@ if __name__=='__main__':
                 default_tokens = tokenizer('Tokenizers decompose bigger words into smaller tokens')['input_ids']
             else:
                 default_tokens = tokenizer('Tokenizers decompose bigger words into smaller tokens')['input_ids'][1:-1]
-            sentence = st.text_input(f'Tokenized IDs',value=' '.join(default_tokens))
             num_tokens = DeTokenizeText(sentence)
         else:
             sentence = st.text_input(f'Text',value='Tokenizers decompose bigger words into smaller tokens')

     # Title
     st.markdown(generate_markdown('WordPiece Explorer',size=32), unsafe_allow_html=True)
+    st.markdown(generate_markdown('- quick and easy way to explore how tokenizers work -',size=24), unsafe_allow_html=True)
     # Select and load the tokenizer
     st.sidebar.write('1. Choose the tokenizer from below')
                 default_tokens = tokenizer('Tokenizers decompose bigger words into smaller tokens')['input_ids']
             else:
                 default_tokens = tokenizer('Tokenizers decompose bigger words into smaller tokens')['input_ids'][1:-1]
+            sentence = st.text_input(f'Tokenized IDs',value=' '.join([str(token) for token in default_tokens]))
             num_tokens = DeTokenizeText(sentence)
         else:
             sentence = st.text_input(f'Text',value='Tokenizers decompose bigger words into smaller tokens')