mikesapi commited on
Commit
145530a
0 Parent(s):

adding sutra tokenizer inspector app

Browse files
.gitattributes ADDED
@@ -0,0 +1,35 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ *.7z filter=lfs diff=lfs merge=lfs -text
2
+ *.arrow filter=lfs diff=lfs merge=lfs -text
3
+ *.bin filter=lfs diff=lfs merge=lfs -text
4
+ *.bz2 filter=lfs diff=lfs merge=lfs -text
5
+ *.ckpt filter=lfs diff=lfs merge=lfs -text
6
+ *.ftz filter=lfs diff=lfs merge=lfs -text
7
+ *.gz filter=lfs diff=lfs merge=lfs -text
8
+ *.h5 filter=lfs diff=lfs merge=lfs -text
9
+ *.joblib filter=lfs diff=lfs merge=lfs -text
10
+ *.lfs.* filter=lfs diff=lfs merge=lfs -text
11
+ *.mlmodel filter=lfs diff=lfs merge=lfs -text
12
+ *.model filter=lfs diff=lfs merge=lfs -text
13
+ *.msgpack filter=lfs diff=lfs merge=lfs -text
14
+ *.npy filter=lfs diff=lfs merge=lfs -text
15
+ *.npz filter=lfs diff=lfs merge=lfs -text
16
+ *.onnx filter=lfs diff=lfs merge=lfs -text
17
+ *.ot filter=lfs diff=lfs merge=lfs -text
18
+ *.parquet filter=lfs diff=lfs merge=lfs -text
19
+ *.pb filter=lfs diff=lfs merge=lfs -text
20
+ *.pickle filter=lfs diff=lfs merge=lfs -text
21
+ *.pkl filter=lfs diff=lfs merge=lfs -text
22
+ *.pt filter=lfs diff=lfs merge=lfs -text
23
+ *.pth filter=lfs diff=lfs merge=lfs -text
24
+ *.rar filter=lfs diff=lfs merge=lfs -text
25
+ *.safetensors filter=lfs diff=lfs merge=lfs -text
26
+ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
27
+ *.tar.* filter=lfs diff=lfs merge=lfs -text
28
+ *.tar filter=lfs diff=lfs merge=lfs -text
29
+ *.tflite filter=lfs diff=lfs merge=lfs -text
30
+ *.tgz filter=lfs diff=lfs merge=lfs -text
31
+ *.wasm filter=lfs diff=lfs merge=lfs -text
32
+ *.xz filter=lfs diff=lfs merge=lfs -text
33
+ *.zip filter=lfs diff=lfs merge=lfs -text
34
+ *.zst filter=lfs diff=lfs merge=lfs -text
35
+ *tfevents* filter=lfs diff=lfs merge=lfs -text
README.md ADDED
@@ -0,0 +1,12 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ title: Sutra Tokenizer Comparison
3
+ emoji: 📈
4
+ colorFrom: green
5
+ colorTo: gray
6
+ sdk: gradio
7
+ sdk_version: 4.31.5
8
+ app_file: app.py
9
+ pinned: false
10
+ ---
11
+
12
+ Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
app.py ADDED
@@ -0,0 +1,160 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import logging
2
+ import time
3
+
4
+ import gradio as gr
5
+ from transformers import AutoTokenizer
6
+ import tiktoken
7
+
8
+ logger = logging.getLogger(__name__) # noqa
9
+
10
+ def load_test_phrases(filename):
11
+ with open(f"./data/{filename}", "r", encoding="utf-8") as file:
12
+ texts = file.read().splitlines()
13
+ return texts
14
+
15
+ # Initialize clients
16
+ models = [
17
+ "meta-llama/Llama-2-7b-chat-hf", # LLAMA-2
18
+ "beomi/llama-2-ko-7b", # LLAMA-2-ko
19
+ "openaccess-ai-collective/tiny-mistral", # Mistral
20
+ "gpt-3.5-turbo", # GPT3.5
21
+ "meta-llama/Meta-Llama-3-8B-Instruct", # LLAMA-3
22
+ "CohereForAI/aya-23-8B", # AYA
23
+ "google/gemma-1.1-2b-it", # GEMMA //# requires log in to HF huggingface-cli
24
+ "gpt-4o", # GPT4o
25
+ "TWO/sutra-alpha", # SUTRA
26
+ ]
27
+
28
+ test_phrase_set = [
29
+ "நாங்கள் சந்திரனுக்கு ராக்கெட் பயணத்தில் இருக்கிறோம்",
30
+
31
+ "중성자 산란을 다섯 문장으로 설명해주세요", # Korean,
32
+
33
+ "मुझे पाँच वाक्यों में न्यूट्रॉन प्रकीर्णन की व्याख्या दीजिए", # Hindi
34
+ "mujhe paanch vaakyon mein nyootron prakeernan kee vyaakhya deejie",
35
+
36
+ "আমাকে পাঁচটি বাক্যে নিউট্রন বিচ্ছুরণের একটি ব্যাখ্যা দিন", # Bengali/Bangla
37
+ "Amake pamcati bakye ni'utrana bicchuranera ekati byakhya dina",
38
+
39
+ "મને પાંચ વાક્યોમાં ન્યુટ્રોન સ્કેટરિંગની સમજૂતી આપો", # Gujarati
40
+ "Mane panca vakyomam n'yutrona sketaringani samajuti apo",
41
+
42
+ "நியூட்ரான் சிதறல் பற்றிய விளக்கத்தை ஐந்து வாக்கியங்களில் கொடுங்கள்", # Tamil
43
+ "Niyutran citaral parriya vilakkattai aintu vakkiyankalil kotunkal",
44
+
45
+ "मला पाच वाक्यात न्यूट्रॉन स्कॅटरिंगचे स्पष्टीकरण द्या", # Marathi
46
+
47
+ "ఐదు వాక్యాలలో న్యూట్రాన్ స్కాటరింగ్ గురించి నాకు వివరణ ఇవ్వండి", # Telugu
48
+ ]
49
+
50
+ test_phrase_set_long_1 = load_test_phrases('multilingualphrases01.txt')
51
+ test_phrase_set_long_2 = load_test_phrases('multilingualphrases02.txt')
52
+
53
+ def generate_tokens_as_table(text):
54
+ table = []
55
+ for model in models:
56
+ if 'gpt' not in model:
57
+ tokenizer = AutoTokenizer.from_pretrained(model)
58
+ tokens = tokenizer.encode(text, add_special_tokens=False)
59
+ else:
60
+ tokenizer = tiktoken.encoding_for_model(model)
61
+ tokens = tokenizer.encode(text)
62
+ decoded = [tokenizer.decode([t]) for t in tokens]
63
+ table.append([model] + decoded)
64
+ return table
65
+
66
+ def generate_tokenizer_table(input_text):
67
+ token_counts = {model: 0 for model in models}
68
+ vocab_size = {model: 0 for model in models}
69
+
70
+ for model in models:
71
+ if 'gpt' not in model:
72
+ tokenizer = AutoTokenizer.from_pretrained(model)
73
+ vocab_size[model] = tokenizer.vocab_size
74
+ else:
75
+ tokenizer = tiktoken.encoding_for_model(model)
76
+ vocab_size[model] = tokenizer.n_vocab
77
+
78
+ token_counts[model] += len(tokenizer.encode(input_text))
79
+
80
+ word_count = len(input_text.split(' '))
81
+
82
+ output = []
83
+ for m in models:
84
+ row = [m, vocab_size[m], word_count, token_counts[m], token_counts[m]/word_count]
85
+ output.append(row)
86
+
87
+ return output
88
+
89
+ def generate_split_token_table(text):
90
+ table = generate_tokenizer_table(text)
91
+ records = gr.Dataframe(
92
+ table,
93
+ headers=['tokenizer', 'v size', '#word', '#token', '#tokens/word'],
94
+ datatype=["str", "number", "str"],
95
+ row_count=len(models),
96
+ col_count=(5, "fixed"),
97
+ )
98
+
99
+ return records
100
+
101
+ with gr.Blocks() as sutra_token_count:
102
+ gr.Markdown(
103
+ """
104
+ # SUTRA Multilingual Tokenizer Specs & Stats.
105
+ ## Tokenize paragraphs in multiple languages and inspect how many tokens it takes to represent the multilingual paragraph.
106
+ """)
107
+ textbox = gr.Textbox(label="Input Text")
108
+ submit_button = gr.Button("Submit")
109
+ output = gr.Dataframe()
110
+ examples = [
111
+ [' '.join(test_phrase_set_long_1)],
112
+ [' '.join(test_phrase_set_long_2)],
113
+ ]
114
+ gr.Examples(examples=examples, inputs=[textbox])
115
+ submit_button.click(generate_split_token_table, inputs=[textbox], outputs=[output])
116
+
117
+ def generate_tokens_table(text):
118
+ table = generate_tokens_as_table(text)
119
+ cols = len(table[0])
120
+ records = gr.Dataframe(
121
+ table,
122
+ headers=['model'] + [str(i) for i in range(cols - 1)],
123
+ row_count=2,
124
+ col_count=(cols, "fixed"),
125
+ )
126
+
127
+ return records
128
+
129
+ with gr.Blocks() as sutra_tokenize:
130
+ gr.Markdown(
131
+ """
132
+ # SUTRA Multilingual Tokenizer Sentence Inspector.
133
+ ## Tokenize a sentence with various tokenizers and inspect how it's broken down.
134
+ """)
135
+ textbox = gr.Textbox(label="Input Text")
136
+ submit_button = gr.Button("Submit")
137
+ output = gr.Dataframe()
138
+ examples = test_phrase_set
139
+ gr.Examples(examples=examples, inputs=[textbox])
140
+ submit_button.click(generate_tokens_table, inputs=[textbox], outputs=[output])
141
+
142
+
143
+ if __name__ == '__main__':
144
+ with gr.Blocks(analytics_enabled=False) as demo:
145
+ with gr.Row():
146
+ gr.Markdown(
147
+ """
148
+ ## <img src="https://playground.two.ai/sutra.svg" height="20"/>
149
+ """
150
+ )
151
+ with gr.Row():
152
+ gr.TabbedInterface(
153
+ interface_list=[sutra_tokenize, sutra_token_count],
154
+ tab_names=["Tokenize Text", "Tokenize Paragraphs"]
155
+ )
156
+
157
+ demo.queue(default_concurrency_limit=5).launch(
158
+ server_name="0.0.0.0",
159
+ allowed_paths=["/"],
160
+ )
data/multilingualphrases01.txt ADDED
@@ -0,0 +1,39 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ कुत्तों और बिल्लियों के बीच दो अंतर उनके व्यवहार और उनकी शारीरिक विशेषताएं हैं। कुत्ते आमतौर पर अधिक सामाजिक और प्रशिक्षित होते हैं, जबकि बिल्लियाँ अधिक स्वतंत्र होती हैं। शारीरिक विशेषताओं के संदर्भ में, बिल्लियों की तुलना में कुत्तों का आकार आमतौर पर बड़ा होता है और उनके कोट के पैटर्न अधिक विविध होते हैं।
2
+ kutton aur billiyon ke beech do mukhy antar hain unaka vyavahaar aur unakee shaareerik visheshataen. kutte aam taur par adhik saamaajik aur prashikshit hote hain, jabaki billiyaan adhik svatantr hotee hain. shaareerik visheshataon ke sandarbh mein, billiyon kee tulana mein kutton ke aakaar aur aakaar kee seema adhik vividh hotee hai.
3
+ কুকুর এবং বিড়ালের মধ্যে দুটি পার্থক্য হল তাদের আচরণ এবং তাদের শারীরিক বৈশিষ্ট্য। কুকুরগুলি সাধারণত আরও সামাজিক এবং প্রশিক্ষিত হয়, যখন বিড়ালগুলি আরও স্বাধীন। শারীরিক বৈশিষ্ট্যের পরিপ্রেক্ষিতে, বিড়ালের তুলনায় কুকুরের আকার এবং আকারের বিস্তৃত পরিসর রয়েছে।
4
+ Kukura ēbaṁ biṛālēra madhyē duṭi pārthakya hala tādēra ācaraṇa ēbaṁ tādēra śārīrika baiśiṣṭya. Kukuraguli sādhāraṇata āra'ō sāmājika ēbaṁ praśikṣita haẏa, yakhana biṛālaguli āra'ō sbādhīna. Uparantu, kukura sādhāraṇata ārō anugata ēbaṁ pratirakṣāmūlaka prakr̥ti āchē, yakhana biṛāla tādēra caṭapaṭē ēbaṁ śikāra kṣamatā jan'ya paricita haẏa.
5
+ कुत्रे आणि मांजरींमधील दोन मुख्य फरक म्हणजे त्यांचे वर्तन आणि त्यांची शारीरिक वैशिष्ट्ये. कुत्रे सामान्यतः अधिक सामाजिक आणि प्रशिक्षित असतात, तर मांजरी अधिक स्वतंत्र असतात. याव्यतिरिक्त, कुत्रे त्यांच्या निष्ठा आणि व्यायामाच्या गरजेसाठी ओळखले जातात, तर मांजरी सामान्यत: कमी देखभाल आणि स्वयंपूर्ण असतात.
6
+ కుక్కలు మరియు పిల్లుల మధ్య రెండు తేడాలు వాటి ప్రవర్తన మరియు వాటి శారీరక లక్షణాలు. కుక్కలు సాధారణంగా మరింత సామాజికంగా మరియు శిక్షణ పొందగలవు, అయితే పిల్లులు మరింత స్వతంత్రంగా ఉంటాయి. అదనంగా, పిల్లులతో పోలిస్తే కుక్కలు సాధారణంగా పెద్ద పరిమాణంలో ఉంటాయి.
7
+ Kukkalu mariyu pillula madhya reṇḍu tēḍālu vāṭi pravartana mariyu vāṭi śārīraka lakṣaṇālu. Kukkalu sādhāraṇaṅgā marinta sāmājikaṅgā mariyu śikṣaṇa pondagalavu, ayitē pillulu marinta svatantraṅgā uṇṭāyi mariyu takkuva śikṣaṇa pondutāyi. Adanaṅgā, pillulatō pōlistē kukkalu parimāṇanlō peddavigā uṇṭāyi.
8
+ நாய்கள் மற்றும் பூனைகள் இரண்டும் பிரபலமான செல்லப்பிராணிகள், ஆனால் அவை பல வேறுபாடுகளைக் கொண்டுள்ளன. நாய்கள் பொதுவாக மிகவும் சமூகமானவை மற்றும் மக்களைச் சுற்றி இருப்பதை அனுபவிக்கின்றன, அதே நேரத்தில் பூனைகள் மிகவும் சுதந்திரமானவை. நாய்களுக்கு அதிக கவனம், உடற்பயிற்சி மற்றும் பயிற்சி தேவைப்படுகிறது, அதே சமயம் பூனைகள் பொதுவாக குறைந்த பராமரிப்புடன் இருக���கும். கூடுதலாக, நாய்கள் பேக் விலங்குகள் மற்றும் பெரும்பாலும் விசுவாசம் மற்றும் பாதுகாப்பு நடத்தைகளை வெளிப்படுத்துகின்றன, அதேசமயம் பூனைகள் தனித்து வேட்டையாடுகின்றன.
9
+ நாய்கள் மற்றும் பூனைகளுக்கு இடையிலான முக்கிய வேறுபாடுகள் அவற்றின் நடத்தை, உடல் பண்புகள் மற்றும் வளர்ப்பு வரலாறு ஆகியவை அடங்கும். நாய்கள் பொதுவாக மிகவும் சமூக மற்றும் பயிற்சியளிக்கக்கூடியவை, பூனைகள் மிகவும் சுதந்திரமானவை. நாய்கள் பரந்த அளவிலான அளவுகள் மற்றும் இனங்களைக் கொண்டுள்ளன, அதே நேரத்தில் பூனைகள் பொதுவாக சிறியவை மற்றும் குறைவான தனித்துவமான இனங்களைக் கொண்டுள்ளன. நாய்கள் ஆயிரக்கணக்கான ஆண்டுகளாக வளர்க்கப்படுகின்றன, அதே நேரத்தில் பூனைகள் சமீபத்தில் வளர்க்கப்பட்டன.
10
+ કૂતરા અને બિલાડી વચ્ચેના બે મુખ્ય તફાવતો તેમની શારીરિક લાક્ષણિકતાઓ અને તેમનું વર્તન છે. કૂતરા સામાન્ય રીતે મોટા હોય છે અને બિલાડીઓની તુલનામાં કદની વધુ વૈવિધ્યસભર શ્રેણી ધરાવે છે. વર્તનની દ્રષ્ટિએ, શ્વાન સામાન્ય રીતે વધુ સામાજિક અને માનવ ક્રિયાપ્રતિક્રિયા પર નિર્ભર હોય છે, જ્યારે બિલાડીઓ વધુ સ્વતંત્ર હોય છે અને માનવ સાથી પર ઓછા નિર્ભર હોય છે.
11
+ કૂતરા અને બિલાડીના વસવાટ વચ્ચેના બે મુખ્ય તફાવતો તેમના પસંદીદા વસવાટ કરો છો વાતાવરણ અને તેમના શિકારની વર્તણૂકો છે. શ્વાન વધુ અનુકૂલનશીલ હોય છે અને શહેરી વિસ્તારો સહિત વિવિધ વસવાટોમાં વિકાસ કરી શકે છે, જ્યારે બિલાડીઓ શાંત અને વધુ એકાંત જગ્યાઓ પસંદ કરે છે. વધુમાં, શ્વાન સામાન્ય રીતે કુદરતી શિકારીઓ નથી, જ્યારે બિલાડીઓમાં શિકાર કરવાની તીવ્ર વૃત્તિ હોય છે.
12
+ ನಾಯಿಗಳು ಮತ್ತು ಬೆಕ್ಕುಗಳ ನಡುವಿನ ಎರಡು ವ್ಯತ್ಯಾಸಗಳು ಅವುಗಳ ನಡವಳಿಕೆ ಮತ್ತು ಅವುಗಳ ದೈಹಿಕ ಗುಣಲಕ್ಷಣಗಳಾಗಿವೆ. ನಾಯಿಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಹೆಚ್ಚು ಸಾಮಾಜಿಕ ಮತ್ತು ತರಬೇತಿ ನೀಡಬಲ್ಲವು, ಆದರೆ ಬೆಕ್ಕುಗಳು ಹೆಚ್ಚು ಸ್ವತಂತ್ರವಾಗಿರುತ್ತವೆ. ಹೆಚ್ಚುವರಿಯಾಗಿ, ಬೆಕ್ಕುಗಳಿಗೆ ಹೋಲಿಸಿದರೆ ನಾಯಿಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಗಾತ್ರದಲ್ಲಿ ದೊಡ್ಡದಾಗಿರುತ್ತವೆ.
13
+ ನಾಯಿಗಳು ಮತ್ತು ಬೆಕ್ಕುಗಳ ನಡುವಿನ ಎರಡು ವ್ಯತ್ಯಾಸಗಳು ಅವುಗಳ ಸಾಮಾಜಿಕ ನಡವಳಿಕೆ ಮತ್ತು ಅವುಗಳ ಆಹಾರದ ಆದ್ಯತೆಗಳು. ನಾಯಿಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಹೆಚ್ಚು ಸಾಮಾಜಿಕವಾಗಿರುತ್ತವೆ ಮತ್ತು ಪ್ಯಾಕ್‌ನ ಭಾಗವಾಗಿರುವುದನ್ನು ಆನಂದಿಸುತ್ತವೆ, ಆದರೆ ಬೆಕ್ಕುಗಳು ಹೆಚ್ಚು ಸ್ವತಂತ್ರವಾಗಿರುತ್ತವೆ ಮತ್ತು ಏಕಾಂತ ಚಟುವಟಿಕೆಗಳಿಗೆ ಆದ್ಯತೆ ನೀ���ುತ್ತವೆ. ಆಹಾರದ ವಿಷಯದಲ್ಲಿ, ನಾಯಿಗಳು ಸರ್ವಭಕ್ಷಕಗಳಾಗಿವೆ ಮತ್ತು ಮಾಂಸ ಮತ್ತು ತರಕಾರಿಗಳನ್ನು ಒಳಗೊಂಡಂತೆ ವಿವಿಧ ಆಹಾರಗಳನ್ನು ತಿನ್ನಬಹುದು, ಆದರೆ ಬೆಕ್ಕುಗಳು ಕಡ್ಡಾಯ ಮಾಂಸಾಹಾರಿಗಳು ಮತ್ತು ಪ್ರಾಥಮಿಕವಾಗಿ ಮಾಂಸವನ್ನು ಒಳಗೊಂಡಿರುವ ಆಹಾರದ ಅಗತ್ಯವಿರುತ್ತದೆ.
14
+ നായ്ക്കളും പൂച്ചകളും തമ്മിലുള്ള രണ്ട് വ്യത്യാസങ്ങൾ അവയുടെ സ്വഭാവവും ശാരീരിക സവിശേഷതകളുമാണ്. നായ്ക്കൾ പൊതുവെ കൂടുതൽ സാമൂഹികവും പരിശീലിപ്പിക്കാവുന്നതുമാണ്, അതേസമയം പൂച്ചകൾ കൂടുതൽ സ്വതന്ത്രരാണ്. ശാരീരിക സ്വഭാവസവിശേഷതകളുടെ കാര്യത്തിൽ, പൂച്ചകളെ അപേക്ഷിച്ച് നായ്ക്കൾക്ക് സാധാരണയായി വലിയ വലിപ്പവും വൈവിധ്യമാർന്ന ഇനങ്ങളുമുണ്ട്.
15
+ ਕੁੱਤਿਆਂ ਅਤੇ ਬਿੱਲੀਆਂ ਵਿੱਚ ਦੋ ਅੰਤਰ ਉਹਨਾਂ ਦੇ ਵਿਹਾਰ ਅਤੇ ਉਹਨਾਂ ਦੀਆਂ ਸਰੀਰਕ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਹਨ। ਕੁੱਤੇ ਆਮ ਤੌਰ 'ਤੇ ਵਧੇਰੇ ਸਮਾਜਿਕ ਅਤੇ ਸਿਖਲਾਈਯੋਗ ਹੁੰਦੇ ਹਨ, ਜਦੋਂ ਕਿ ਬਿੱਲੀਆਂ ਵਧੇਰੇ ਸੁਤੰਤਰ ਹੁੰਦੀਆਂ ਹਨ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਕੁੱਤੇ ਬਿੱਲੀਆਂ ਦੇ ਮੁਕਾਬਲੇ ਆਕਾਰ ਵਿਚ ਵੱਡੇ ਹੁੰਦੇ ਹਨ।
16
+ কুকুৰ আৰু মেকুৰীৰ মাজত দুটা পাৰ্থক্য হ’ল ইহঁতৰ আচৰণ আৰু ইহঁতৰ শাৰীৰিক বৈশিষ্ট্য। কুকুৰ সাধাৰণতে অধিক সামাজিক আৰু প্ৰশিক্ষণযোগ্য, আনহাতে মেকুৰী অধিক স্বাধীন। ইয়াৰ উপৰিও কুকুৰৰ ঘ্ৰাণশক্তি সাধাৰণতে শক্তিশালী আৰু শাৰীৰিকভাৱে অধিক সক্ৰিয় হয়, আনহাতে মেকুৰী চঞ্চলতা আৰু চিকাৰ কৰাৰ ক্ষমতাৰ বাবে জনাজাত।
17
+ کتوں اور بلیوں کے درمیان دو اہم فرق ان کے رویے اور ان کی جسمانی خصوصیات ہیں۔ کتے عام طور پر زیادہ سماجی اور تربیت یافتہ ہوتے ہیں، جبکہ بلیاں زیادہ آزاد ہوتی ہیں۔ جسمانی خصلتوں کے لحاظ سے، بلیوں کے مقابلے کتوں کے سائز اور شکلیں زیادہ متنوع ہوتی ہیں۔
18
+ କୁକୁର ଏବଂ ବିଲେଇଙ୍କ ମଧ୍ୟରେ ଦୁଇଟି ପାର୍ଥକ୍ୟ ହେଉଛି ସେମାନଙ୍କର ସାମାଜିକ ଆଚରଣ ଏବଂ ସେମାନଙ୍କର ଶାରୀରିକ ଗୁଣ | କୁକୁରମାନେ ସାଧାରଣତ more ଅଧିକ ସାମାଜିକ ଅଟନ୍ତି ଏବଂ ଏକ ପ୍ୟାକ୍ ର ଅଂଶ ହୋଇ ଉପଭୋଗ କରନ୍ତି, ଯେତେବେଳେ ବିଲେଇମାନେ ଅଧିକ ସ୍ୱାଧୀନ ଏବଂ ଏକାକୀ କାର୍ଯ୍ୟକଳାପକୁ ପସନ୍ଦ କରନ୍ତି | ଏହା ସହିତ, ବିଲେଇମାନଙ୍କ ତୁଳନାରେ କୁକୁରମାନଙ୍କର ଏକ ବ୍ୟାପକ ଧ୍ୱନି ଅଛି |
19
+ Two differences between dogs and cats are their social behavior and their dietary preferences. Dogs are generally more social animals, often forming strong bonds with their human owners and other animals. Cats, on the other hand, are more independent and tend to be less social. In terms of diet, dogs are omnivores and can thrive on a variety of foods, including both meat and plant-based diets. Cats, however, are obligate carnivores and require a diet primarily consisting of meat.
20
+ Les deux principales différences entre les chiens et les chats sont leur comportement et leurs caractéristiques physiques. Les chiens sont généralement plus sociaux et faciles à dresser, tandis que les chats sont plus indépendants. De plus, les chiens sont généralement plus grands et ont une apparence physique plus large que les chats.
21
+ Due differenze tra cani e gatti sono il loro comportamento e le loro caratteristiche fisiche. I cani sono generalmente più socievoli e addestrabili, mentre i gatti sono più indipendenti. Inoltre, i cani hanno in genere una gamma più varia di dimensioni e forme rispetto ai gatti.
22
+ Dos diferencias entre perros y gatos son su comportamiento social y sus preferencias dietéticas. Los perros son generalmente más sociables y disfrutan ser parte de una manada, mientras que los gatos son más independientes y prefieren actividades solitarias. Además, los perros son omnívoros y pueden prosperar con una dieta variada que incluya carne y alimentos de origen vegetal, mientras que los gatos son carnívoros obligados y requieren una dieta que consista principalmente en carne.
23
+ Zwei Unterschiede zwischen Hunden und Katzen sind ihr Sozialverhalten und ihre Ernährungspräferenzen. Hunde sind im Allgemeinen eher soziale Tiere und gehen oft starke Bindungen zu Menschen und anderen Tieren ein. Katzen hingegen sind tendenziell unabhängiger und benötigen möglicherweise nicht so viel soziale Interaktion. Was die Ernährung betrifft, sind Hunde Allesfresser und können sich von einer Vielzahl von Nahrungsmitteln ernähren, darunter sowohl Fleisch als auch pflanzliche Optionen. Katzen sind jedoch reine Fleischfresser und benötigen eine überwiegend fleischhaltige Ernährung.
24
+ As duas principais diferenças entre cães e gatos são o comportamento e as características físicas. Os cães são geralmente mais sociais e treináveis, enquanto os gatos são mais independentes. Além disso, os cães têm uma variedade maior de tamanhos e raças em comparação aos gatos.
25
+ 개와 고양이의 두 가지 차이점은 사회적 행동과 신체적 특성입니다. 개는 일반적으로 더 사교적이며 무리의 일부가 되는 것을 좋아하는 반면, 고양이는 더 독립적입니다. 게다가 개는 고양이에 비해 크기가 더 큰 경향이 있습니다.
26
+ สุนัขและแมวมีความแตกต่างกันหลายประการ โดยทั่วไปแล้วสุนัขชอบเข้าสังคมมากกว่าและกระตือรือร้นที่จะเอาใจ ในขณะที่แมวมักจะรักอิสระมากกว่า สุนัขต้องการการออกกำลังกายและความเอาใจใส่มากกว่า ในขณะที่แมวมักจะได้รับการดูแลต่ำมากกว่า นอกจากนี้ สุนัขยังเป็นสัตว์แพ็คและมีแนวโน้มที่จะซื่อสัตย์มากกว่า ในขณะที่แมวเป็นสัตว์สันโดษและอาจโดดเดี่ยวมากกว่า
27
+ تعتبر الكلاب والقطط من الحيوانات الأليفة المشهورة، ولكن هناك العديد من الاختلافات بينهما. الكلاب بشكل عام أكثر اجتماعية وتستمتع بالتواجد حول الناس، بينما القطط أكثر استقلالية. تتطلب الكلاب مزيدًا من الاهتمام والتمرين والتدريب، بينما تتطلب القطط عادةً قدرًا أقل من الصيانة. بالإضافة إلى ذلك، تُعرف الكلاب بولائها وطبيعتها الحمائية، بينما غالبًا ما يُنظر إلى القطط على أنها أكثر عزلة واعتمادًا على الذات.
28
+ Hai điểm khác biệt chính giữa chó và mèo là hành vi và đặc điểm thể chất của chúng. Chó thường có tính xã hội và dễ huấn luyện hơn, trong khi mèo độc lập hơn. Về đặc điểm thể chất, chó có kích thước và hình dạng đa dạng hơn so với mèo.
29
+ Двумя основными различиями между собаками и кошками являются их поведение и физические характеристики. Собаки, как правило, более общительны и поддаются дрессировке, а кошки более независимы. Кроме того, собаки имеют более широкий диапазон размеров и форм по сравнению с кошками.
30
+ Dva razlichiya mezhdu sobakami i koshkami — eto ikh povedeniye i fizicheskiye kharakteristiki. Sobaki, kak pravilo, boleye obshchitel'ny i poddayutsya dressirovke, a koshki boleye nezavisimy. Krome togo, sobaki obychno krupneye koshek.
31
+ 犬と猫の主な違いは、身体的特徴、行動、家畜化の歴史です。 犬は一般的に猫よりも大きく、サイズや形も多様です。 彼らは忠誠心、社交性、そして訓練を受ける能力で知られています。 一方、猫は通常、より小型で機敏です。 彼らはより独立心が強く、よそよそしいという評判が��ります。 さらに、犬は何千年も前から家畜化されており、人間とともに働いてきた長い歴史がありますが、猫は家畜化の歴史がより新しく、主に伴侶として飼われています。
32
+ Inu to neko wa dochira mo ninkinoaru pettodesuga, ikutsu ka no chigai ga arimasu. Inu wa ippan'ni shakō-tekideari, yori ōku no chūi to undō o hitsuyō to shimasu. Neko wa yori dokuritsu kokoro ga tsuyoku, amari chūi o hitsuyō to shimasen. Tsūjō, inu wa neko ni kurabete karada ga ōkīdesu. Sarani, inu wa chūsei kokoro to kunren nōryoku ga takai koto de shira rete imasuga, neko wa yori jiritsu shite ori, kunren ni taisuru apurōchi ga kotonarimasu.
33
+ Köpekler ve kediler arasındaki iki temel fark, davranışları ve fiziksel özellikleridir. Köpekler genellikle daha sosyal ve eğitilebilir, kediler ise daha bağımsızdır. Fiziksel özellikler açısından köpekler, kedilere kıyasla daha çeşitli boyut ve şekillere sahiptir.
34
+ Дві відмінності між собаками та котами — це їх поведінка та фізичні характеристики. Собаки, як правило, більш соціальні та піддаються дресируванню, тоді як коти більш незалежні та менш піддаються дресируванню. З точки зору фізичних характеристик, собаки зазвичай мають більший розмір і більш різноманітний діапазон порід, тоді як коти, як правило, менші та мають більш послідовну структуру тіла.
35
+ دو تفاوت اصلی سگ و گربه رفتار و ویژگی های فیزیکی آنهاست. سگ ها عموماً اجتماعی تر و آموزش پذیرتر هستند، در حالی که گربه ها مستقل تر هستند. علاوه بر این، سگ ها در مقایسه با گربه ها طیف وسیع تری از اندازه و نژاد دارند.
36
+ Twee verschillen tussen honden en katten zijn hun sociale gedrag en hun fysieke kenmerken. Honden zijn over het algemeen socialere dieren en vormen vaak een sterke band met hun baasjes en andere honden. Katten daarentegen zijn doorgaans onafhankelijker en hebben mogelijk niet zoveel sociale interactie nodig. Wat fysieke kenmerken betreft, hebben honden doorgaans een gevarieerder scala aan maten en vormen dan katten, die over het algemeen een meer uniforme lichaamsstructuur hebben.
37
+ Οι δύο βασικές διαφορές μεταξύ σκύλων και γατών είναι η συμπεριφορά τους και τα φυσικά τους χαρακτηριστικά. Οι σκύλοι είναι γενικά πιο κοινωνικοί και εκπαιδεύσιμοι, ενώ οι γάτες είναι πιο ανεξάρτητες. Επιπλέον, οι σκύλοι είναι συνήθως μεγαλύτεροι σε μέγεθος σε σύγκριση με τις γάτες.
38
+ Dwie różnice między psami i kotami to ich zachowanie i cechy fizyczne. Psy są na ogół bardziej towarzyskie i podatne na szkolenie, podczas gdy koty są bardziej niezależne. Ponadto psy mają zazwyczaj bardziej lojalny i opiekuńczy charakter, podczas gdy koty są znane ze swojej zwinności i umiejętności łowieckich.
39
+ Dua perbedaan antara anjing dan kucing adalah perilaku sosial dan preferensi makanan mereka. Anjing umumnya adalah hewan yang lebih sosial, sering kali membentuk ikatan yang kuat dengan manusia dan hewan lainnya. Kucing, sebaliknya, lebih mandiri dan biasanya lebih menyukai aktivitas menyendiri. Dalam hal pola makan, anjing adalah omnivora dan dapat berkembang biak dengan berbagai sumber makanan, termasuk daging dan pola makan nabati. Kucing, bagaimanapun, adalah karnivora obligat dan membutuhkan makanan yang terutama terdiri dari daging untuk kesehatan yang optimal.
data/multilingualphrases02.txt ADDED
@@ -0,0 +1,60 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ We are building AI for all languages beyond English beyond text and voice. We are building AI for all.
2
+ "हम अंग्रेजी से परे, टेक्स्ट और वॉयस से परे सभी भाषाओं के लिए AI का निर्माण कर रहे हैं। हम सभी के लिए AI का निर्माण कर रहे हैं।"
3
+ "ham angrejee se pare, tekst aur voyas se pare sabhee bhaashaon ke lie ai ka nirmaan kar rahe hain. ham sabhee ke lie ai ka nirmaan kar rahe hain."
4
+ আমরা টেক্সট এবং ভয়েসের বাইরে ইংরেজির বাইরে সব ভাষার জন্য AI তৈরি করছি। আমরা সবার জন্য এআই তৈরি করছি।
5
+ Amara teksata ebam bhayesera ba'ire inrejira ba'ire saba bhasara jan'ya AI tairi karachi. Amara sabara jan'ya e'a'i tairi karachi.
6
+ आम्ही मजकूर आणि आवाजाच्या पलीकडे इंग्रजीच्या पलीकडे असलेल्या सर्व भाषांसाठी AI तयार करत आहोत. आम्ही सर्वांसाठी AI तयार करत आहोत.
7
+ మేము టెక్స్ట్ మరియు వాయిస్‌కి మించి ఆంగ్లానికి మించిన అన్ని భాషల కోసం AIని రూపొందిస్తున్నాము. మేము అందరి కోసం AIని నిర్మిస్తున్నాము.
8
+ Mēmu ṭeksṭ mariyu vāyis‌ki min̄ci āṅglāniki min̄cina anni bhāṣala kōsaṁ AIni rūpondistunnāmu. Mēmu andari kōsaṁ AIni nirmistunnāmu.
9
+ உரை மற்றும் குரல் என்பதைத் தாண்டி ஆங்கிலத்தைத் தாண்டி அனைத்து மொழிகளுக்கும் AI உருவாக்குகிறோம். நாங்கள் அனைவருக்கும் AI உருவாக்குகிறோம்.
10
+ Urai maṟṟum kural eṉpatait tāṇṭi āṅkilattait tāṇṭi aṉaittu moḻikaḷukkum AI uruvākkukiṟōm. Nāṅkaḷ aṉaivarukkum AI uruvākkukiṟōm.
11
+ અમે ટેક્સ્ટ અને વૉઇસ ઉપરાંત અંગ્રેજી ઉપરાંત તમામ ભાષાઓ માટે AI બનાવી રહ્યા છીએ. અમે બધા માટે AI બનાવી રહ્યા છીએ.
12
+ Amē ṭēksṭa anē vŏ'isa uparānta aṅgrējī uparānta tamāma bhāṣā'ō māṭē AI banāvī rahyā chī'ē. Amē badhā māṭē AI banāvī rahyā chī'ē.
13
+ ನಾವು ಪಠ್ಯ ಮತ್ತು ಧ್ವನಿಯನ್ನು ಮೀರಿ ಇಂಗ್ಲಿಷ್‌ನ ಆಚೆಗಿನ ಎಲ್ಲಾ ಭಾಷೆಗಳಿಗೆ AI ಅನ್ನು ನಿರ್ಮಿಸುತ್ತಿದ್ದೇವೆ. ನಾವು ಎಲ್ಲರಿಗೂ AI ಅನ್ನು ನಿರ್ಮಿಸುತ್ತಿದ್ದೇವೆ.
14
+ Nāvu paṭhya mattu dhvaniyannu mīri iṅgliṣ‌na ācegina ellā bhāṣegaḷige AI annu nirmisuttiddēve. Nāvu ellarigū AI annu nirmisuttiddēve.
15
+ ടെക്‌സ്‌റ്റിനും വോയ്‌സിനും അപ്പുറം ഇംഗ്ലീഷിനപ്പുറം എല്ലാ ഭാഷകൾക്കുമായി ഞങ്ങൾ AI നിർമ്മിക്കുകയാണ്. ഞങ്ങൾ എല്ലാവർക്കും AI നിർമ്മിക്കുകയാണ്.
16
+ আমি লিখা আৰু কণ্ঠৰ বাহিৰেও ইংৰাজীৰ বাহিৰেও সকলো ভাষাৰ বাবে AI নিৰ্মাণ কৰিছো। আমি সকলোৰে বাবে AI নিৰ্মাণ কৰি আছো।
17
+ ہم متن اور آواز سے ہٹ کر انگریزی کے علاوہ تمام زبانوں کے لیے AI بنا رہے ہیں۔ ہم سب کے لیے AI بنا رہے ہیں۔
18
+ ପାଠ୍ୟ ଏବଂ ସ୍ୱର ବାହାରେ ଇଂରାଜୀ ବାହାରେ ସମସ୍ତ ଭାଷା ପାଇଁ ଆମେ AI ନିର୍ମାଣ କରୁଛୁ | ଆମେ ସମସ୍ତଙ୍କ ପାଇଁ AI ନିର୍ମାଣ କରୁଛୁ |
19
+ We are building AI for all languages beyond English beyond text and voice. We are building AI for all.
20
+ "Nous construisons l'IA pour toutes les langues au-delà de l'anglais, au-delà du texte et de la voix. Nous construisons l’IA pour tous."
21
+ Stiamo costruendo un'intelligenza artificiale per tutte le lingue oltre l'inglese oltre al testo e alla voce. Stiamo costruendo un’intelligenza artificiale per tutti.
22
+ "Estamos creando IA para todos los idiomas además del inglés, más allá del texto y la voz. Estamos construyendo IA para todos."
23
+ "Wir entwickeln KI für alle Sprachen außer Englisch, für Text und Sprache. Wir entwickeln KI für alle."
24
+ "Estamos construindo IA para todos os idiomas além do inglês, além de texto e voz. Estamos construindo IA para todos."
25
+ 문자와 음성을 넘어 영어를 넘어 모든 언어에 대한 AI를 구축하고 있습니다. 우리는 모두를 위한 AI를 구축하고 있습니다.
26
+ เรากำลังสร้าง AI สำหรับทุกภาษา นอกเหนือจากภาษาอังกฤษ นอกเหนือจากข้อความและเสียง เรากำลังสร้าง AI สำหรับทุกคน
27
+ نحن نبني الذكاء الاصطناعي لجميع اللغات بخلاف اللغة الإنجليزية بما يتجاوز النص والصوت. نحن نبني الذكاء الاصطناعي للجميع.
28
+ nahn nabni aldhaka' aliastinaeia lijamie allughat bikhilaf allughat al'iinjiliziat bima yatajawaz alnasa walsawta. nahn nabni aldhaka' aliastinaeia liljamiei.
29
+ Chúng tôi đang xây dựng AI cho tất cả các ngôn ngữ ngoài tiếng Anh ngoài văn bản và giọng nói. Chúng tôi đang xây dựng AI cho tất cả mọi người.
30
+ "Metin ve sesin ötesinde, İngilizce dışındaki tüm diller için yapay zeka geliştiriyoruz. Herkes için yapay zeka inşa ediyoruz."
31
+ "Ми створюємо штучний інтелект для всіх мов, крім англійської, крім тексту та голосу. Ми створюємо ШІ для всіх."
32
+ ما در حال ساخت هوش مصنوعی برای همه زبان‌های فراتر از زبان انگلیسی، فراتر از متن و صدا هستیم. ما در حال ساخت هوش مصنوعی برای همه هستیم.
33
+ "We bouwen AI voor alle talen behalve Engels, behalve tekst en stem. Wij bouwen AI voor iedereen."
34
+ हामी पाठ र आवाज भन्दा अङ्ग्रेजी बाहिर सबै भाषाहरूको लागि AI निर्माण गर्दैछौं। हामी सबैका लागि एआई निर्माण गर्दैछौं।
35
+ "Tworzymy sztuczną inteligencję dla wszystkich języków poza angielskim, poza tekstem i głosem. Tworzymy sztuczną inteligencję dla wszystkich."
36
+ Kami sedang membangun AI untuk semua bahasa selain bahasa Inggris selain teks dan suara. Kami sedang membangun AI untuk semua.
37
+ Ons bou KI vir alle tale buite Engels buiten teks en stem. Ons bou KI vir almal.
38
+ ከጽሑፍ እና ከድምጽ በላይ ከእንግሊዝኛ በላይ ለሁሉም ቋንቋዎች AI እየገነባን ነው። ለሁሉም AI እየገነባን ነው።
39
+ "Մենք կառուցում ենք AI բոլոր լեզուների համար, բացի անգլերենից, բացի տեքստից և ձայնից: Մենք կառուցում ենք AI բոլորի համար:"
40
+ An bɛ ka AI jɔ kan bɛɛ kama tubabukan kɔfɛ sɛbɛnni ni kan kɔfɛ. An bɛ ka AI jɔ bɛɛ ye.
41
+ "Мы ствараем штучны інтэлект для ўсіх моў, акрамя тэксту і голасу, акрамя англійскай. Мы ствараем штучны інтэлект для ўсіх."
42
+ Ние изграждаме AI за всички езици извън английския освен текст и глас. Ние изграждаме AI за всички.
43
+ 我们正在为英语以外的所有语言(包括文本和语音)构建人工智能。我们正在为所有人构建人工智能。
44
+ Vytváříme umělou inteligenci pro všechny jazyky kromě angličtiny kromě textu a hlasu. Vytváříme AI pro všechny.
45
+ Vi bygger AI til alle sprog ud over engelsk ud over tekst og stemme. Vi bygger AI til alle.
46
+ Rakennamme tekoälyä kaikille kielille englannin lisäksi tekstin ja äänen lisäksi. Rakennamme tekoälyä kaikille.
47
+ "Δημιουργούμε τεχνητή νοημοσύνη για όλες τις γλώσσες πέρα ​​από τα αγγλικά, πέρα ​​από το κείμενο και τη φωνή. Χτίζουμε AI για όλους."
48
+ אנו בונים AI לכל השפות מעבר לאנגלית מעבר לטקסט ולקול. אנחנו בונים AI לכולם.
49
+ Kei te hangaia e matou he AI ​​mo nga reo katoa i tua atu o te reo Ingarihi i tua atu i te tuhinga me te reo. Kei te hanga AI matou mo te katoa.
50
+ "Construim AI pentru toate limbile dincolo de engleză, dincolo de text și voce. Construim AI pentru toți."
51
+ Gradimo AI za vse jezike poleg angleščine poleg besedila in glasu. Gradimo AI za vse.
52
+ Vi bygger AI för alla språk utöver engelska förutom text och röst. Vi bygger AI för alla.
53
+ Sakha i-AI yazo zonke iilwimi ngaphandle kwesiNgesi ngaphaya kwesicatshulwa kunye nelizwi. Sakha i-AI kumntu wonke.
54
+ بىز تېكىست ۋە ئاۋازدىن باشقا ئىنگلىز تىلىدىن باشقا بارلىق تىللارغا سۈنئىي ئەقىل ياساۋاتىمىز. بىز ھەممىمىز ئۈچۈن سۈنئىي ئەقىل بەرپا قىلىۋاتىم��ز.
55
+ Waxaan u dhisaynaa AI dhammaan luqadaha ka baxsan Ingiriisiga qoraalka iyo codka. Waxaan u dhisaynaa AI dhammaan.
56
+ ਅਸੀਂ ਟੈਕਸਟ ਅਤੇ ਆਵਾਜ਼ ਤੋਂ ਇਲਾਵਾ ਅੰਗਰੇਜ਼ੀ ਤੋਂ ਇਲਾਵਾ ਸਾਰੀਆਂ ਭਾਸ਼ਾਵਾਂ ਲਈ AI ਬਣਾ ਰਹੇ ਹਾਂ। ਅਸੀਂ ਸਾਰਿਆਂ ਲਈ AI ਬਣਾ ਰਹੇ ਹਾਂ।
57
+ "Мы создаем ИИ для всех языков, помимо английского, помимо текста и голоса. Мы создаем ИИ для всех."
58
+ "My sozdayem II dlya vsekh yazykov, pomimo angliyskogo, pomimo teksta i golosa. My sozdayem II dlya vsekh."
59
+ 私たちは、英語だけでなく、テキストや音声を超えてあらゆる言語に対応する AI を構築しています。私たちはすべての人のための AI を構築しています。
60
+ "Watashitachiha, eigo dakedenaku, tekisuto ya onsei o koeta arayuru gengo ni taio suru AI o kochiku shite imasu. Watashitachiha subete no hitonotame no AI o kochiku shite imasu."
requirements.txt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ transformers
2
+ tiktoken
3
+ gradio