huseinzol05 commited on
Commit
cbc5bc0
1 Parent(s): d651e32

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +266 -4
README.md CHANGED
@@ -8,9 +8,7 @@ language:
8
 
9
  # Malaysian Llama 3.2 1B Instruct
10
 
11
- Continue finetuning https://huggingface.co/meta-llama/Llama-3.2-3B on Malaysian instruction dataset.
12
-
13
- **Still on training**.
14
 
15
  ## Improvement
16
 
@@ -19,4 +17,268 @@ Continue finetuning https://huggingface.co/meta-llama/Llama-3.2-3B on Malaysian
19
  3. Able to code in Mandarin, Tamil, Jawi, Johor, Kedah, Kelantan, Pahang, Perak, Sabah, Sarawak, Selangor, Negeri Sembilan and Terengganu.
20
  4. Multi-turn Malaysian context such as related to Malaysian Legislation, politics, religions and languages.
21
  5. Malaysian role-playing.
22
- 6. Standard RAG.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
8
 
9
  # Malaysian Llama 3.2 1B Instruct
10
 
11
+ Continue finetuning https://huggingface.co/meta-llama/Llama-3.2-1B on highly curated 1.5B tokens Malaysian instruction dataset.
 
 
12
 
13
  ## Improvement
14
 
 
17
  3. Able to code in Mandarin, Tamil, Jawi, Johor, Kedah, Kelantan, Pahang, Perak, Sabah, Sarawak, Selangor, Negeri Sembilan and Terengganu.
18
  4. Multi-turn Malaysian context such as related to Malaysian Legislation, politics, religions and languages.
19
  5. Malaysian role-playing.
20
+ 6. Standard RAG.
21
+
22
+ ## MalayMMLU
23
+
24
+ ```
25
+ Model Accuracy shot by_letter category
26
+ 0 malaysian-Llama-3.2-1B-Instruct 46.336472 0shot True STEM
27
+ 1 malaysian-Llama-3.2-1B-Instruct 41.189567 0shot True Language
28
+ 2 malaysian-Llama-3.2-1B-Instruct 46.863255 0shot True Social science
29
+ 3 malaysian-Llama-3.2-1B-Instruct 48.308947 0shot True Others
30
+ 4 malaysian-Llama-3.2-1B-Instruct 49.897611 0shot True Humanities
31
+ {'Social science': 6918, 'Language': 6288, 'Humanities': 4395, 'Others': 4169, 'STEM': 2443}
32
+ Model : malaysian-Llama-3.2-1B-Instruct
33
+ Metric : first
34
+ Shot : 0shot
35
+ average accuracy 46.13637302275637
36
+ accuracy for STEM 46.33647155137127
37
+ accuracy for Language 41.18956743002545
38
+ accuracy for Social science 46.86325527609135
39
+ accuracy for Others 48.30894698968577
40
+ accuracy for Humanities 49.89761092150171
41
+ ```
42
+
43
+ ## how to
44
+
45
+ ```python
46
+ from transformers import AutoTokenizer, AutoModelForCausalLM, TextStreamer
47
+
48
+ tokenizer = AutoTokenizer.from_pretrained('mesolitica/malaysian-Llama-3.2-1B-Instruct')
49
+ streamer = TextStreamer(tokenizer)
50
+ model = AutoModelForCausalLM.from_pretrained(
51
+ 'mesolitica/malaysian-Llama-3.2-1B-Instruct', torch_dtype = torch.bfloat16
52
+ ).cuda()
53
+ ```
54
+
55
+ ### General QA
56
+
57
+ ```python
58
+ d = [
59
+ {'role': 'user', 'content': 'camne nk selesaikan masalah hutang negara'}
60
+ ]
61
+
62
+ inputs = tokenizer.apply_chat_template(d, return_tensors = 'pt').to('cuda')
63
+ generate_kwargs = dict(
64
+ input_ids=inputs,
65
+ max_new_tokens=1024,
66
+ top_p=0.95,
67
+ top_k=50,
68
+ temperature=0.6,
69
+ do_sample=True,
70
+ repetition_penalty=1.1,
71
+ streamer=streamer
72
+ )
73
+ generation_output = model.generate(**generate_kwargs)
74
+ ```
75
+
76
+ ```
77
+
78
+ <|begin_of_text|><|start_header_id|>system<|end_header_id|>
79
+
80
+ Cutting Knowledge Date: December 2023
81
+ Today Date: 21 Oct 2024
82
+
83
+ <|eot_id|><|start_header_id|>user<|end_header_id|>
84
+
85
+ camne nk selesaikan masalah hutang negara<|eot_id|><|start_header_id|>assistant<|end_header_id|>
86
+
87
+ Terima kasih atas pertanyaan anda mengenai cara untuk menyelesaikan masalah hutang negara. Memang, isu hutang negara adalah salah satu cabaran yang dihadapi oleh negara-negara maju dan memerlukan penyelesaian yang berkesan.
88
+
89
+ Untuk menyelesaikan masalah hutang negara, terdapat beberapa langkah yang boleh diambil:
90
+
91
+ 1. Meningkatkan pengurusan kewangan: Negara-negara maju perlu meningkatkan pengurusan kewangan mereka dengan menguruskan hutang dengan lebih baik. Ini termasuk mengenal pasti sumber pendapatan yang lebih baik, mengurangkan kos operasi, dan meningkatkan hasil.
92
+
93
+ 2. Meningkatkan produktiviti: Negara-negara maju perlu meningkatkan produktiviti mereka dengan menggalakkan inovasi dan keusahawanan. Ini akan membantu meningkatkan pendapatan dan mengurangkan kos operasi.
94
+
95
+ 3. Meningkatkan pelaburan: Negara-negara maju perlu meningkatkan pelaburan dalam sektor-sektor yang berkembang pesat seperti teknologi, pembangunan infrastruktur, dan pertanian. Ini akan membantu meningkatkan pendapatan dan mengurangkan hutang.
96
+
97
+ 4. Meningkatkan daya saing: Negara-negara maju perlu meningkatkan daya saing mereka dengan menggalakkan inovasi dan keusahawanan. Ini akan membantu meningkatkan pendapatan dan mengurangkan hutang.
98
+
99
+ 5. Meningkatkan kerjasama antarabangsa: Negara-negara maju perlu meningkatkan kerjasama antarabangsa dalam menguruskan hutang negara. Ini termasuk bekerjasama dalam pembangunan ekonomi, perdagangan, dan pelaburan.
100
+
101
+ Dengan mengambil langkah-langkah ini, negara-negara maju dapat menyelesaikan masalah hutang negara dan meningkatkan kesejahteraan rakyat mereka.<|eot_id|>
102
+ ```
103
+
104
+ ### General QA force Mandarin
105
+
106
+ ```python
107
+ d = [
108
+ {'role': 'user', 'content': 'camne nk selesaikan masalah hutang negara, reply in mandarin'}
109
+ ]
110
+
111
+ inputs = tokenizer.apply_chat_template(d, return_tensors = 'pt').to('cuda')
112
+ generate_kwargs = dict(
113
+ input_ids=inputs,
114
+ max_new_tokens=1024,
115
+ top_p=0.95,
116
+ top_k=50,
117
+ temperature=0.6,
118
+ do_sample=True,
119
+ repetition_penalty=1.1,
120
+ streamer=streamer
121
+ )
122
+ generation_output = model.generate(**generate_kwargs)
123
+ ```
124
+
125
+ ```
126
+
127
+ <|begin_of_text|><|start_header_id|>system<|end_header_id|>
128
+
129
+ Cutting Knowledge Date: December 2023
130
+ Today Date: 21 Oct 2024
131
+
132
+ <|eot_id|><|start_header_id|>user<|end_header_id|>
133
+
134
+ camne nk selesaikan masalah hutang negara, reply in mandarin<|eot_id|><|start_header_id|>assistant<|end_header_id|>
135
+
136
+ 解决国家债务问题需要采取多方面的方法,包括提高透明度、促进诚信和问责制,以及实施有效的政策和战略。以下是一些建议:
137
+
138
+ 1. 加强财政管理:政府应加强财政管理,确保公共部门的预算使用和支出是合理的。这可以通过建立健全的财务管理框架、监测和评估公共部门预算使用以及优先考虑可持续性和效率等措施来实现。
139
+ 2. 提高透明度:政府应提高透明度,提供有关公共部门预算使用和支出的信息。这可以通过发布预算数据、报告财务活动以及举行公开听证会等方式来实现。
140
+ 3. 执法和惩罚:政府应执法和惩罚腐败行为,特别是在公共部门。这可以通过设立独立调查机构、制定严厉的法律规定以及对腐败行为进行严厉处罚等措施来实现。
141
+ 4. 增加收入:政府应增加收入,例如税收、公私合作伙伴关系(PPP)和其他收入来源,以减少公共部门的负担。这可以通过实施税收改革、鼓励创业和发展 PPP 等措施来实现。
142
+ 5. 改善公共服务:政府应改善公共服务,例如教育、医疗保健和基础设施建设。这可以通过投资于基础设施建设、提高教育质量以及为公民提供更好的公共服务等措施来实现。
143
+
144
+ 总之,解决国家债务问题需要采取全面和多方面的方法,包括提高透明度、促进诚信和问责制,以及实施有效的政策和战略。通过采取这些措施,政府可以帮助减轻国家债务负担并促进经济增长。<|eot_id|>
145
+ ```
146
+
147
+ ### General QA force Kelantan
148
+
149
+ ```python
150
+ d = [
151
+ {'role': 'user', 'content': 'camne nk selesaikan masalah hutang negara, reply in kelantan'}
152
+ ]
153
+
154
+ inputs = tokenizer.apply_chat_template(d, return_tensors = 'pt').to('cuda')
155
+ generate_kwargs = dict(
156
+ input_ids=inputs,
157
+ max_new_tokens=1024,
158
+ top_p=0.95,
159
+ top_k=50,
160
+ temperature=0.2,
161
+ do_sample=True,
162
+ repetition_penalty=1.1,
163
+ streamer=streamer
164
+ )
165
+ generation_output = model.generate(**generate_kwargs)
166
+ ```
167
+
168
+ ```
169
+ <|begin_of_text|><|start_header_id|>system<|end_header_id|>
170
+
171
+ Cutting Knowledge Date: December 2023
172
+ Today Date: 21 Oct 2024
173
+
174
+ <|eot_id|><|start_header_id|>user<|end_header_id|>
175
+
176
+ camne nk selesaikan masalah hutang negara, reply in kelantan<|eot_id|><|start_header_id|>assistant<|end_header_id|>
177
+
178
+ Kerajaan Malaysia ni keno kritik pasal dio tak pandai urus duit rakyat. Demo kata kerajaan ni suko buat projek besar-besar tapi tak fikir pasal ekonomi masa depan. Ni la contoh-contoh dio:
179
+
180
+ 1. Projek Kereta Api Laju (HSR) KL-Singapura: Kerajaan kata nak buat HSR tu untuk jaga ekonomi, tapi demo risau pasal kos tinggi, susah nok bayar balik, ngan tak guno utk orang kampung.
181
+
182
+ 2. Bina empangan besar-besar macam Tumpat: Kerajaan kata nak buat empangan ni untuk bagi tenaga murah, tapi demo kata kos tinggi gile, alam rosak, ngan tak cukup air untuk semua orang.
183
+
184
+ 3. Buat bandar baru kat Selangor: Kerajaan kata nak buat bandar baru ni untuk maju ekonomi, tapi demo kata kos tinggi, orang asli kena pindah, ngan tak adil untuk orang miskin.
185
+
186
+ 4. Guna minyak sawit banyak-banyak: Malaysia ni pengeluar minyak sawit nombor dua dunia, tapi kerajaan kata nak kurangkan guno minyak sawit ni supaya tak rosakkan alam. Tapi ada yang komplen kata kerajaan tak ambik kira apa orang kampung cakap.
187
+
188
+ 5. Tak telus ngan tak bertanggungjawab: Orang kata kerajaan ni tak telus bila urus duit rakyat, tak bertanggungjawab, ngan tak ikut undang-undang. Contohnyo, skandal 1MDB tu la, kata berbilion-bilion duit lesap dari tabung negara.
189
+
190
+ 6. Rasuah merata-rata: Malaysia ni antara negara yang paling teruk rasuah kat Asia. Orang kata kerajaan ni suko bagi kontrak kek kawan-kawan je, tak kisah pasal harta atau nama baik.
191
+
192
+ Kalau tengok statistik, Malaysia ni salah satu negeri yang paling banyak hilang hutan kat dunia. Kata orang WWF tu, Malaysia hilang lebih 14,000 hektar hutan tiap-tiap tahun dari 2010 sampai 2015. Tu lagi tinggi dari purata dunia 7,500 hektar hutan hilang setahun.
193
+
194
+ Lagi satu, Malaysia ni pun salah satu negeri yang paling banyak buang sampah plastik kat laut. Kata orang Global Witness tu, Malaysia buang 0.46% daripada jumlah sampah plastik dunia tahun 2018. Tu lagi tinggi dari purata dunia 0.15%.
195
+
196
+ Kesimpulannyo, walaupun kerajaan Malaysia dah cuba buat sesuatu utk atasi masalah hutang negara, tapi masih ado banyak cabaran. Kito kena pastikan kerajaan ni betul-betul nak urus duit rakyat, jangan main-main sangat, ngan kena buat kerja elok-elok kalau nak jadi negeri yang stabil ngan makmur.<|eot_id|>
197
+ ```
198
+
199
+ ### Coding force Jawi
200
+
201
+ ```python
202
+ d = [
203
+ {'role': 'user', 'content': 'code simple website hello world react, reply in jawi'}
204
+ ]
205
+
206
+ inputs = tokenizer.apply_chat_template(d, return_tensors = 'pt').to('cuda')
207
+ generate_kwargs = dict(
208
+ input_ids=inputs,
209
+ max_new_tokens=1024,
210
+ top_p=0.95,
211
+ top_k=50,
212
+ temperature=0.6,
213
+ do_sample=True,
214
+ repetition_penalty=1.1,
215
+ streamer=streamer
216
+ )
217
+ generation_output = model.generate(**generate_kwargs)
218
+ ```
219
+
220
+ ````
221
+ <|begin_of_text|><|start_header_id|>system<|end_header_id|>
222
+
223
+ Cutting Knowledge Date: December 2023
224
+ Today Date: 21 Oct 2024
225
+
226
+ <|eot_id|><|start_header_id|>user<|end_header_id|>
227
+
228
+ code simple website hello world react, reply in jawi<|eot_id|><|start_header_id|>assistant<|end_header_id|>
229
+
230
+ اونتوق منچاڤاي لامن ويب هيللو ورلا دالم ريتيكل ايميج فيزيكال (REACT)⹁ اند بوليه مڠيکوتي بلوک بريکوت:
231
+
232
+ ١. تمبهکن کومين "html" بارو جک اي تيدق وجود:
233
+ ```jsx
234
+ <div className="container">
235
+ {/*... } */}
236
+ <h1>Hello World</h1>
237
+ </div>
238
+ ```
239
+
240
+ ٢. ݢوناکن JSX يڠ سواست اونتوق ممبوات ستروکتور HTML دان فوڠسي اوتوماتيق نۏيو-جسون ترسديا:
241
+
242
+ ```jsx
243
+ import React from'react';
244
+
245
+ const HelloWorldPage = () => {
246
+ return (
247
+ <>
248
+ <!--... }}
249
+ <p>مرتي كموداه اين!</p>
250
+ </>
251
+ />
252
+ );
253
+ }
254
+
255
+ export default HelloWorldPage;
256
+ ```
257
+
258
+ ٣. توليس فايل `index.html` اتاو `index.js` سباليق-والاٴي ديريکتوري اوتمنتو اونتوق سويتوه اوجي.
259
+
260
+ ٤. تتڤكن URL يڠ بتول دڠن رياکت:
261
+
262
+ دسيني⹂ اوبه سموا لاجور داءيرراسي سدمىش سبلوم ملڠكڤکنڽ ک 'http://localhost:3000'، اداله چارا باٴيق اونتوق منتڤکن نيلاي URL سلبيه دڠن CSS.
263
+ ```css
264
+ /* index.css */
265
+ body { font-family: Arial, sans-serif; }
266
+ .container { background-color: palegoldenrod; padding: 20px;}
267
+ ```
268
+ ٥. ايمڤورت مودولو ﴿ماودولو﴾ دري جدوال تيبيت اونيکل (`useModulo`) جک کامي ممبوليهکن موتايليروڠ مکسيموم:
269
+ ```javascript
270
+ <Modal {...modal} isOpen onClose={handleClose}>
271
+ {/*... } %}
272
+ </Modal>
273
+
274
+ <script setup import * as Modal from './modals/modal'; // هاڽ بوكو ببراڤ اراين يڠ دڤرليبس اس کدالم ڬلوب. -->
275
+ ```
276
+ داون جاڠن لوڤاسک لامن ويب دڠن رياکت:
277
+
278
+ *سترينتشن**: أرتيكلت اصل تيدق ڤواسکن سمولا دڠن کود ڤرانتي ستياڤ تمبهن يڠ دلنجوتکن. اند کمودها هاروس منيدياکن اتريبوت ريسوليته اونتوق اچارا اتور يڠ ديڬرقکن انتارا ڤلقسانأن تيدق سام اد لامن ويب بيروکولت دان رياكت.***
279
+
280
+ ٨. اخيرڽ⹂ جالنکن لامن ويب اونتوق مليهتڽ يڠ بوليه دسسوايکن:
281
+ *ماري ايجين اول: npm run start || yarn serve*
282
+
283
+ اند امت بوليه مڠهنتر اكسس لامن ديريکتوري `build/index.html` سماس مماڠݢيل `npm run dev` اتاو `yarn`. اين اکن ممببنکن سيستم اندا دڠن چلي يڠ دهادڤي دوا منجلڠ ماس لاتر بلاکڠ لامن ويب.<|eot_id|>
284
+ ````