nguyennghia0902 commited on
Commit
a0a6e98
1 Parent(s): 679fc29

Upload 3 files

Browse files
Files changed (3) hide show
  1. Information_Retrieval.py +95 -0
  2. Vstopword_new.txt +1384 -0
  3. punctuations.txt +53 -0
Information_Retrieval.py ADDED
@@ -0,0 +1,95 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ from os import path
2
+ import streamlit as st
3
+
4
+ import nltk, subprocess, sys
5
+
6
+ stwfilename = "Vstopword_new.txt"
7
+ punfilename = "punctuation.txt"
8
+ STW_PATH = path.join(path.dirname(__file__), stwfilename)
9
+ PUNCT_PATH = path.join(path.dirname(__file__), punfilename)
10
+
11
+
12
+ from pyvi import ViTokenizer
13
+ @st.cache_resource
14
+ def open2list_vn(path):
15
+ if path:
16
+ with open(path) as f:
17
+ line = list(f.read().splitlines())
18
+ return line
19
+ def pre_progress(input):
20
+ stw = open2list_vn(STW_PATH)
21
+ punctuations = open2list_vn(PUNCT_PATH)
22
+ textU = ViTokenizer.tokenize(input)
23
+ text = textU.lower()
24
+ tokens = []
25
+ all_tokens = []
26
+ raw = nltk.wordpunct_tokenize(text)
27
+ for token in raw:
28
+ if token not in punctuations:
29
+ tokens.append(token)
30
+ for i in range(len(tokens)):
31
+ if tokens[i] not in stw:
32
+ all_tokens.append(tokens[i])
33
+ return " ".join(all_tokens)
34
+
35
+
36
+ # from tensorflow import keras
37
+ import tensorflow as tf
38
+ from transformers import ElectraTokenizer, TFElectraForSequenceClassification
39
+
40
+ MODEL_NAME = "google/electra-small-discriminator"
41
+ MODEL_PATH = 'nguyennghia0902/textming_proj01_electra'
42
+
43
+ tokenizer = ElectraTokenizer.from_pretrained(MODEL_NAME)
44
+
45
+ id2label = {0: "FALSE", 1: "TRUE"}
46
+ label2id = {"FALSE": 0, "TRUE": 1}
47
+ loaded_model = TFElectraForSequenceClassification.from_pretrained(MODEL_PATH, id2label=id2label, label2id=label2id)
48
+
49
+ def predict(question, text):
50
+ combined = pre_progress(question + ' ' + text)
51
+
52
+ inputs = tokenizer(combined, truncation=True, padding=True, return_tensors='tf')
53
+ logits = loaded_model(**inputs).logits
54
+ predicted_class_id = int(tf.math.argmax(logits, axis=-1)[0])
55
+
56
+ return loaded_model.config.id2label[predicted_class_id]
57
+
58
+
59
+ def main():
60
+ st.set_page_config(page_title="Information Retrieval", page_icon="📝")
61
+
62
+ # giving a title to our page
63
+ st.title("Information Retrieval")
64
+ text = st.text_area(
65
+ "Please enter a text:",
66
+ placeholder="Enter your text here",
67
+ height=200,
68
+ )
69
+ question = st.text_area(
70
+ "Please enter a question:",
71
+ placeholder="Enter your question here",
72
+ height=200,
73
+ )
74
+
75
+ prediction = ""
76
+
77
+ # Create a prediction button
78
+ if st.button("Predict"):
79
+ stripped = text.strip()
80
+ if not stripped:
81
+ st.error("Please enter some text.")
82
+ return
83
+ stripped = question.strip()
84
+ if not stripped:
85
+ st.error("Please enter a question.")
86
+ return
87
+ text = text.replace("\n", "")
88
+ prediction = predict(question, text)
89
+ if prediction == "TRUE":
90
+ st.success("TRUE 😄")
91
+ else:
92
+ st.warning("FALSE 😟")
93
+
94
+ if __name__ == "__main__":
95
+ main()
Vstopword_new.txt ADDED
@@ -0,0 +1,1384 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ á
2
+ à
3
+
4
+ á_à
5
+ a_ha
6
+ a_lô
7
+ à_này
8
+ à_ơi
9
+ ạ_ơi
10
+ ái
11
+ ai_ai
12
+ ái_chà
13
+ ái_dà
14
+ ai_nấy
15
+ alô
16
+ amen
17
+ ăn_chắc
18
+ ăn_chịu
19
+ ăn_chung
20
+ ăn_cuộc
21
+ ăn_làm
22
+ ăn_quá
23
+ ăn_riêng
24
+ ăn_tay
25
+ ăn_trên
26
+ ăn_về
27
+ áng
28
+ áng_như
29
+ ào
30
+ ào_ào
31
+ ào_vào
32
+ ắt
33
+ ắt_hẳn
34
+ ắt_là
35
+ ắt_phải
36
+ ắt_thật
37
+ âu_là
38
+ ầu_ơ
39
+ ấy
40
+ ấy_là
41
+ ba_bản
42
+ ba_cùng
43
+ ba_họ
44
+ ba_tăng
45
+ bài_bác
46
+ bài_bỏ
47
+ bài_cái
48
+ bản_bộ
49
+ bán_cấp
50
+ bán_dạ
51
+ bản_riêng
52
+ bán_thế
53
+ bản_ý
54
+ bằng_ấy
55
+ bằng_cứ
56
+ bằng_người
57
+ bao_nả
58
+ bập_bà_bập_bõm
59
+ bập_bõm
60
+ bất_chợt
61
+ bất_cứ
62
+ bất_đồ
63
+ bất_giác
64
+ bất_kể
65
+ bất_kì
66
+ bất_kỳ
67
+ bất_ngờ
68
+ bất_nhược
69
+ bất_quá
70
+ bất_quá_chỉ
71
+ bất_thình_lình
72
+ bấy
73
+ bây_bẩy
74
+ bay_biến
75
+ bấy_chầy
76
+ bây_chừ
77
+ bấy_chừ
78
+ bấy_giờ
79
+ bấy_lâu
80
+ bấy_lâu_nay
81
+ bấy_nay
82
+ bây_nhiêu
83
+ bấy_nhiêu
84
+ bèn
85
+ bển
86
+ bên_bị
87
+ bên_có
88
+ béng
89
+ bệt
90
+ bị_chú
91
+ bị_vì
92
+ biết
93
+ biết_chắc
94
+ biết_chừng_nào
95
+ biết_đâu
96
+ biết_đâu_chừng
97
+ biết_đâu_đấy
98
+ biết_được
99
+ biết_mấy
100
+ biết_mình
101
+ biết_thế
102
+ biết_trước
103
+ biết_việc
104
+ bớ
105
+ bộ
106
+ bỏ_bà
107
+ bỏ_cha
108
+ bộ_điều
109
+ bỏ_không
110
+ bỏ_mất
111
+ bỏ_nhỏ
112
+ bỏ_quá
113
+ bộ_thuộc
114
+ bỏ_xa
115
+ bởi_chưng
116
+ bởi_đâu
117
+ bởi_nhưng
118
+ bội_phần
119
+ bởi_sao
120
+ bởi_tại
121
+ bởi_thế
122
+ bởi_thế_cho_nên
123
+ bởi_vậy
124
+ bởi_vì
125
+ bỗng
126
+ bỗng_chốc
127
+ bỗng_đâu
128
+ bỗng_dưng
129
+ bỗng_không
130
+ bỗng_nhiên
131
+ bỗng_nhưng
132
+ bỗng_thấy
133
+ bức
134
+ bước_đi
135
+ cả
136
+ cả_ăn
137
+ cả_đến
138
+ cả_nghe
139
+ cả_nghĩ
140
+ cá_nhân
141
+ cả_thảy
142
+ cả_thể
143
+ cách
144
+ cách_bức
145
+ cách_đều
146
+ cách_không
147
+ cách_nhau
148
+ cái
149
+ cái_ấy
150
+ cái_đã
151
+ cái_đó
152
+ cái_gì
153
+ cái_họ
154
+ cần
155
+ căn_cái
156
+ cần_cấp
157
+ căn_cắt
158
+ cần_gì
159
+ cần_số
160
+ căn_tính
161
+ càng
162
+ càng_càng
163
+ càng_hay
164
+ cao_sang
165
+ cấp
166
+ cấp_số
167
+ cấp_trực_tiếp
168
+ cật_lực
169
+ cật_sức
170
+ cậu
171
+ cây_nước
172
+ cha_chả
173
+ chắc
174
+ chậc
175
+ chắc_ăn
176
+ chắc_lòng
177
+ chắc_người
178
+ chắc_vào
179
+ chầm_chập
180
+ chăn_chắn
181
+ chăng
182
+ chăng_chắc
183
+ chẳng_những
184
+ chăng_nữa
185
+ chẳng_nữa
186
+ chẳng_phải
187
+ chành_chạnh
188
+ chao_ôi
189
+ chết_nỗi
190
+ chết_thật
191
+ chỉ
192
+ chị_bộ
193
+ chí_chết
194
+ chỉ_chính
195
+ chỉ_tên
196
+ chỉn
197
+ chính
198
+ chính_bản
199
+ chính_điểm
200
+ chính_là
201
+ chính_thị
202
+ chịu
203
+ chịu_chưa
204
+ chịu_lời
205
+ chịu_tốt
206
+ chớ
207
+ cho_chắc
208
+ chớ_chi
209
+ cho_đang
210
+ cho_đến
211
+ cho_đến_khi
212
+ cho_đến_nỗi
213
+ cho_được
214
+ chớ_gì
215
+ chớ_kể
216
+ chớ_không
217
+ cho_nên
218
+ chớ_như
219
+ cho_rằng
220
+ cho_rồi
221
+ cho_thấy
222
+ cho_tin
223
+ cho_tới
224
+ cho_tới_khi
225
+ cho_về
226
+ choa
227
+ chốc_chốc
228
+ chơi_họ
229
+ chọn
230
+ chọn_bên
231
+ chọn_ra
232
+ chợt
233
+ chợt_nghe
234
+ chợt_nhìn
235
+ chứ
236
+ chứ_ai
237
+ chu_cha
238
+ chứ_còn
239
+ chú_dẫn
240
+ chứ_gì
241
+ chú_khách
242
+ chứ_không
243
+ chứ_không_phải
244
+ chứ_lại
245
+ chứ_lị
246
+ chú_mày
247
+ chú_mình
248
+ chứ_như
249
+ chứ_sao
250
+ chui_cha
251
+ chủn
252
+ chùn_chùn
253
+ chùn_chũn
254
+ chúng
255
+ chung_ái
256
+ chung_cho
257
+ chung_chung
258
+ chung_cục
259
+ chung_nhau
260
+ chung_qui
261
+ chung_quy
262
+ chung_quy_lại
263
+ chuyển
264
+ chuyển_đạt
265
+ chuyển_tự
266
+
267
+
268
+ có_ai
269
+ có_ăn
270
+ có_chăng
271
+ có_chăng_là
272
+ cơ_chỉ
273
+ có_chứ
274
+ cơ_chừng
275
+ có_chuyện
276
+ có_cơ
277
+ cơ_cùng
278
+ cơ_dẫn
279
+ có_đáng
280
+ có_đâu
281
+ có_dễ
282
+ có_điều
283
+ có_được
284
+ có_họ
285
+ cơ_hồ
286
+ cơ_hội
287
+ có_khi
288
+ cổ_lai
289
+ cơ_mà
290
+ cô_mình
291
+ có_người
292
+ có_nhà
293
+ có_nhiều
294
+ có_phải
295
+ cô_quả
296
+ có_số
297
+ cô_tăng
298
+ có_tháng
299
+ có_thế
300
+ có_thể
301
+ có_vẻ
302
+ có_ý
303
+ cóc_khô
304
+ coi_bộ
305
+ coi_mòi
306
+ còn
307
+ cơn
308
+ con_con
309
+ con_dạ
310
+ con_nhà
311
+ còn_như
312
+ còn_nữa
313
+ còn_thời_gian
314
+ con_tính
315
+ còn_về
316
+ công_nhiên
317
+ cứ
318
+ cu_cậu
319
+ cứ_điểm
320
+ cứ_như
321
+ cụ_thể
322
+ cụ_thể_là
323
+ cụ_thể_như
324
+ cứ_việc
325
+ của
326
+ của_ngọt
327
+ của_tin
328
+ cực_lực
329
+ cũng
330
+ cùng_ăn
331
+ cũng_được
332
+ cũng_nên
333
+ cũng_như
334
+ cũng_thế
335
+ cùng_tột
336
+ cũng_vậy
337
+ cũng_vậy_thôi
338
+ cuộc
339
+ cuối_điểm
340
+ cuốn
341
+ dạ
342
+ đã
343
+ dạ_bán
344
+ dạ_con
345
+ dạ_dạ
346
+ dạ_dài
347
+ đã_đủ
348
+ đã_hay
349
+ dạ_khách
350
+ đã_không
351
+ đã_là
352
+ đã_thế
353
+ đã_vậy
354
+ đặc_biệt
355
+ đại_để
356
+ đại_loại
357
+ đại_nhân
358
+ đại_phàm
359
+ dẫn
360
+ dần_dà
361
+ dần_dần
362
+ đang
363
+ đáng
364
+ đáng_kể
365
+ đáng_lẽ
366
+ đáng_lí
367
+ đáng_lý
368
+ đáng_số
369
+ đang_tay
370
+ đang_thì
371
+ dành
372
+ đành_đạch
373
+ dành_dành
374
+ đánh_đùng
375
+ đánh_giá
376
+ dào
377
+ đáo_để
378
+ đạt
379
+ đặt
380
+ đặt_để
381
+ đặt_làm
382
+ đặt_mình
383
+ đặt_mức
384
+ đặt_ra
385
+ đặt_trước
386
+ dẫu
387
+ đâu
388
+ đâu_có
389
+ đâu_cũng
390
+ đâu_đâu
391
+ đâu_đây
392
+ đâu_đó
393
+ dẫu_mà
394
+ đâu_nào
395
+ đâu_như
396
+ đâu_phải
397
+ dẫu_rằng
398
+ dầu_sao
399
+ dẫu_sao
400
+ đầu_tiên
401
+ đây
402
+ đầy
403
+ đây_đó
404
+ đầy_năm
405
+ đây_này
406
+ đầy_phè
407
+ đây_rồi
408
+ đầy_tuổi
409
+ để
410
+ để_cho
411
+ dễ_đâu
412
+ để_đến_nỗi
413
+ để_được
414
+ dễ_gì
415
+ để_giống
416
+ dễ_khiến
417
+ để_không
418
+ để_lại
419
+ để_lòng
420
+ để_mà
421
+ dễ_ngươi
422
+ dễ_như_chơi
423
+ để_phần
424
+ dễ_thường
425
+ đến
426
+ đến_bao_giờ
427
+ đến_cả
428
+ đến_cùng
429
+ đến_cùng_cực
430
+ đến_đâu
431
+ đến_điều
432
+ đến_gần
433
+ đến_giờ
434
+ đến_hay
435
+ đến_khi
436
+ đến_lời
437
+ đến_lúc
438
+ đến_nay
439
+ đến_ngày
440
+ đến_nỗi
441
+ đến_nơi
442
+ đến_thế
443
+ đến_thì
444
+ đến_tuổi
445
+ đến_xem
446
+ đều
447
+ đều_bước
448
+ đều_đều
449
+ đều_nhau
450
+
451
+ điểm
452
+ điểm_chính
453
+ điểm_đầu_tiên
454
+ điểm_gặp
455
+ điều
456
+ điều_gì
457
+ điều_kiện
458
+ đó
459
+ dở_chừng
460
+ đó_đây
461
+ do_đó
462
+ do_vậy
463
+ do_vì
464
+ đối_với
465
+ đơn_vị
466
+ đồng_thời
467
+
468
+ dữ
469
+ đủ
470
+ dữ_cách
471
+ dù_cho
472
+ dù_dì
473
+ đủ_điều
474
+ đủ_dùng
475
+ dù_gì
476
+ đủ_nơi
477
+ dù_rằng
478
+ dù_sao
479
+ đủ_số
480
+ đưa
481
+ đưa_cho
482
+ đưa_chuyện
483
+ đưa_đến
484
+ đưa_em
485
+ đưa_ra
486
+ đưa_tay
487
+ đưa_tin
488
+ đưa_tới
489
+ đưa_vào
490
+ đưa_về
491
+ đưa_xuống
492
+ dùng
493
+ đúng
494
+ dùng_cho
495
+ dùng_làm
496
+ đúng_ngày
497
+ đúng_ra
498
+ đúng_tuổi
499
+ đúng_với
500
+ được
501
+ được_cái
502
+ được_lời
503
+ được_nước
504
+ được_tin
505
+ duy
506
+ duy_chỉ
507
+ duy_có
508
+ em_em
509
+ gây
510
+ gây_cho
511
+ gây_giống
512
+ gây_ra
513
+ gây_thêm
514
+
515
+ gì_đó
516
+ gì_gì
517
+ giá_trị_thực_tế
518
+ giờ_đây
519
+ giờ_đến
520
+ giờ_đi
521
+ giờ_lâu
522
+ giống_người
523
+ giữ
524
+ giữ_lấy
525
+ giữ_ý
526
+ giữa
527
+ giữa_lúc
528
+ hầu_hết
529
+ hay
530
+ hãy
531
+ hay_biết
532
+ hãy_còn
533
+ hay_đâu
534
+ hay_hay
535
+ hay_không
536
+ hay_là
537
+ hay_làm
538
+ hay_nhỉ
539
+ hay_nói
540
+ hay_sao
541
+ hay_tin
542
+ hết_cả
543
+ hết_của
544
+ hết_nói
545
+ hết_ráo
546
+ hết_rồi
547
+ hết_ý
548
+ họ_gần
549
+ họ_xa
550
+ hoặc_là
551
+ hỏi_lại
552
+ hỏi_xem
553
+ hỏi_xin
554
+ hơn_là
555
+ hơn_nữa
556
+ hơn_trước
557
+ ít
558
+ ít_biết
559
+ ít_có
560
+ ít_hơn
561
+ ít_khi
562
+ ít_lâu
563
+ ít_nhất
564
+ ít_nhiều
565
+ ít_nữa
566
+ ít_quá
567
+ ít_ra
568
+ ít_thấy
569
+ ít_thôi
570
+ kể_cả
571
+ kể_như
572
+ kể_tới
573
+ khác_gì
574
+ khác_khác
575
+ khác_nào
576
+ khác_thường
577
+ khác_xa
578
+ khi
579
+ khi_khác
580
+ khi_không
581
+ khi_nào
582
+ khi_nên
583
+ khi_trước
584
+ khiến
585
+ khó_biết
586
+ khoảng
587
+ khoảng_cách
588
+ khoảng_không
589
+ khỏi_nói
590
+ là_cùng
591
+ là_là
592
+ lại_ăn
593
+ lại_bộ
594
+ lại_cái
595
+ lại_còn
596
+ lại_giống
597
+ lại_làm
598
+ lại_người
599
+ lại_nói
600
+ lại_nữa
601
+ lại_quả
602
+ lại_thôi
603
+ làm_bằng
604
+ làm_cho
605
+ làm_dần_dần
606
+ làm_đúng
607
+ làm_được
608
+ làm_gì
609
+ làm_lại
610
+ làm_lấy
611
+ làm_lòng
612
+ làm_mất
613
+ làm_như
614
+ làm_riêng
615
+ làm_tại
616
+ làm_tăng
617
+ làm_tắp_lự
618
+ làm_thế_nào
619
+ làm_tin
620
+ làm_tôi
621
+ lần_này
622
+ lần_sang
623
+ lần_theo
624
+ lần_tìm
625
+ lâu_các
626
+ lấy_cả
627
+ lấy_có
628
+ lấy_để
629
+ lấy_được
630
+ lấy_giống
631
+ lấy_lại
632
+ lấy_làm
633
+ lấy_ra
634
+ lấy_ráo
635
+ lấy_sau
636
+ lấy_số
637
+ lấy_thế
638
+ lấy_thêm
639
+ lấy_vào
640
+ lấy_xuống
641
+ loại
642
+ loại_từ
643
+ lời
644
+ lời_chú
645
+ lời_nói
646
+ lúc
647
+ lúc_ấy
648
+ lúc_đến
649
+ lúc_đi
650
+ lúc_đó
651
+ lúc_lâu
652
+ lúc_nào
653
+ lúc_này
654
+ luôn_cả
655
+ lượng
656
+ lượng_cả
657
+ lượng_số
658
+ lượng_từ
659
+ lý_do
660
+
661
+ mà_cả
662
+ mà_không
663
+ mà_lại
664
+ mà_thôi
665
+ mà_vẫn
666
+ mang_mang
667
+ mợ
668
+ mối
669
+ mới_đây
670
+ mới_rồi
671
+ một_cơn
672
+ mức
673
+ nặng
674
+ nặng_căn
675
+ nặng_mình
676
+ nặng_về
677
+ nào
678
+ nào_cũng
679
+ nào_đâu
680
+ nào_đó
681
+ nào_hay
682
+ nào_là
683
+ nào_phải
684
+ này
685
+ nấy
686
+ này_nọ
687
+ nên
688
+ nền
689
+ nên_chăng
690
+ nên_chi
691
+ nên_làm
692
+ nên_người
693
+ nên_tránh
694
+ nếu
695
+ nếu_cần
696
+ nếu_có
697
+ nếu_được
698
+ nếu_không
699
+ nếu_mà
700
+ nếu_như
701
+ nếu_thế
702
+ nếu_vậy
703
+ ngăn_ngắt
704
+ ngay_cả
705
+ ngày_cấp
706
+ ngày_đến
707
+ ngày_giờ
708
+ ngay_khi
709
+ ngay_khi_đến
710
+ ngay_lập_tức
711
+ ngay_lúc
712
+ ngay_lúc_này
713
+ ngày_nào
714
+ ngày_này
715
+ ngày_ngày
716
+ ngày_nọ
717
+ ngày_qua
718
+ ngày_rày
719
+ ngay_thật
720
+ ngay_từ
721
+ ngay_tức_khắc
722
+ ngay_tức_thì
723
+ nghe_chừng
724
+ nghe_đâu
725
+ nghe_đâu_như
726
+ nghe_hiểu
727
+ nghe_không
728
+ nghe_lại
729
+ nghe_nhìn
730
+ nghe_như
731
+ nghe_rõ
732
+ nghe_trực_tiếp
733
+ nghen
734
+ nghĩ_đến
735
+ nghĩ_ra
736
+ nghĩ_tới
737
+ nghĩ_xa
738
+ nghiễm_nhiên
739
+ nghỉm
740
+ ngõ_hầu
741
+ ngộ_nhỡ
742
+ ngoải
743
+ ngôi_thứ
744
+ ngồi_trệt
745
+ ngọn_nguồn
746
+ ngươi
747
+ nhằm_để
748
+ nhằm_khi
749
+ nhằm_lúc
750
+ nhằm_vào
751
+ nhận_họ
752
+ nhận_làm
753
+ nhận_nhau
754
+ nhân_tiện
755
+ nhất
756
+ nhất_đán
757
+ nhất_định
758
+ nhất_là
759
+ nhất_loạt
760
+ nhất_luật
761
+ nhất_mực
762
+ nhất_nhất
763
+ nhất_quyết
764
+ nhất_sinh
765
+ nhất_tâm
766
+ nhất_tề
767
+ nhất_thì
768
+ nhất_thiết
769
+ nhé
770
+ nhỉ
771
+ nhiên_hậu
772
+ nhiệt_liệt
773
+ nhỏ
774
+ nhờ
775
+ nhớ_bập_bõm
776
+ nhờ_chuyển
777
+ nhờ_có
778
+ nhờ_đó
779
+ nhỏ_người
780
+ nhờ_nhờ
781
+ nhỡ_ra
782
+ nhón_nhén
783
+ như
784
+ như_ai
785
+ như_chơi
786
+ như_không
787
+ như_là
788
+ như_nhau
789
+ như_quả
790
+ như_sau
791
+ như_thế
792
+ như_thể
793
+ như_thế_nào
794
+ như_thường
795
+ như_trên
796
+ như_trước
797
+ như_tuồng
798
+ như_vậy
799
+ như_ý
800
+ nhưng
801
+ những
802
+ những_khi
803
+ những_là
804
+ những_lúc
805
+ nhưng_mà
806
+ những_muốn
807
+ nhung_nhăng
808
+ những_như
809
+ nhược_bằng
810
+ nọ
811
+ nớ
812
+ nóc
813
+ nơi
814
+ nói_bông
815
+ nói_chung
816
+ nói_đến
817
+ nói_đủ
818
+ nói_khó
819
+ nói_là
820
+ nói_lại
821
+ nói_lên
822
+ nói_nhỏ
823
+ nơi_nơi
824
+ nói_phải
825
+ nói_qua
826
+ nói_ra
827
+ nói_riêng
828
+ nói_rõ
829
+ nói_thật
830
+ nói_thêm
831
+ nói_toẹt
832
+ nói_tốt
833
+ nói_trước
834
+ nói_với
835
+ nói_xa
836
+ nói_ý
837
+ nữa
838
+ nữa_khi
839
+ nữa_là
840
+ nữa_rồi
841
+ nức_nở
842
+ nước
843
+ nước_ăn
844
+ nước_bài
845
+ nước_cùng
846
+ nước_đến
847
+ nước_lên
848
+ nước_nặng
849
+ nước_quả
850
+ nước_xuống
851
+
852
+ ơ
853
+
854
+
855
+ ô_hay
856
+ ơ_hay
857
+ ô_hô
858
+ ô_kê
859
+ ô_kìa
860
+ ơ_kìa
861
+ ở_lại
862
+ ở_năm
863
+ ớ_này
864
+ ở_nhờ
865
+ ở_như
866
+ ồ_ồ
867
+ ờ_ờ
868
+ ở_vào
869
+ oái
870
+ oai_oái
871
+ ơi
872
+ ôi_chao
873
+ ối_dào
874
+ ối_giời
875
+ ���i_giời_ơi
876
+ ơi_là
877
+ ôi_thôi
878
+ ông_ổng
879
+ ông_tạo
880
+ ông_từ
881
+ phải
882
+ phải_biết
883
+ phải_cách
884
+ phải_cái
885
+ phải_chăng
886
+ phải_chi
887
+ phải_giờ
888
+ phải_khi
889
+ phải_không
890
+ phải_lại
891
+ phải_lời
892
+ phải_người
893
+ phải_như
894
+ phải_rồi
895
+ phải_tay
896
+ phăn_phắt
897
+ phần_việc
898
+ phắt
899
+ phè
900
+ phè_phè
901
+ phỉ_phui
902
+ pho
903
+ phóc
904
+ phốc
905
+ phỏng
906
+ phỏng_như
907
+ phỏng_nước
908
+ phỏng_theo
909
+ phỏng_tính
910
+ phót
911
+ phương_chi
912
+ phụt
913
+ phứt
914
+ quá_bán
915
+ quá_bộ
916
+ qua_chuyện
917
+ quá_đáng
918
+ qua_đi
919
+ quá_giờ
920
+ qua_khỏi
921
+ quả_là
922
+ qua_lần
923
+ quá_lời
924
+ quá_mức
925
+ qua_tay
926
+ quá_tay
927
+ quả_thật
928
+ quả_thế
929
+ qua_thì
930
+ quá_thì
931
+ quá_tin
932
+ quá_tuổi
933
+ quá_ư
934
+ quả_vậy
935
+ quan_tâm
936
+ quan_trọng
937
+ quan_trọng_vấn_đề
938
+ quay
939
+ quay_bước
940
+ quay_đi
941
+ quay_lại
942
+ quay_số
943
+ ra_bộ
944
+ ra_chơi
945
+ ra_đây
946
+ ra_điều
947
+ ra_gì
948
+ ra_lại
949
+ ra_lời
950
+ ra_ngôi
951
+ ra_người
952
+ ra_sao
953
+ ra_tay
954
+ ra_vào
955
+ ra_ý
956
+ răng
957
+ rằng
958
+ rằng_là
959
+ răng_răng
960
+ ráo
961
+ ráo_cả
962
+ ráo_nước
963
+ ráo_trọi
964
+ rày
965
+ rén
966
+ rén_bước
967
+ ren_rén
968
+ rích
969
+ riêng
970
+ riêng_từng
971
+ riệt
972
+ riu_ríu
973
+
974
+ rõ_là
975
+ rõ_thật
976
+ rồi
977
+ rồi_đây
978
+ rồi_nữa
979
+ rồi_ra
980
+ rồi_sao
981
+ rồi_sau
982
+ rồi_tay
983
+ rồi_thì
984
+ rồi_xem
985
+ rón_rén
986
+ rốt_cục
987
+ rốt_cuộc
988
+ rứa
989
+ rút_cục
990
+ sa_sả
991
+ sang
992
+ sang_năm
993
+ sáng_rõ
994
+ sang_sáng
995
+ sang_tay
996
+ sáng_thế
997
+ sáng_ý
998
+ sao_bản
999
+ sao_bằng
1000
+ sao_cho
1001
+ sao_đang
1002
+ sao_vậy
1003
+ sắp
1004
+ sắp_đặt
1005
+ sất
1006
+ sau_nữa
1007
+ sau_sau
1008
+ sẽ
1009
+ sẽ_biết
1010
+ sẽ_hay
1011
+
1012
+ sì_sì
1013
+ so
1014
+ số_cho_biết
1015
+ số_cụ_thể
1016
+ sở_dĩ
1017
+ số_là
1018
+ số_loại
1019
+ số_người
1020
+ số_phần
1021
+ số_thiếu
1022
+ so_với
1023
+ song_le
1024
+ sốt_sột
1025
+ sự_thế
1026
+ tà_tà
1027
+ tại
1028
+ tại_đó
1029
+ tại_lòng
1030
+ tấm
1031
+ tấm_bản
1032
+ tấm_các
1033
+ tăm_tắp
1034
+ tấn
1035
+ tấn_tới
1036
+ tăng
1037
+ tăng_cấp
1038
+ tăng_chúng
1039
+ tăng_thế
1040
+ tăng_thêm
1041
+ tanh
1042
+ tanh_tanh
1043
+ tạo
1044
+ tạo_cơ_hội
1045
+ tạo_điều_kiện
1046
+ tạo_nên
1047
+ tạo_ra
1048
+ tạo_ý
1049
+ tắp
1050
+ tắp_lự
1051
+ tắp_tắp
1052
+ tập_trung
1053
+ tất_tần_tật
1054
+ tất_tật
1055
+ tất_thảy
1056
+ tay_quay
1057
+ tên_chính
1058
+ tên_họ
1059
+ tên_tự
1060
+ tênh
1061
+ tênh_tênh
1062
+ thà
1063
+ tha_hồ
1064
+ tha_hồ_ăn
1065
+ tha_hồ_chơi
1066
+ thà_là
1067
+ thà_rằng
1068
+ thái_quá
1069
+ thậm
1070
+ thậm_cấp
1071
+ thậm_chí
1072
+ thậm_từ
1073
+ than_ôi
1074
+ thanh
1075
+ thanh_ba
1076
+ thanh_chuyển
1077
+ thanh_điểm
1078
+ thanh_điều_kiện
1079
+ thanh_không
1080
+ thành_ra
1081
+ thanh_thanh
1082
+ thành_thử
1083
+ thanh_tính
1084
+ thảo_hèn
1085
+ thảo_nào
1086
+ thấp
1087
+ thấp_cơ
1088
+ thấp_thỏm
1089
+ thấp_xuống
1090
+ thật
1091
+ thật_chắc
1092
+ thật_là
1093
+ thật_lực
1094
+ thật_quả
1095
+ thật_ra
1096
+ thật_sự
1097
+ thật_thà
1098
+ thật_tốt
1099
+ thật_vậy
1100
+ thấy
1101
+ thẩy
1102
+ thay_đổi
1103
+ thay_đổi_tình_trạng
1104
+ thấy_tháng
1105
+ thế
1106
+ thế_à
1107
+ thế_chuẩn_bị
1108
+ thế_đó
1109
+ thế_là
1110
+ thế_lại
1111
+ thế_mà
1112
+ thế_nào
1113
+ thế_nên
1114
+ thế_ra
1115
+ thế_sự
1116
+ thế_thế
1117
+ thế_thì
1118
+ thế_thôi
1119
+ thế_thường
1120
+ thếch
1121
+ thêm
1122
+ thêm_chuyện
1123
+ thêm_giờ
1124
+ thêm_vào
1125
+ theo
1126
+ theo_bước
1127
+ theo_như
1128
+ theo_tin
1129
+ thì
1130
+ thì_giờ
1131
+ thì_là
1132
+ thì_phải
1133
+ thì_ra
1134
+ thi_thoảng
1135
+ thì_thôi
1136
+ thích
1137
+ thích_cứ
1138
+ thích_thuộc
1139
+ thích_tự
1140
+ thích_ý
1141
+ thiếu
1142
+ thiếu_điểm
1143
+ thiếu_gì
1144
+ thím
1145
+ thình_lình
1146
+ thỉnh_thoảng
1147
+ thoắt
1148
+ thoạt
1149
+ thoạt_nghe
1150
+ thoạt_nhiên
1151
+ thốc
1152
+ thộc
1153
+ thốc_tháo
1154
+ thôi
1155
+ thời_điểm
1156
+ thời_gian
1157
+ thời_gian_sử_dụng
1158
+ thời_gian_tính
1159
+ thôi_việc
1160
+ thỏm
1161
+ thốt
1162
+ thốt_nhiên
1163
+ thốt_nói
1164
+ thốt_thôi
1165
+ thứ
1166
+ thứ_bản
1167
+ thứ_đến
1168
+ thửa
1169
+ thuần
1170
+ thuần_ái
1171
+ thực_hiện
1172
+ thực_hiện_đúng
1173
+ thục_mạng
1174
+ thực_ra
1175
+ thực_sự
1176
+ thực_tế
1177
+ thực_vậy
1178
+ thúng_thắng
1179
+ thuộc
1180
+ thuộc_bài
1181
+ thuộc_cách
1182
+ thuộc_lại
1183
+ thuộc_từ
1184
+ thường
1185
+ thường_bị
1186
+ thường_đến
1187
+ thường_hay
1188
+ thường_khi
1189
+ thương_ôi
1190
+ thường_số
1191
+ thường_sự
1192
+ thường_tại
1193
+ thường_thôi
1194
+ thường_thường
1195
+ thường_tính
1196
+ thường_xuất_hiện
1197
+ tiện_thể
1198
+ tiếp_đó
1199
+ tiếp_theo
1200
+ tiếp_tục
1201
+ tìm_bạn
1202
+ tìm_cách
1203
+ tìm_hiểu
1204
+ tìm_việc
1205
+ tin
1206
+ tính_căn
1207
+ tính_phỏng
1208
+ tít_mù
1209
+ tỏ_ra
1210
+ tò_te
1211
+ tỏ_vẻ
1212
+ toà
1213
+ tốc_tả
1214
+ toé_khói
1215
+ toẹt
1216
+ tôi
1217
+ tôi_con
1218
+ tới_gần
1219
+ tới_mức
1220
+ tới_nơi
1221
+ tới_thì
1222
+ tối_ư
1223
+ tông_tốc
1224
+ tọt
1225
+ tột
1226
+ tốt_bạn
1227
+ tốt_bộ
1228
+ tột_cùng
1229
+ tốt_mối
1230
+ tốt_ngày
1231
+ trả_trước
1232
+ trển
1233
+ trên_bộ
1234
+ trếu_tráo
1235
+ trệu_trạo
1236
+ trở_thành
1237
+ trời_đất_ơi
1238
+ trong
1239
+ trỏng
1240
+ trong_ấy
1241
+ trong_đó
1242
+ trong_khi
1243
+ trong_lúc
1244
+ trong_mình
1245
+ trong_này
1246
+ trong_vùng
1247
+ trừ_phi
1248
+ trực_tiếp_làm
1249
+ trước_khi
1250
+ trước_kia
1251
+ trước_nay
1252
+ trước_ngày
1253
+ trước_nhất
1254
+ trước_sau
1255
+ trước_tiên
1256
+ trước_tuổi
1257
+ từ
1258
+ tự
1259
+ tự_ăn
1260
+ từ_căn
1261
+ tự_cao
1262
+ từ_điều
1263
+ từ_đó
1264
+ từ_giờ
1265
+ từ_khi
1266
+ tự_khi
1267
+ từ_loại
1268
+ tự_lượng
1269
+ từ_tại
1270
+ từ_thế
1271
+ tù_tì
1272
+ tự_tính
1273
+ từ_từ
1274
+ tự_vì
1275
+ tự_ý
1276
+ tức_thì
1277
+ tức_tốc
1278
+ từng_nhà
1279
+ từng_thời_gian
1280
+ tuổi_tôi
1281
+ tuốt_luốt
1282
+ tuốt_tuồn_tuột
1283
+ tuốt_tuột
1284
+ tựu_trung
1285
+ tuy
1286
+ tuy_có
1287
+ tuy_đã
1288
+ tuy_là
1289
+ tuy_nhiên
1290
+ tuy_rằng
1291
+ tuy_thế
1292
+ tuy_vậy
1293
+ tuyệt_nhiên
1294
+ ư
1295
+
1296
+
1297
+ ừ_ào
1298
+ ứ_hự
1299
+ ừ_nhé
1300
+ ừ_thì
1301
+ ứ_ừ
1302
+ ừ_ừ
1303
+ ủa
1304
+ úi
1305
+ úi_chà
1306
+ úi_dào
1307
+
1308
+ vả_chăng
1309
+ vả_lại
1310
+ vẫn
1311
+ vấn_đề
1312
+ vấn_đề_quan_trọng
1313
+ vạn_nhất
1314
+ vẫn_thế
1315
+ vâng
1316
+ vâng_chịu
1317
+ vâng_dạ
1318
+ văng_tê
1319
+ vâng_vâng
1320
+ vâng_ý
1321
+ vào_vùng
1322
+ vậy
1323
+ vậy_là
1324
+ vậy_mà
1325
+ vậy_nên
1326
+ vậy_ra
1327
+ vậy_thì
1328
+ vậy_ư
1329
+ về
1330
+ về_không
1331
+ về_nước
1332
+ về_phần
1333
+ về_sau
1334
+ về_tay
1335
+ veo
1336
+ vèo
1337
+ veo_veo
1338
+ vèo_vèo
1339
+ ví_bằng
1340
+ vì_chưng
1341
+ ví_dù
1342
+ ví_phỏng
1343
+ vì_rằng
1344
+ vị_tất
1345
+ ví_thử
1346
+ vì_vậy
1347
+ vô_hình_trung
1348
+ với
1349
+ với_lại
1350
+ với_nhau
1351
+ vốn_dĩ
1352
+ vung_tán_tàn
1353
+ vung_tàn_tán
1354
+ vung_thiên_địa
1355
+ vụt
1356
+ xa_tanh
1357
+ xa_tắp
1358
+ xa_xả
1359
+ xăm_xăm
1360
+ xăm_xắm
1361
+ xăm_xúi
1362
+ xảy_ra
1363
+ xem
1364
+ xem_lại
1365
+ xem_ra
1366
+ xem_số
1367
+ xềnh_xệch
1368
+ xệp
1369
+ xiết_bao
1370
+ xin
1371
+ xin_gặp
1372
+ xin_vâng
1373
+ xoẳn
1374
+ xoành_xoạch
1375
+ xoét
1376
+ xoẹt
1377
+ xon_xón
1378
+ xuất_kì_bất_ý
1379
+ xuất_kỳ_bất_ý
1380
+ xuể
1381
+ ý
1382
+ ý_chừng
1383
+ ý_da
1384
+ ý_hoặc
punctuations.txt ADDED
@@ -0,0 +1,53 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ~
2
+ !
3
+ @
4
+ #
5
+ $
6
+ %
7
+ ^
8
+ &
9
+ *
10
+ (
11
+ )
12
+ _
13
+ +
14
+ =
15
+ -
16
+ `
17
+ {
18
+ }
19
+ [
20
+ ]
21
+ :
22
+ "
23
+
24
+
25
+ ;
26
+ '
27
+ <
28
+ >
29
+ ?
30
+ ,
31
+ .
32
+ /
33
+ ...
34
+ \
35
+ |
36
+
37
+
38
+ «
39
+ »
40
+ `
41
+ ´
42
+ ¨
43
+ ¯
44
+
45
+
46
+
47
+
48
+
49
+
50
+
51
+
52
+ ``
53
+ ''