xu-song commited on
Commit
0aebd8b
1 Parent(s): 6ef6bf4

add more tokenizer

Browse files
stats/compression_rate/NousResearch.Hermes-3-Llama-3.1-405B @ cc100.ar.diff.json ADDED
@@ -0,0 +1,103 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)",
4
+ "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)",
5
+ "diff": [
6
+ "delete text[42:43] --> decoded_text[42:42] ' ' --> ''"
7
+ ],
8
+ "n_oov_chars": 0,
9
+ "oov_ratio": 0.0,
10
+ "oov_charset": "[]"
11
+ },
12
+ {
13
+ "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.",
14
+ "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.",
15
+ "diff": [
16
+ "delete text[45:46] --> decoded_text[45:45] ' ' --> ''"
17
+ ],
18
+ "n_oov_chars": 0,
19
+ "oov_ratio": 0.0,
20
+ "oov_charset": "[]"
21
+ },
22
+ {
23
+ "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .",
24
+ "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.",
25
+ "diff": [
26
+ "delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
27
+ ],
28
+ "n_oov_chars": 0,
29
+ "oov_ratio": 0.0,
30
+ "oov_charset": "[]"
31
+ },
32
+ {
33
+ "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان",
34
+ "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان",
35
+ "diff": [
36
+ "delete text[825:826] --> decoded_text[825:825] ' ' --> ''"
37
+ ],
38
+ "n_oov_chars": 0,
39
+ "oov_ratio": 0.0,
40
+ "oov_charset": "[]"
41
+ },
42
+ {
43
+ "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .",
44
+ "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.",
45
+ "diff": [
46
+ "delete text[469:470] --> decoded_text[469:469] ' ' --> ''",
47
+ "delete text[720:721] --> decoded_text[719:719] ' ' --> ''"
48
+ ],
49
+ "n_oov_chars": 0,
50
+ "oov_ratio": 0.0,
51
+ "oov_charset": "[]"
52
+ },
53
+ {
54
+ "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .",
55
+ "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.",
56
+ "diff": [
57
+ "delete text[147:148] --> decoded_text[147:147] ' ' --> ''"
58
+ ],
59
+ "n_oov_chars": 0,
60
+ "oov_ratio": 0.0,
61
+ "oov_charset": "[]"
62
+ },
63
+ {
64
+ "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...",
65
+ "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....",
66
+ "diff": [
67
+ "delete text[183:184] --> decoded_text[183:183] ' ' --> ''"
68
+ ],
69
+ "n_oov_chars": 0,
70
+ "oov_ratio": 0.0,
71
+ "oov_charset": "[]"
72
+ },
73
+ {
74
+ "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...",
75
+ "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...",
76
+ "diff": [
77
+ "delete text[279:280] --> decoded_text[279:279] ' ' --> ''"
78
+ ],
79
+ "n_oov_chars": 0,
80
+ "oov_ratio": 0.0,
81
+ "oov_charset": "[]"
82
+ },
83
+ {
84
+ "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة",
85
+ "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة",
86
+ "diff": [
87
+ "delete text[22:23] --> decoded_text[22:22] ' ' --> ''"
88
+ ],
89
+ "n_oov_chars": 0,
90
+ "oov_ratio": 0.0,
91
+ "oov_charset": "[]"
92
+ },
93
+ {
94
+ "text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين .",
95
+ "decoded_text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين.",
96
+ "diff": [
97
+ "delete text[73:74] --> decoded_text[73:73] ' ' --> ''"
98
+ ],
99
+ "n_oov_chars": 0,
100
+ "oov_ratio": 0.0,
101
+ "oov_charset": "[]"
102
+ }
103
+ ]
stats/compression_rate/NousResearch.Hermes-3-Llama-3.1-405B @ cc100.de.diff.json ADDED
@@ -0,0 +1,103 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !",
4
+ "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!",
5
+ "diff": [
6
+ "delete text[67:68] --> decoded_text[67:67] ' ' --> ''"
7
+ ],
8
+ "n_oov_chars": 0,
9
+ "oov_ratio": 0.0,
10
+ "oov_charset": "[]"
11
+ },
12
+ {
13
+ "text": "Laut dieser Studie sind es ....",
14
+ "decoded_text": "Laut dieser Studie sind es....",
15
+ "diff": [
16
+ "delete text[26:27] --> decoded_text[26:26] ' ' --> ''"
17
+ ],
18
+ "n_oov_chars": 0,
19
+ "oov_ratio": 0.0,
20
+ "oov_charset": "[]"
21
+ },
22
+ {
23
+ "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...",
24
+ "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...",
25
+ "diff": [
26
+ "delete text[78:79] --> decoded_text[78:78] ' ' --> ''"
27
+ ],
28
+ "n_oov_chars": 0,
29
+ "oov_ratio": 0.0,
30
+ "oov_charset": "[]"
31
+ },
32
+ {
33
+ "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,",
34
+ "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,",
35
+ "diff": [
36
+ "delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
37
+ ],
38
+ "n_oov_chars": 0,
39
+ "oov_ratio": 0.0,
40
+ "oov_charset": "[]"
41
+ },
42
+ {
43
+ "text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung , als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.",
44
+ "decoded_text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung, als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.",
45
+ "diff": [
46
+ "delete text[553:554] --> decoded_text[553:553] ' ' --> ''"
47
+ ],
48
+ "n_oov_chars": 0,
49
+ "oov_ratio": 0.0,
50
+ "oov_charset": "[]"
51
+ },
52
+ {
53
+ "text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen, ,Mein Widerruf ist wahr', haben Sie immer gesagt ,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.",
54
+ "decoded_text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen,,Mein Widerruf ist wahr', haben Sie immer gesagt,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.",
55
+ "diff": [
56
+ "delete text[169:170] --> decoded_text[169:169] ' ' --> ''",
57
+ "delete text[218:219] --> decoded_text[217:217] ' ' --> ''"
58
+ ],
59
+ "n_oov_chars": 0,
60
+ "oov_ratio": 0.0,
61
+ "oov_charset": "[]"
62
+ },
63
+ {
64
+ "text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket !",
65
+ "decoded_text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket!",
66
+ "diff": [
67
+ "delete text[68:69] --> decoded_text[68:68] ' ' --> ''"
68
+ ],
69
+ "n_oov_chars": 0,
70
+ "oov_ratio": 0.0,
71
+ "oov_charset": "[]"
72
+ },
73
+ {
74
+ "text": "Da sollte man mit 1,- € Spende ein Kind einen Tag sattmachen 😦 also 30,-€ im Monat !",
75
+ "decoded_text": "Da sollte man mit 1,- € Spende ein Kind einen Tag sattmachen 😦 also 30,-€ im Monat!",
76
+ "diff": [
77
+ "delete text[82:83] --> decoded_text[82:82] ' ' --> ''"
78
+ ],
79
+ "n_oov_chars": 0,
80
+ "oov_ratio": 0.0,
81
+ "oov_charset": "[]"
82
+ },
83
+ {
84
+ "text": "Wie lange sind diese Produkte dann haltbar ?….und noch spannender,….was koche ich daraus?! 🙂",
85
+ "decoded_text": "Wie lange sind diese Produkte dann haltbar?….und noch spannender,….was koche ich daraus?! 🙂",
86
+ "diff": [
87
+ "delete text[42:43] --> decoded_text[42:42] ' ' --> ''"
88
+ ],
89
+ "n_oov_chars": 0,
90
+ "oov_ratio": 0.0,
91
+ "oov_charset": "[]"
92
+ },
93
+ {
94
+ "text": "Aber ab und zu sollte halt auch was zum KAUEN ❤ dabei sein !",
95
+ "decoded_text": "Aber ab und zu sollte halt auch was zum KAUEN ❤ dabei sein!",
96
+ "diff": [
97
+ "delete text[58:59] --> decoded_text[58:58] ' ' --> ''"
98
+ ],
99
+ "n_oov_chars": 0,
100
+ "oov_ratio": 0.0,
101
+ "oov_charset": "[]"
102
+ }
103
+ ]
stats/compression_rate/NousResearch.Hermes-3-Llama-3.1-405B @ cc100.en.diff.json ADDED
@@ -0,0 +1,103 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.",
4
+ "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.",
5
+ "diff": [
6
+ "delete text[86:87] --> decoded_text[86:86] ' ' --> ''"
7
+ ],
8
+ "n_oov_chars": 0,
9
+ "oov_ratio": 0.0,
10
+ "oov_charset": "[]"
11
+ },
12
+ {
13
+ "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .",
14
+ "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.",
15
+ "diff": [
16
+ "delete text[318:319] --> decoded_text[318:318] ' ' --> ''"
17
+ ],
18
+ "n_oov_chars": 0,
19
+ "oov_ratio": 0.0,
20
+ "oov_charset": "[]"
21
+ },
22
+ {
23
+ "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.",
24
+ "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.",
25
+ "diff": [
26
+ "delete text[51:52] --> decoded_text[51:51] ' ' --> ''"
27
+ ],
28
+ "n_oov_chars": 0,
29
+ "oov_ratio": 0.0,
30
+ "oov_charset": "[]"
31
+ },
32
+ {
33
+ "text": "We're not so rough and over the top these days, so they miiiiight survive ._.",
34
+ "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.",
35
+ "diff": [
36
+ "delete text[73:74] --> decoded_text[73:73] ' ' --> ''"
37
+ ],
38
+ "n_oov_chars": 0,
39
+ "oov_ratio": 0.0,
40
+ "oov_charset": "[]"
41
+ },
42
+ {
43
+ "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...",
44
+ "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...",
45
+ "diff": [
46
+ "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'"
47
+ ],
48
+ "n_oov_chars": 0,
49
+ "oov_ratio": 0.0,
50
+ "oov_charset": "[]"
51
+ },
52
+ {
53
+ "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...",
54
+ "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...",
55
+ "diff": [
56
+ "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'"
57
+ ],
58
+ "n_oov_chars": 0,
59
+ "oov_ratio": 0.0,
60
+ "oov_charset": "[]"
61
+ },
62
+ {
63
+ "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.",
64
+ "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.",
65
+ "diff": [
66
+ "delete text[26:27] --> decoded_text[26:26] ' ' --> ''"
67
+ ],
68
+ "n_oov_chars": 0,
69
+ "oov_ratio": 0.0,
70
+ "oov_charset": "[]"
71
+ },
72
+ {
73
+ "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.",
74
+ "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.",
75
+ "diff": [
76
+ "delete text[114:115] --> decoded_text[114:114] ' ' --> ''",
77
+ "delete text[217:218] --> decoded_text[216:216] ' ' --> ''"
78
+ ],
79
+ "n_oov_chars": 0,
80
+ "oov_ratio": 0.0,
81
+ "oov_charset": "[]"
82
+ },
83
+ {
84
+ "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.",
85
+ "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.",
86
+ "diff": [
87
+ "delete text[328:329] --> decoded_text[328:328] ' ' --> ''"
88
+ ],
89
+ "n_oov_chars": 0,
90
+ "oov_ratio": 0.0,
91
+ "oov_charset": "[]"
92
+ },
93
+ {
94
+ "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..",
95
+ "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..",
96
+ "diff": [
97
+ "delete text[99:100] --> decoded_text[99:99] ' ' --> ''"
98
+ ],
99
+ "n_oov_chars": 0,
100
+ "oov_ratio": 0.0,
101
+ "oov_charset": "[]"
102
+ }
103
+ ]
stats/compression_rate/NousResearch.Hermes-3-Llama-3.1-405B @ cc100.es.diff.json ADDED
@@ -0,0 +1,104 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "Actividad física , Deporte , Salud",
4
+ "decoded_text": "Actividad física, Deporte, Salud",
5
+ "diff": [
6
+ "delete text[16:17] --> decoded_text[16:16] ' ' --> ''",
7
+ "delete text[26:27] --> decoded_text[25:25] ' ' --> ''"
8
+ ],
9
+ "n_oov_chars": 0,
10
+ "oov_ratio": 0.0,
11
+ "oov_charset": "[]"
12
+ },
13
+ {
14
+ "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!",
15
+ "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!",
16
+ "diff": [
17
+ "delete text[6:7] --> decoded_text[6:6] ' ' --> ''"
18
+ ],
19
+ "n_oov_chars": 0,
20
+ "oov_ratio": 0.0,
21
+ "oov_charset": "[]"
22
+ },
23
+ {
24
+ "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?",
25
+ "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?",
26
+ "diff": [
27
+ "delete text[58:59] --> decoded_text[58:58] ' ' --> ''",
28
+ "delete text[155:156] --> decoded_text[154:154] ' ' --> ''"
29
+ ],
30
+ "n_oov_chars": 0,
31
+ "oov_ratio": 0.0,
32
+ "oov_charset": "[]"
33
+ },
34
+ {
35
+ "text": "Si , podría hacerte un precio. La medida va desde el exterior.",
36
+ "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.",
37
+ "diff": [
38
+ "delete text[2:3] --> decoded_text[2:2] ' ' --> ''"
39
+ ],
40
+ "n_oov_chars": 0,
41
+ "oov_ratio": 0.0,
42
+ "oov_charset": "[]"
43
+ },
44
+ {
45
+ "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".",
46
+ "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".",
47
+ "diff": [
48
+ "delete text[415:416] --> decoded_text[415:415] ' ' --> ''"
49
+ ],
50
+ "n_oov_chars": 0,
51
+ "oov_ratio": 0.0,
52
+ "oov_charset": "[]"
53
+ },
54
+ {
55
+ "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .",
56
+ "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.",
57
+ "diff": [
58
+ "delete text[138:139] --> decoded_text[138:138] ' ' --> ''"
59
+ ],
60
+ "n_oov_chars": 0,
61
+ "oov_ratio": 0.0,
62
+ "oov_charset": "[]"
63
+ },
64
+ {
65
+ "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .",
66
+ "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.",
67
+ "diff": [
68
+ "delete text[220:221] --> decoded_text[220:220] ' ' --> ''"
69
+ ],
70
+ "n_oov_chars": 0,
71
+ "oov_ratio": 0.0,
72
+ "oov_charset": "[]"
73
+ },
74
+ {
75
+ "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .",
76
+ "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.",
77
+ "diff": [
78
+ "delete text[122:123] --> decoded_text[122:122] ' ' --> ''"
79
+ ],
80
+ "n_oov_chars": 0,
81
+ "oov_ratio": 0.0,
82
+ "oov_charset": "[]"
83
+ },
84
+ {
85
+ "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...",
86
+ "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...",
87
+ "diff": [
88
+ "delete text[69:70] --> decoded_text[69:69] ' ' --> ''"
89
+ ],
90
+ "n_oov_chars": 0,
91
+ "oov_ratio": 0.0,
92
+ "oov_charset": "[]"
93
+ },
94
+ {
95
+ "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!",
96
+ "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!",
97
+ "diff": [
98
+ "delete text[105:106] --> decoded_text[105:105] ' ' --> ''"
99
+ ],
100
+ "n_oov_chars": 0,
101
+ "oov_ratio": 0.0,
102
+ "oov_charset": "[]"
103
+ }
104
+ ]
stats/compression_rate/NousResearch.Hermes-3-Llama-3.1-405B @ cc100.fa.diff.json ADDED
@@ -0,0 +1,104 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید",
4
+ "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید",
5
+ "diff": [
6
+ "delete text[82:83] --> decoded_text[82:82] ' ' --> ''"
7
+ ],
8
+ "n_oov_chars": 0,
9
+ "oov_ratio": 0.0,
10
+ "oov_charset": "[]"
11
+ },
12
+ {
13
+ "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..",
14
+ "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..",
15
+ "diff": [
16
+ "delete text[108:109] --> decoded_text[108:108] ' ' --> ''"
17
+ ],
18
+ "n_oov_chars": 0,
19
+ "oov_ratio": 0.0,
20
+ "oov_charset": "[]"
21
+ },
22
+ {
23
+ "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)",
24
+ "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)",
25
+ "diff": [
26
+ "delete text[129:130] --> decoded_text[129:129] ' ' --> ''"
27
+ ],
28
+ "n_oov_chars": 0,
29
+ "oov_ratio": 0.0,
30
+ "oov_charset": "[]"
31
+ },
32
+ {
33
+ "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.",
34
+ "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.",
35
+ "diff": [
36
+ "delete text[290:291] --> decoded_text[290:290] ' ' --> ''",
37
+ "delete text[621:622] --> decoded_text[620:620] ' ' --> ''",
38
+ "delete text[672:673] --> decoded_text[670:670] ' ' --> ''"
39
+ ],
40
+ "n_oov_chars": 0,
41
+ "oov_ratio": 0.0,
42
+ "oov_charset": "[]"
43
+ },
44
+ {
45
+ "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...",
46
+ "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...",
47
+ "diff": [
48
+ "delete text[122:123] --> decoded_text[122:122] ' ' --> ''"
49
+ ],
50
+ "n_oov_chars": 0,
51
+ "oov_ratio": 0.0,
52
+ "oov_charset": "[]"
53
+ },
54
+ {
55
+ "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...",
56
+ "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...",
57
+ "diff": [
58
+ "delete text[128:129] --> decoded_text[128:128] ' ' --> ''"
59
+ ],
60
+ "n_oov_chars": 0,
61
+ "oov_ratio": 0.0,
62
+ "oov_charset": "[]"
63
+ },
64
+ {
65
+ "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...",
66
+ "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...",
67
+ "diff": [
68
+ "delete text[123:124] --> decoded_text[123:123] ' ' --> ''"
69
+ ],
70
+ "n_oov_chars": 0,
71
+ "oov_ratio": 0.0,
72
+ "oov_charset": "[]"
73
+ },
74
+ {
75
+ "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...",
76
+ "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...",
77
+ "diff": [
78
+ "delete text[122:123] --> decoded_text[122:122] ' ' --> ''"
79
+ ],
80
+ "n_oov_chars": 0,
81
+ "oov_ratio": 0.0,
82
+ "oov_charset": "[]"
83
+ },
84
+ {
85
+ "text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی . کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.",
86
+ "decoded_text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی. کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.",
87
+ "diff": [
88
+ "delete text[161:162] --> decoded_text[161:161] ' ' --> ''"
89
+ ],
90
+ "n_oov_chars": 0,
91
+ "oov_ratio": 0.0,
92
+ "oov_charset": "[]"
93
+ },
94
+ {
95
+ "text": "سلام .آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش",
96
+ "decoded_text": "سلام.آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش",
97
+ "diff": [
98
+ "delete text[4:5] --> decoded_text[4:4] ' ' --> ''"
99
+ ],
100
+ "n_oov_chars": 0,
101
+ "oov_ratio": 0.0,
102
+ "oov_charset": "[]"
103
+ }
104
+ ]
stats/compression_rate/NousResearch.Hermes-3-Llama-3.1-405B @ cc100.fr.diff.json ADDED
@@ -0,0 +1,102 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie",
4
+ "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie",
5
+ "diff": [
6
+ "delete text[193:194] --> decoded_text[193:193] ' ' --> ''"
7
+ ],
8
+ "n_oov_chars": 0,
9
+ "oov_ratio": 0.0,
10
+ "oov_charset": "[]"
11
+ },
12
+ {
13
+ "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort",
14
+ "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort",
15
+ "diff": [
16
+ "delete text[150:151] --> decoded_text[150:150] ' ' --> ''"
17
+ ],
18
+ "n_oov_chars": 0,
19
+ "oov_ratio": 0.0,
20
+ "oov_charset": "[]"
21
+ },
22
+ {
23
+ "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)",
24
+ "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)",
25
+ "diff": [
26
+ "delete text[100:101] --> decoded_text[100:100] ' ' --> ''"
27
+ ],
28
+ "n_oov_chars": 0,
29
+ "oov_ratio": 0.0,
30
+ "oov_charset": "[]"
31
+ },
32
+ {
33
+ "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^",
34
+ "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^",
35
+ "diff": [
36
+ "delete text[23:24] --> decoded_text[23:23] ' ' --> ''"
37
+ ],
38
+ "n_oov_chars": 0,
39
+ "oov_ratio": 0.0,
40
+ "oov_charset": "[]"
41
+ },
42
+ {
43
+ "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")",
44
+ "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")",
45
+ "diff": [
46
+ "delete text[277:278] --> decoded_text[277:277] ' ' --> ''"
47
+ ],
48
+ "n_oov_chars": 0,
49
+ "oov_ratio": 0.0,
50
+ "oov_charset": "[]"
51
+ },
52
+ {
53
+ "text": "Quand les élus se réunissent-ils ?",
54
+ "decoded_text": "Quand les élus se réunissent-ils?",
55
+ "diff": [
56
+ "delete text[32:33] --> decoded_text[32:32] ' ' --> ''"
57
+ ],
58
+ "n_oov_chars": 0,
59
+ "oov_ratio": 0.0,
60
+ "oov_charset": "[]"
61
+ },
62
+ {
63
+ "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici",
64
+ "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici",
65
+ "diff": [
66
+ "delete text[34:35] --> decoded_text[34:34] ' ' --> ''"
67
+ ],
68
+ "n_oov_chars": 0,
69
+ "oov_ratio": 0.0,
70
+ "oov_charset": "[]"
71
+ },
72
+ {
73
+ "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!",
74
+ "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!",
75
+ "diff": [
76
+ "delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
77
+ ],
78
+ "n_oov_chars": 0,
79
+ "oov_ratio": 0.0,
80
+ "oov_charset": "[]"
81
+ },
82
+ {
83
+ "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé",
84
+ "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé",
85
+ "diff": [
86
+ "delete text[35:36] --> decoded_text[35:35] ' ' --> ''"
87
+ ],
88
+ "n_oov_chars": 0,
89
+ "oov_ratio": 0.0,
90
+ "oov_charset": "[]"
91
+ },
92
+ {
93
+ "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!",
94
+ "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!",
95
+ "diff": [
96
+ "delete text[53:54] --> decoded_text[53:53] ' ' --> ''"
97
+ ],
98
+ "n_oov_chars": 0,
99
+ "oov_ratio": 0.0,
100
+ "oov_charset": "[]"
101
+ }
102
+ ]
stats/compression_rate/NousResearch.Hermes-3-Llama-3.1-405B @ cc100.ja.diff.json ADDED
@@ -0,0 +1,82 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって ...",
4
+ "decoded_text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって...",
5
+ "diff": [
6
+ "delete text[100:101] --> decoded_text[100:100] ' ' --> ''"
7
+ ],
8
+ "n_oov_chars": 0,
9
+ "oov_ratio": 0.0,
10
+ "oov_charset": "[]"
11
+ },
12
+ {
13
+ "text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。 ...",
14
+ "decoded_text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。...",
15
+ "diff": [
16
+ "delete text[132:133] --> decoded_text[132:132] ' ' --> ''"
17
+ ],
18
+ "n_oov_chars": 0,
19
+ "oov_ratio": 0.0,
20
+ "oov_charset": "[]"
21
+ },
22
+ {
23
+ "text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。 ...",
24
+ "decoded_text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。...",
25
+ "diff": [
26
+ "delete text[131:132] --> decoded_text[131:131] ' ' --> ''"
27
+ ],
28
+ "n_oov_chars": 0,
29
+ "oov_ratio": 0.0,
30
+ "oov_charset": "[]"
31
+ },
32
+ {
33
+ "text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、 ...",
34
+ "decoded_text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、...",
35
+ "diff": [
36
+ "delete text[36:37] --> decoded_text[36:36] ' ' --> ''"
37
+ ],
38
+ "n_oov_chars": 0,
39
+ "oov_ratio": 0.0,
40
+ "oov_charset": "[]"
41
+ },
42
+ {
43
+ "text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad ...",
44
+ "decoded_text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad...",
45
+ "diff": [
46
+ "delete text[100:101] --> decoded_text[100:100] ' ' --> ''"
47
+ ],
48
+ "n_oov_chars": 0,
49
+ "oov_ratio": 0.0,
50
+ "oov_charset": "[]"
51
+ },
52
+ {
53
+ "text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい ...",
54
+ "decoded_text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい...",
55
+ "diff": [
56
+ "delete text[40:41] --> decoded_text[40:40] ' ' --> ''"
57
+ ],
58
+ "n_oov_chars": 0,
59
+ "oov_ratio": 0.0,
60
+ "oov_charset": "[]"
61
+ },
62
+ {
63
+ "text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな ...",
64
+ "decoded_text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな...",
65
+ "diff": [
66
+ "delete text[40:41] --> decoded_text[40:40] ' ' --> ''"
67
+ ],
68
+ "n_oov_chars": 0,
69
+ "oov_ratio": 0.0,
70
+ "oov_charset": "[]"
71
+ },
72
+ {
73
+ "text": "よく言われることですが、『コンポは105以上にしたほうが無難』という��があります。 これは果たしてどういうことなのか、説明していきます。 ...",
74
+ "decoded_text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。...",
75
+ "diff": [
76
+ "delete text[68:69] --> decoded_text[68:68] ' ' --> ''"
77
+ ],
78
+ "n_oov_chars": 0,
79
+ "oov_ratio": 0.0,
80
+ "oov_charset": "[]"
81
+ }
82
+ ]
stats/compression_rate/NousResearch.Hermes-3-Llama-3.1-405B @ cc100.ko.diff.json ADDED
@@ -0,0 +1,106 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
4
+ "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
5
+ "diff": [
6
+ "delete text[59:60] --> decoded_text[59:59] ' ' --> ''",
7
+ "delete text[64:65] --> decoded_text[63:63] ' ' --> ''"
8
+ ],
9
+ "n_oov_chars": 0,
10
+ "oov_ratio": 0.0,
11
+ "oov_charset": "[]"
12
+ },
13
+ {
14
+ "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.",
15
+ "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.",
16
+ "diff": [
17
+ "delete text[28:29] --> decoded_text[28:28] ' ' --> ''"
18
+ ],
19
+ "n_oov_chars": 0,
20
+ "oov_ratio": 0.0,
21
+ "oov_charset": "[]"
22
+ },
23
+ {
24
+ "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.",
25
+ "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.",
26
+ "diff": [
27
+ "delete text[58:59] --> decoded_text[58:58] ' ' --> ''",
28
+ "delete text[86:87] --> decoded_text[85:85] ' ' --> ''"
29
+ ],
30
+ "n_oov_chars": 0,
31
+ "oov_ratio": 0.0,
32
+ "oov_charset": "[]"
33
+ },
34
+ {
35
+ "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).",
36
+ "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).",
37
+ "diff": [
38
+ "delete text[33:34] --> decoded_text[33:33] ' ' --> ''",
39
+ "delete text[38:39] --> decoded_text[37:37] ' ' --> ''"
40
+ ],
41
+ "n_oov_chars": 0,
42
+ "oov_ratio": 0.0,
43
+ "oov_charset": "[]"
44
+ },
45
+ {
46
+ "text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율 .276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.",
47
+ "decoded_text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율.276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.",
48
+ "diff": [
49
+ "delete text[54:55] --> decoded_text[54:54] ' ' --> ''"
50
+ ],
51
+ "n_oov_chars": 0,
52
+ "oov_ratio": 0.0,
53
+ "oov_charset": "[]"
54
+ },
55
+ {
56
+ "text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야 .쟤 달라고 로또1등세금 무슨 평소와는",
57
+ "decoded_text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야.쟤 달라고 로또1등세금 무슨 평소와는",
58
+ "diff": [
59
+ "delete text[62:63] --> decoded_text[62:62] ' ' --> ''"
60
+ ],
61
+ "n_oov_chars": 0,
62
+ "oov_ratio": 0.0,
63
+ "oov_charset": "[]"
64
+ },
65
+ {
66
+ "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.",
67
+ "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트���이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.",
68
+ "diff": [
69
+ "delete text[53:54] --> decoded_text[53:53] ' ' --> ''",
70
+ "delete text[81:82] --> decoded_text[80:80] ' ' --> ''"
71
+ ],
72
+ "n_oov_chars": 0,
73
+ "oov_ratio": 0.0,
74
+ "oov_charset": "[]"
75
+ },
76
+ {
77
+ "text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가 .특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게",
78
+ "decoded_text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가.특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게",
79
+ "diff": [
80
+ "delete text[27:28] --> decoded_text[27:27] ' ' --> ''"
81
+ ],
82
+ "n_oov_chars": 0,
83
+ "oov_ratio": 0.0,
84
+ "oov_charset": "[]"
85
+ },
86
+ {
87
+ "text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고, ....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.",
88
+ "decoded_text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고,....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.",
89
+ "diff": [
90
+ "delete text[29:30] --> decoded_text[29:29] ' ' --> ''"
91
+ ],
92
+ "n_oov_chars": 0,
93
+ "oov_ratio": 0.0,
94
+ "oov_charset": "[]"
95
+ },
96
+ {
97
+ "text": "유림은바라보았다. 아니란걸 .게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....",
98
+ "decoded_text": "유림은바라보았다. 아니란걸.게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....",
99
+ "diff": [
100
+ "delete text[14:15] --> decoded_text[14:14] ' ' --> ''"
101
+ ],
102
+ "n_oov_chars": 0,
103
+ "oov_ratio": 0.0,
104
+ "oov_charset": "[]"
105
+ }
106
+ ]
stats/compression_rate/NousResearch.Hermes-3-Llama-3.1-405B @ cc100.zh-Hans.diff.json ADDED
@@ -0,0 +1,102 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。",
4
+ "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。",
5
+ "diff": [
6
+ "delete text[56:57] --> decoded_text[56:56] ' ' --> ''"
7
+ ],
8
+ "n_oov_chars": 0,
9
+ "oov_ratio": 0.0,
10
+ "oov_charset": "[]"
11
+ },
12
+ {
13
+ "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。",
14
+ "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。",
15
+ "diff": [
16
+ "delete text[12:13] --> decoded_text[12:12] ' ' --> ''"
17
+ ],
18
+ "n_oov_chars": 0,
19
+ "oov_ratio": 0.0,
20
+ "oov_charset": "[]"
21
+ },
22
+ {
23
+ "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。",
24
+ "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。",
25
+ "diff": [
26
+ "delete text[94:95] --> decoded_text[94:94] ' ' --> ''"
27
+ ],
28
+ "n_oov_chars": 0,
29
+ "oov_ratio": 0.0,
30
+ "oov_charset": "[]"
31
+ },
32
+ {
33
+ "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...",
34
+ "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...",
35
+ "diff": [
36
+ "delete text[103:104] --> decoded_text[103:103] ' ' --> ''"
37
+ ],
38
+ "n_oov_chars": 0,
39
+ "oov_ratio": 0.0,
40
+ "oov_charset": "[]"
41
+ },
42
+ {
43
+ "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱",
44
+ "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱",
45
+ "diff": [
46
+ "delete text[16:17] --> decoded_text[16:16] ' ' --> ''"
47
+ ],
48
+ "n_oov_chars": 0,
49
+ "oov_ratio": 0.0,
50
+ "oov_charset": "[]"
51
+ },
52
+ {
53
+ "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v",
54
+ "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v",
55
+ "diff": [
56
+ "delete text[54:55] --> decoded_text[54:54] ' ' --> ''"
57
+ ],
58
+ "n_oov_chars": 0,
59
+ "oov_ratio": 0.0,
60
+ "oov_charset": "[]"
61
+ },
62
+ {
63
+ "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _",
64
+ "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _",
65
+ "diff": [
66
+ "delete text[80:81] --> decoded_text[80:80] ' ' --> ''"
67
+ ],
68
+ "n_oov_chars": 0,
69
+ "oov_ratio": 0.0,
70
+ "oov_charset": "[]"
71
+ },
72
+ {
73
+ "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M",
74
+ "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M",
75
+ "diff": [
76
+ "delete text[58:59] --> decoded_text[58:58] ' ' --> ''"
77
+ ],
78
+ "n_oov_chars": 0,
79
+ "oov_ratio": 0.0,
80
+ "oov_charset": "[]"
81
+ },
82
+ {
83
+ "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?",
84
+ "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?",
85
+ "diff": [
86
+ "delete text[1:2] --> decoded_text[1:1] ' ' --> ''"
87
+ ],
88
+ "n_oov_chars": 0,
89
+ "oov_ratio": 0.0,
90
+ "oov_charset": "[]"
91
+ },
92
+ {
93
+ "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。",
94
+ "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。",
95
+ "diff": [
96
+ "delete text[24:25] --> decoded_text[24:24] ' ' --> ''"
97
+ ],
98
+ "n_oov_chars": 0,
99
+ "oov_ratio": 0.0,
100
+ "oov_charset": "[]"
101
+ }
102
+ ]