tokenizer-arena / stats /compression_rate /ClassCat.gpt2-base-french @ cc100.zh-Hans.diff.json
xu-song's picture
add compression_rate details
a4208a2
[
{
"text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:",
"decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4s店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:",
"diff": [
"replace text[57:58] --> decoded_text[57:58] ',' --> ','",
"replace text[95:96] --> decoded_text[95:96] ',' --> ','",
"replace text[113:114] --> decoded_text[113:114] ',' --> ','",
"replace text[132:133] --> decoded_text[132:133] 'S' --> 's'",
"replace text[136:137] --> decoded_text[136:137] ',' --> ','",
"replace text[148:149] --> decoded_text[148:149] ',' --> ','",
"replace text[168:169] --> decoded_text[168:169] ',' --> ','",
"replace text[183:184] --> decoded_text[183:184] ',' --> ','",
"replace text[213:214] --> decoded_text[213:214] ':' --> ':'"
],
"n_oov_chars": 9,
"oov_ratio": 0.04205607476635514,
"oov_charset": "[\",\", \"S\", \":\"]"
},
{
"text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。",
"decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。",
"diff": [
"replace text[51:52] --> decoded_text[51:52] ',' --> ','",
"replace text[87:88] --> decoded_text[87:88] ',' --> ','",
"replace text[100:101] --> decoded_text[100:101] '3' --> '3'",
"replace text[103:104] --> decoded_text[103:104] ',' --> ','",
"replace text[112:113] --> decoded_text[112:113] '5' --> '5'",
"replace text[115:116] --> decoded_text[115:116] ',' --> ','"
],
"n_oov_chars": 6,
"oov_ratio": 0.04838709677419355,
"oov_charset": "[\",\", \"3\", \"5\"]"
},
{
"text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。",
"decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。",
"diff": [
"replace text[16:17] --> decoded_text[16:17] ',' --> ','",
"replace text[40:41] --> decoded_text[40:41] ',' --> ','",
"replace text[60:61] --> decoded_text[60:61] ',' --> ','"
],
"n_oov_chars": 3,
"oov_ratio": 0.0375,
"oov_charset": "[\",\"]"
},
{
"text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。",
"decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。",
"diff": [
"replace text[19:20] --> decoded_text[19:20] ',' --> ','",
"replace text[48:49] --> decoded_text[48:49] ',' --> ','",
"replace text[63:64] --> decoded_text[63:64] ',' --> ','"
],
"n_oov_chars": 3,
"oov_ratio": 0.038461538461538464,
"oov_charset": "[\",\"]"
},
{
"text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。",
"decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(ringostarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(juliaroberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《queenieeye》,然后轮到后者演绎旧作《photograph》,带领歌迷重温昔日的美好情怀。",
"diff": [
"replace text[15:16] --> decoded_text[15:16] ',' --> ','",
"replace text[39:40] --> decoded_text[39:40] ',' --> ','",
"replace text[50:51] --> decoded_text[50:51] ':' --> ':'",
"replace text[62:63] --> decoded_text[62:63] 'R' --> 'r'",
"replace text[67:68] --> decoded_text[67:68] 'S' --> 's'",
"replace text[80:81] --> decoded_text[80:81] ',' --> ','",
"replace text[94:95] --> decoded_text[94:95] ',' --> ','",
"replace text[112:113] --> decoded_text[112:113] 'J' --> 'j'",
"replace text[117:118] --> decoded_text[117:118] 'R' --> 'r'",
"replace text[133:134] --> decoded_text[133:134] ',' --> ','",
"replace text[145:146] --> decoded_text[145:146] ',' --> ','",
"replace text[152:153] --> decoded_text[152:153] 'Q' --> 'q'",
"replace text[159:160] --> decoded_text[159:160] 'E' --> 'e'",
"replace text[163:164] --> decoded_text[163:164] ',' --> ','",
"replace text[175:176] --> decoded_text[175:176] 'P' --> 'p'",
"replace text[186:187] --> decoded_text[186:187] ',' --> ','"
],
"n_oov_chars": 16,
"oov_ratio": 0.07960199004975124,
"oov_charset": "[\",\", \":\", \"R\", \"S\", \"J\", \"Q\", \"E\", \"P\"]"
},
{
"text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。",
"decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。",
"diff": [
"replace text[13:14] --> decoded_text[13:14] ',' --> ','",
"replace text[26:27] --> decoded_text[26:27] ',' --> ','",
"replace text[35:36] --> decoded_text[35:36] ',' --> ','",
"replace text[38:39] --> decoded_text[38:39] ',' --> ','",
"replace text[46:47] --> decoded_text[46:47] ',' --> ','",
"replace text[56:57] --> decoded_text[56:57] ',' --> ','",
"replace text[63:64] --> decoded_text[63:64] ',' --> ','"
],
"n_oov_chars": 7,
"oov_ratio": 0.08860759493670886,
"oov_charset": "[\",\"]"
},
{
"text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)",
"decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)",
"diff": [
"replace text[27:28] --> decoded_text[27:28] ',' --> ','",
"replace text[65:66] --> decoded_text[65:66] ',' --> ','",
"replace text[83:84] --> decoded_text[83:84] ',' --> ','"
],
"n_oov_chars": 3,
"oov_ratio": 0.02608695652173913,
"oov_charset": "[\",\"]"
},
{
"text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。",
"decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。",
"diff": [
"replace text[19:20] --> decoded_text[19:20] ',' --> ','",
"replace text[31:32] --> decoded_text[31:32] ',' --> ','",
"replace text[42:43] --> decoded_text[42:43] ',' --> ','",
"replace text[46:47] --> decoded_text[46:47] ',' --> ','",
"replace text[63:64] --> decoded_text[63:64] ',' --> ','",
"replace text[69:70] --> decoded_text[69:70] ':' --> ':'",
"replace text[73:74] --> decoded_text[73:74] ',' --> ','",
"replace text[84:85] --> decoded_text[84:85] ',' --> ','",
"replace text[91:92] --> decoded_text[91:92] ',' --> ','",
"replace text[99:100] --> decoded_text[99:100] ',' --> ','",
"replace text[110:111] --> decoded_text[110:111] '?' --> '?'",
"replace text[127:128] --> decoded_text[127:128] ',' --> ','"
],
"n_oov_chars": 12,
"oov_ratio": 0.08759124087591241,
"oov_charset": "[\",\", \":\", \"?\"]"
},
{
"text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。",
"decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。",
"diff": [
"replace text[12:13] --> decoded_text[12:13] ',' --> ','",
"replace text[25:26] --> decoded_text[25:26] ',' --> ','",
"replace text[44:45] --> decoded_text[44:45] ',' --> ','",
"replace text[68:69] --> decoded_text[68:69] ',' --> ','",
"replace text[76:77] --> decoded_text[76:77] ',' --> ','"
],
"n_oov_chars": 5,
"oov_ratio": 0.05747126436781609,
"oov_charset": "[\",\"]"
},
{
"text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。",
"decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。",
"diff": [
"replace text[25:26] --> decoded_text[25:26] ',' --> ','",
"replace text[39:40] --> decoded_text[39:40] ',' --> ','",
"replace text[53:54] --> decoded_text[53:54] ',' --> ','",
"replace text[58:59] --> decoded_text[58:59] ',' --> ','",
"replace text[95:96] --> decoded_text[95:96] ',' --> ','",
"replace text[107:108] --> decoded_text[107:108] ',' --> ','",
"replace text[121:122] --> decoded_text[121:122] ',' --> ','"
],
"n_oov_chars": 7,
"oov_ratio": 0.05303030303030303,
"oov_charset": "[\",\"]"
}
]