tokenizer-arena / stats /compression_rate /ClueAI.ChatYuan-large-v2 @ cc100.ja.diff.json
xu-song's picture
add compression_rate details
a4208a2
[
{
"text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
"decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
"diff": [
"replace text[36:37] --> decoded_text[36:37] '!' --> '!'"
],
"n_oov_chars": 1,
"oov_ratio": 0.02702702702702703,
"oov_charset": "[\"!\"]"
},
{
"text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。",
"decoded_text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整<unk>されてる<unk>央道を越えるとお世話になってるボウリング場が見えて来ました。",
"diff": [
"replace text[31:32] --> decoded_text[31:36] '備' --> '<unk>'",
"replace text[36:37] --> decoded_text[40:45] '圏' --> '<unk>'"
],
"n_oov_chars": 2,
"oov_ratio": 0.029850746268656716,
"oov_charset": "[\"備\", \"圏\"]"
},
{
"text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。",
"decoded_text": "う<unk>〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。",
"diff": [
"replace text[1:2] --> decoded_text[1:6] 'ぅ' --> '<unk>'"
],
"n_oov_chars": 1,
"oov_ratio": 0.021739130434782608,
"oov_charset": "[\"ぅ\"]"
},
{
"text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
"decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
"diff": [
"replace text[3:4] --> decoded_text[3:4] '1' --> '1'"
],
"n_oov_chars": 1,
"oov_ratio": 0.02040816326530612,
"oov_charset": "[\"1\"]"
},
{
"text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。",
"decoded_text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの<unk>断をもらっていました。",
"diff": [
"replace text[31:32] --> decoded_text[31:36] '診' --> '<unk>'"
],
"n_oov_chars": 1,
"oov_ratio": 0.023255813953488372,
"oov_charset": "[\"診\"]"
},
{
"text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。",
"decoded_text": "ただ、これまでお散<unk>仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。",
"diff": [
"replace text[9:10] --> decoded_text[9:14] '歩' --> '<unk>'"
],
"n_oov_chars": 1,
"oov_ratio": 0.016666666666666666,
"oov_charset": "[\"歩\"]"
},
{
"text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。",
"decoded_text": "昔はヒアルロン酸の目<unk>なども<unk>方されてたようですが、これが<unk>く事はないそうです。",
"diff": [
"replace text[10:11] --> decoded_text[10:15] '薬' --> '<unk>'",
"replace text[14:15] --> decoded_text[18:23] '処' --> '<unk>'",
"replace text[29:30] --> decoded_text[37:42] '効' --> '<unk>'"
],
"n_oov_chars": 3,
"oov_ratio": 0.075,
"oov_charset": "[\"薬\", \"処\", \"効\"]"
},
{
"text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
"decoded_text": "なので、エルディとのお散<unk>でも<unk>れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
"diff": [
"replace text[12:13] --> decoded_text[12:17] '歩' --> '<unk>'",
"replace text[15:16] --> decoded_text[19:24] '訪' --> '<unk>'",
"replace text[35:36] --> decoded_text[43:44] '5' --> '5'",
"replace text[51:52] --> decoded_text[59:60] '1' --> '1'"
],
"n_oov_chars": 4,
"oov_ratio": 0.0625,
"oov_charset": "[\"歩\", \"訪\", \"5\", \"1\"]"
},
{
"text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました",
"decoded_text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで<unk>け<unk>けていくのを目の当たりにしてちょっとビビっておりました",
"diff": [
"replace text[41:42] --> decoded_text[41:46] '駆' --> '<unk>'",
"replace text[43:44] --> decoded_text[47:52] '抜' --> '<unk>'"
],
"n_oov_chars": 2,
"oov_ratio": 0.028169014084507043,
"oov_charset": "[\"駆\", \"抜\"]"
},
{
"text": "彼らには絶対お目にかかりたくないので、この春はこれで打ち止めになっちゃうかもね。",
"decoded_text": "彼らには<unk>対お目にかかりたくないので、この春はこれで打ち止めになっちゃうかもね。",
"diff": [
"replace text[4:5] --> decoded_text[4:9] '絶' --> '<unk>'"
],
"n_oov_chars": 1,
"oov_ratio": 0.025,
"oov_charset": "[\"絶\"]"
}
]