File size: 6,282 Bytes
a4208a2
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
[
  {
    "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.",
    "decoded_text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut <unk>tre temps de le commencer.",
    "diff": [
      "replace   text[102:103] --> decoded_text[102:107]      'ê' --> '<unk>'"
    ],
    "n_oov_chars": 1,
    "oov_ratio": 0.007751937984496124,
    "oov_charset": "[\"ê\"]"
  },
  {
    "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie",
    "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie",
    "diff": [
      "delete    text[193:194] --> decoded_text[193:193]      ' ' --> ''"
    ],
    "n_oov_chars": 0,
    "oov_ratio": 0.0,
    "oov_charset": "[]"
  },
  {
    "text": "- Je dois être mentalement instable, par moments",
    "decoded_text": "- Je dois <unk>tre mentalement instable, par moments",
    "diff": [
      "replace   text[10:11] --> decoded_text[10:15]      'ê' --> '<unk>'"
    ],
    "n_oov_chars": 1,
    "oov_ratio": 0.020833333333333332,
    "oov_charset": "[\"ê\"]"
  },
  {
    "text": "- j'ai moi aussi beaucoup de mémoire à ta manière : se souvenir de petits détails inutiles et beaucoup de choses sur les sujets qui m'intéressent, mais je suis en même temps très étourdie",
    "decoded_text": "- j'ai moi aussi beaucoup de mémoire à ta manière : se souvenir de petits détails inutiles et beaucoup de choses sur les sujets qui m'intéressent, mais je suis en m<unk>me temps très étourdie",
    "diff": [
      "replace   text[164:165] --> decoded_text[164:169]      'ê' --> '<unk>'"
    ],
    "n_oov_chars": 1,
    "oov_ratio": 0.0053475935828877,
    "oov_charset": "[\"ê\"]"
  },
  {
    "text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations)",
    "decoded_text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a d<unk> me garder une heure en plus pour m'expliquer des démonstrations)",
    "diff": [
      "replace   text[164:165] --> decoded_text[164:169]      'û' --> '<unk>'"
    ],
    "n_oov_chars": 1,
    "oov_ratio": 0.004347826086956522,
    "oov_charset": "[\"û\"]"
  },
  {
    "text": "- quand quelqu'un critique quelque chose (ex. plan Vigipirate) j'essaie tout de suite de réfléchir à une autre solution (bon ça c'est normal mais je le dis quand même)",
    "decoded_text": "- quand quelqu'un critique quelque chose (ex. plan Vigipirate) j'essaie tout de suite de réfléchir à une autre solution (bon ça c'est normal mais je le dis quand m<unk>me)",
    "diff": [
      "replace   text[163:164] --> decoded_text[163:168]      'ê' --> '<unk>'"
    ],
    "n_oov_chars": 1,
    "oov_ratio": 0.005988023952095809,
    "oov_charset": "[\"ê\"]"
  },
  {
    "text": "- je préfère largement passer du temps avec les gens de mon âge ou plus ou moins (généralement pas mon âge pile-poil, la plupart de mes amis ont un ou deux ans de plus que moi)",
    "decoded_text": "- je préfère largement passer du temps avec les gens de mon <unk>ge ou plus ou moins (généralement pas mon <unk>ge pile-poil, la plupart de mes amis ont un ou deux ans de plus que moi)",
    "diff": [
      "replace   text[60:61] --> decoded_text[60:65]      'â' --> '<unk>'",
      "replace   text[103:104] --> decoded_text[107:112]      'â' --> '<unk>'"
    ],
    "n_oov_chars": 2,
    "oov_ratio": 0.011363636363636364,
    "oov_charset": "[\"â\"]"
  },
  {
    "text": "- j'aime chanter, faire du théâtre et provoquer des émotions chez les gens",
    "decoded_text": "- j'aime chanter, faire du thé<unk>tre et provoquer des émotions chez les gens",
    "diff": [
      "replace   text[30:31] --> decoded_text[30:35]      'â' --> '<unk>'"
    ],
    "n_oov_chars": 1,
    "oov_ratio": 0.013513513513513514,
    "oov_charset": "[\"â\"]"
  },
  {
    "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort",
    "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère <unk>tre une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconna<unk>tre quand j'ai tort",
    "diff": [
      "replace   text[49:50] --> decoded_text[49:54]      'ê' --> '<unk>'",
      "delete    text[150:151] --> decoded_text[154:154]      ' ' --> ''",
      "replace   text[170:171] --> decoded_text[173:178]      'î' --> '<unk>'"
    ],
    "n_oov_chars": 2,
    "oov_ratio": 0.010526315789473684,
    "oov_charset": "[\"ê\", \"î\"]"
  },
  {
    "text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des êtres humains vivant plus ou moins sur Terre (du moins la majorité ), mais je Cornichonçois peut-être trop bien que tout le monde est différent",
    "decoded_text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des <unk>tres humains vivant plus ou moins sur Terre (du moins la majorité ), mais je Cornichonçois peut-<unk>tre trop bien que tout le monde est différent",
    "diff": [
      "replace   text[90:91] --> decoded_text[90:95]      'ê' --> '<unk>'",
      "replace   text[187:188] --> decoded_text[191:196]      'ê' --> '<unk>'"
    ],
    "n_oov_chars": 2,
    "oov_ratio": 0.008583690987124463,
    "oov_charset": "[\"ê\"]"
  }
]