Update README.md
Browse files
README.md
CHANGED
@@ -40,6 +40,16 @@ pip install git+https://github.com/Koziev/character-tokenizer
|
|
40 |
|
41 |
Кроме символов кириллицы и пунктуации, этот токенизатор знает про специальные токены ```<s>```, ```</s>```, ```<pad>``` и ```<unk>```.
|
42 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
43 |
### Использование
|
44 |
|
45 |
С библиотекой transformerts модель можно использовать штатным способом как обычную GPT'шку:
|
|
|
40 |
|
41 |
Кроме символов кириллицы и пунктуации, этот токенизатор знает про специальные токены ```<s>```, ```</s>```, ```<pad>``` и ```<unk>```.
|
42 |
|
43 |
+
Так как это нестандартный для transformers токенизатор, его надо загружать не через ```transformers.AutoTokenizer.from_pretrained```, а таким кодом:
|
44 |
+
|
45 |
+
```
|
46 |
+
import charactertokenizer
|
47 |
+
|
48 |
+
...
|
49 |
+
|
50 |
+
tokenizer = charactertokenizer.CharacterTokenizer.from_pretrained('inkoziev/charllama-35M')
|
51 |
+
```
|
52 |
+
|
53 |
### Использование
|
54 |
|
55 |
С библиотекой transformerts модель можно использовать штатным способом как обычную GPT'шку:
|