Update README.md
Browse files
README.md
CHANGED
@@ -36,11 +36,11 @@ No adestramento, utilizamos corpora auténticos e sintéticos do [ProxectoNós](
|
|
36 |
|
37 |
**Procedemento de adestramento / Training process**
|
38 |
|
39 |
-
+ Tokenización dos datasets feita co tokenizador de
|
40 |
|
41 |
-
+ O vocabulario para os modelos foi xerado a través do script [learn_bpe.py](https://github.com/OpenNMT/OpenNMT-py/blob/master/tools/learn_bpe.py) da OpenNMT
|
42 |
|
43 |
-
+
|
44 |
|
45 |
```bash
|
46 |
onmt_build_vocab -config bpe-gl-es_emb.yaml -n_sample 100000
|
|
|
36 |
|
37 |
**Procedemento de adestramento / Training process**
|
38 |
|
39 |
+
+ Tokenización dos datasets feita co tokenizador (tokenizer.pl) de [linguakit](https://github.com/citiususc/Linguakit) que foi modificado para evitar o salto de liña por token do ficheiro orixinal.
|
40 |
|
41 |
+
+ O vocabulario BPE para os modelos foi xerado a través do script [learn_bpe.py](https://github.com/OpenNMT/OpenNMT-py/blob/master/tools/learn_bpe.py) da OpenNMT
|
42 |
|
43 |
+
+ Utilizando o .yaml deste repositorio pode replicar o proceso de adestramento. É preciso modificar os paths do ficheiro .yaml para a Open NMT saber onde ir buscar os textos. Após facer isto, pode do seguinte xeito comezar o proceso:
|
44 |
|
45 |
```bash
|
46 |
onmt_build_vocab -config bpe-gl-es_emb.yaml -n_sample 100000
|