megagonlabs
/

t5-base-japanese-web

Text2Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

shirayu commited on Sep 6, 2021

Commit

7a7211a

•

1 Parent(s): 3ce8a0e

Added links

Files changed (1) hide show

README.md +4 -3

README.md CHANGED Viewed

@@ -10,13 +10,16 @@ datasets:
 - wiki40b
 ---
-# t5-base-japanese-web (with Byte-fallback)
 ## Description
 [megagonlabs/t5-base-japanese-web](https://huggingface.co/megagonlabs/t5-base-japanese-web) is a T5 (Text-to-Text Transfer Transformer) model pre-trained on Japanese web texts.
 Training codes are [available on GitHub](https://github.com/megagonlabs/t5-japanese).
 ### Corpora
 We used following corpora for pre-training.
@@ -28,7 +31,6 @@ We used following corpora for pre-training.
     - 828,236 articles (2,073,584 examples)
     - 2 GB in TFRecord format
 ### Tokenizer
 We used Japanese Wikipedia to train [SentencePiece](https://github.com/google/sentencepiece).
@@ -52,7 +54,6 @@ It took about 126 hours with TPU v3-8
 Apache License 2.0
 ## Citations
 - mC4

 - wiki40b
 ---
+# t5-base-japanese-web (with Byte-fallback, 32K)
 ## Description
 [megagonlabs/t5-base-japanese-web](https://huggingface.co/megagonlabs/t5-base-japanese-web) is a T5 (Text-to-Text Transfer Transformer) model pre-trained on Japanese web texts.
 Training codes are [available on GitHub](https://github.com/megagonlabs/t5-japanese).
+The vocabulary size of this model is 32K.
+[8K version is also available](https://huggingface.co/megagonlabs/t5-base-japanese-web-8k).
 ### Corpora
 We used following corpora for pre-training.
     - 828,236 articles (2,073,584 examples)
     - 2 GB in TFRecord format
 ### Tokenizer
 We used Japanese Wikipedia to train [SentencePiece](https://github.com/google/sentencepiece).
 Apache License 2.0
 ## Citations
 - mC4