Mizuiro-sakura
commited on
Commit
•
d60a422
1
Parent(s):
888d961
Update README.md
Browse files
README.md
CHANGED
@@ -11,7 +11,27 @@ datasets: shunk031/CAMERA
|
|
11 |
pipeline_tag: text2text-generation
|
12 |
---
|
13 |
|
14 |
-
#
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
15 |
|
16 |
# 使い方 how to use
|
17 |
transformers, datasets, sentencepieceをinstallして、下記のコードを実行してください。
|
|
|
11 |
pipeline_tag: text2text-generation
|
12 |
---
|
13 |
|
14 |
+
# sonoisa/t5-base-japaneseをファインチューニングして、タイトル生成に用いれるようにしたモデルです。
|
15 |
+
文章を入力すると、生成型要約を行い、タイトルを生成します。
|
16 |
+
|
17 |
+
# This model is a title generation model which is based on sonoisa/t5-base-japanese.
|
18 |
+
If you input the text, this model ouput the title of the text.
|
19 |
+
|
20 |
+
# sonoisa/t5-base-japaneseとは? what is sonoisa/t5-base-japanese?
|
21 |
+
>This is a T5 (Text-to-Text Transfer Transformer) model pretrained on Japanese corpus.
|
22 |
+
|
23 |
+
>次の日本語コーパス(約100GB)を用いて事前学習を行ったT5 (Text-to-Text Transfer Transformer) モデルです。
|
24 |
+
|
25 |
+
>Wikipediaの日本語ダンプデータ (2020年7月6日時点のもの)
|
26 |
+
>OSCARの日本語コーパス
|
27 |
+
>CC-100の日本語コーパス
|
28 |
+
>このモデルは事前学習のみを行なったものであり、特定のタスクに利用するにはファインチューニングする必要があります。
|
29 |
+
>本モデルにも、大規模コーパスを用いた言語モデルにつきまとう、学習データの内容の偏りに由来する偏った(倫理的ではなかったり、有害だったり、バイアスがあったりする)出力結果になる問題が潜在的にあります。 この問題が発生しうることを想定した上で、被害が発生しない用途にのみ利用するよう気をつけてください。
|
30 |
+
|
31 |
+
>SentencePieceトークナイザーの学習には上記Wikipediaの全データを用いました。
|
32 |
+
|
33 |
+
https://huggingface.co/sonoisa/t5-base-japanese/blob/main/README.md
|
34 |
+
より引用
|
35 |
|
36 |
# 使い方 how to use
|
37 |
transformers, datasets, sentencepieceをinstallして、下記のコードを実行してください。
|