File size: 11,173 Bytes
fd14358
648248b
fd14358
 
648248b
 
 
 
 
fd14358
 
 
 
 
 
 
755738e
 
 
fd14358
648248b
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
fd14358
 
1dacc22
fd14358
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6e47664
 
 
 
fd14358
 
6e47664
 
fd14358
 
 
 
 
 
 
 
6e47664
 
fd14358
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
---
language:
- ru
- en
tags:
- summarization
- dialogue-summarization
- text2text-generation
- t5
datasets:
- d0rj/samsum-ru
- IlyaGusev/gazeta
- zjkarina/matreshka
- rcp-meetings/rudialogsum_v2
- GEM/wiki_lingua
- mlsum
metrics:
- bleu
- rouge
widget:
- example_title: Diploma Introduction
  text: 'Актуальность проблемы. Электронная информация играет все большую  роль во
    всех сферах жизни современного общества. В последние годы объем научно-технической
    текстовой информации в электронном виде возрос настолько, что возникает угроза
    обесценивания этой информации в связи с трудностями поиска необходимых сведений
    среди множества доступных текстов. Развитие информационных ресурсов Интернет многократно
    усугубило проблему информационной перегрузки. В этой ситуации особенно актуальными
    становятся методы автоматизации реферирования текстовой информации, то есть методы
    получения сжатого представления текстовых документов–рефератов (аннотаций). Постановка  проблемы  автоматического
    реферирования текста и соответственно попытки ее решения с использованием различных
    подходов предпринимались многими исследователями. История применения вычислительной
    техники для реферирования  насчитывает уже более 50 лет и связана с именами таких
    исследователей, как Г.П. Лун, В.Е. Берзон, И.П. Cевбо, Э.Ф. Скороходько, Д.Г.
    Лахути, Р.Г. Пиотровский и др. За эти годы  выработаны  многочисленные подходы
    к решению данной проблемы, которые достаточно четко подразделяются на два направления:
    автоматическое реферирование, основанное на экстрагировании из первичных документов
    с помощью определенных формальных признаков «наиболее информативных» фраз (фрагментов),
    совокупность которых образует некоторый экстракт; автоматическое реферирование,
    основанное на выделении из текстов с помощью специальных информационных языков
    наиболее существенной информации и порождении новых текстов (рефератов), содержательно
    обобщающих первичные  документы.

    '
- example_title: Biological Info
  text: Первую многоножку, у которой более тысячи ног, обнаружили в австралийских
    пещерах биологи, изучавшие там подземные воды. Предыдущей рекордсменкой по количеству
    ног была 700-ногая многоножка. Новый вид имеет длинное тонкое тело, похожее на
    нить, и большое количество конечностей, по-видимому, дает преимущества для быстрого
    перемещения и проникновения в труднодоступные места  ученые полагают, такая многоножка
    может спокойно перемещаться по трещинам в камнях. Австралия известна своими огромными
    и жутковатыми животными вроде 25-сантиметровых пауков. Теперь список пугающих
    членистоногих пополнился самой «многоногой» в мире многоножкой, у которой более
    тысячи ног. Необычное животное обнаружила группа исследователей из Австралии и
    США в пещерах на западе страны. Подробнее многоножку ученые описали в статье в
    журнале Scientific Reports. Исследователи занимались оценкой воздействия подземных
    вод на окружающую среду в зоне добычи полезных ископаемых на западе страны, когда
    наткнулись на новый вид многоножек. В отличие от большинства сородичей, живущих
    на поверхности, эти многоножки обитали в пещерах на глубине до 60 метров. Новый
    вид исследователи назвали Eumillipes persephone, в честь Персефоны  древнегреческой
    богини подземного мира. У многоножки оказалось 1306 ног  больше, чем у любого
    другого известного вида. Предыдущей рекордсменкой была калифорнийская Illacme
    plenipes, у которой насчитывалось до 750 ног. «Эти животные были настолько уникальны,
     говорит биолог Бруно Бузатто.  Как только я понял, какой длины они были...
    Стало ясно, что это что-то совершенно новое». У Е. persephone нитевидное тело
    длиной около 9,5 см и шириной всего миллиметр, состоящее из 330 сегментов, короткие
    ноги и конусообразная голова. Как и другие животные, живущие в постоянной темноте,
    эти многоножки бледны и слепы. Энтомолог Пол Марек сравнивает ее с белой нитью,
    выдернутой из рубашки. Чтобы посчитать количество ног, ученым пришлось сначала
    снять многоножку в высоком разрешении, а затем закрашивать на фото каждый десяток
    ног другим цветом. (https://www.gazeta.ru/science/2021/12/17_a_14325355.shtml)
model-index:
- name: d0rj/rut5-base-summ
  results:
  - task:
      type: summarization
      name: Summarization
    dataset:
      name: samsum
      type: samsum
      config: samsum
      split: test
    metrics:
    - type: rouge
      value: 28.8694
      name: ROUGE-1
      verified: true
      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYTdhMjM4YWJiZTBiNmJhNTc0ZjQ4M2E1M2RjMDI4YThmYjEzMmJmZjdlOGRjOWRiZDA2YWEzOTU0MTMwYmJjNCIsInZlcnNpb24iOjF9.6bddYV-Rnp4zhgQjbv4cHKtXHDCLknfxTH2bYsVe6R9wgW45gUSck61EIeJdqj0PS7Vi2zcz8YW4DEXDd-UECQ
    - type: rouge
      value: 8.4686
      name: ROUGE-2
      verified: true
      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiN2NiOTdkNTE0NjVmYTcyMDY1ZjYzMjZlZjI1MDViOWFmM2M1MDZjOGZiYThlMTc4MWY5YThlNDJmOGYyNWRmZCIsInZlcnNpb24iOjF9.BLeNnva3EJFMz8xwXZamguKWhLyaGTRFr1C12Yh8xTlimrc_mENHqwshJxdi4RULcGwlQmjGjXNw1DMJ42pDCQ
    - type: rouge
      value: 24.2357
      name: ROUGE-L
      verified: true
      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNjM2OGMwMGYzOTgwNjhlZjhjNjU2YzU3MDZkMjljMzExZjYwNTU1MDM0YmM1NmE3OTUyYzBhMzcyOGM5ZmY1MSIsInZlcnNpb24iOjF9.ttNXKqK9rTsMM1aj4XvXUVuJZZAtgG2JE2NI3ZWT4kVcsC7F6mYFXNfUKEk2koKPkq0gwdPiAc-wrpbtmQg5Cg
    - type: rouge
      value: 25.8543
      name: ROUGE-LSUM
      verified: true
      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYmMzNTdjMGFkNzhiYzFkYWMwNWRlZTM5ZTMxMjU5MjFiMDVjNDk3MWFlMTM5Yzc4MTFjYzNhODVmNjQ3ZTBmNyIsInZlcnNpb24iOjF9.80eUellPpBKzjW-kKDjr6WlzFh_nyC2Q4-gNtzQekOzUyuPynl913nWh4NcAw5YXbYC24dklshdFD5VheeYlBQ
    - type: loss
      value: 3.2456042766571045
      name: loss
      verified: true
      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiOWEwZTRlMDEyZDQ0ZTBiMzAyZTkyZWUwOGYyODQ0NzA1MWM4NTE3ZDBjYTYxNmMxODIyNmNiZDM0MmYzMzNjZCIsInZlcnNpb24iOjF9.evm57JUbHamIx2FcFmjRHwvZ3e818BYxT8tuv26KVnq9IHO8xyMHPes9slOMhdTijAT_leexMIKMRT_iFOGHAg
    - type: gen_len
      value: 27.5543
      name: gen_len
      verified: true
      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiZTIzNWY2NGEyNjQyMzdmYmM4ZDI5MTVkZDQ0ZTk3NmFiOWRjNTdiMjU3MmQwY2NhZTEzNTVhZGU5NTZhN2JiZiIsInZlcnNpb24iOjF9.7C3OQP2bl0EZRhRlRYtxd6cQapif0a2Vq5kRFiSdX6KLxU_QALZAlh_9DFyyYPh39R3e6Hyi438Ox6BGaalmBA
---

# rut5-base-summ

## Model

Finetuned [ai-forever/ruT5-base](https://huggingface.co/ai-forever/ruT5-base) for text and dialogue summarization.

## Data

- [d0rj/samsum-ru](https://huggingface.co/datasets/d0rj/samsum-ru)
- [IlyaGusev/gazeta](https://huggingface.co/datasets/IlyaGusev/gazeta)
- [zjkarina/matreshka](https://huggingface.co/datasets/zjkarina/matreshka)
- [rcp-meetings/rudialogsum_v2](https://huggingface.co/datasets/rcp-meetings/rudialogsum_v2)
- [GEM/wiki_lingua](https://huggingface.co/datasets/GEM/wiki_lingua)
- [mlsum](https://huggingface.co/datasets/mlsum)

All 'train' subsets was concatenated and shuffled with seed `1000 - 7`.

Train subset = 155678 rows.

## Metrics

Evaluation on 10% of concatenated 'validation' subsets = 1458 rows.

See [WandB logs](https://wandb.ai/d0rj/summarization/runs/5mmyskgi).

See report at **REPORT WIP**.

## Notes

> Scheduler, optimizer and trainer states are saved into this repo, so you can use that to continue finetune with your own data with existing gradients.

## Usage

### Summarization pipeline

```python
from transformers import pipeline


pipe = pipeline('summarization', model='d0rj/rut5-base-summ')
pipe(text)
```

### Text-to-text generation

```python
from transformers import T5Tokenizer, T5ForConditionalGeneration


tokenizer = T5Tokenizer.from_pretrained('d0rj/rut5-base-summ')
model = T5ForConditionalGeneration.from_pretrained('d0rj/rut5-base-summ').eval()

input_ids = tokenizer(text, return_tensors='pt').input_ids
outputs = model.generate(input_ids)
summary = tokenizer.decode(outputs[0], skip_special_tokens=True)
```