File size: 9,785 Bytes
9d57222
c3099aa
 
ef893e7
 
 
c3099aa
 
 
 
 
 
f0c3b17
 
 
 
 
 
c3099aa
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
ef893e7
c3099aa
 
 
5b1a657
c3099aa
d61ff87
c3099aa
 
 
 
 
 
 
ae3ca5c
 
 
 
 
 
 
c3099aa
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
11b4c53
c3099aa
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
---
licenses:
- cc-by-nc-sa-4.0
language:
- ru
- en
tags:
- summarization
- dialogue-summarization
- text2text-generation
- mT5
widget:
- example_title: Russian Joke
  text: С точки зрения банальной эрудиции, в аспекте призматической парадоксальности, 
    цинизм ваших слов в данной конспекции ассоциируется мистификацией парадоксальных иллюзий. 
    Разложим его семилинейным функционалом в матpицy пpямоyгольнyю тpоеpанговyю обводимyю 
    собственной неодноpодностью непpеpывно интегpиpyемой в pазpыв попеpек интеpвала 
    pасходимости кpиволинейным экстpемyмом чеpез область целостности!    
- example_title: Diploma Introduction
  text: 'Актуальность проблемы. Электронная информация играет все большую  роль во
    всех сферах жизни современного общества. В последние годы объем научно-технической
    текстовой информации в электронном виде возрос настолько, что возникает угроза
    обесценивания этой информации в связи с трудностями поиска необходимых сведений
    среди множества доступных текстов. Развитие информационных ресурсов Интернет многократно
    усугубило проблему информационной перегрузки. В этой ситуации особенно актуальными
    становятся методы автоматизации реферирования текстовой информации, то есть методы
    получения сжатого представления текстовых документов–рефератов (аннотаций). Постановка  проблемы  автоматического
    реферирования текста и соответственно попытки ее решения с использованием различных
    подходов предпринимались многими исследователями. История применения вычислительной
    техники для реферирования  насчитывает уже более 50 лет и связана с именами таких
    исследователей, как Г.П. Лун, В.Е. Берзон, И.П. Cевбо, Э.Ф. Скороходько, Д.Г.
    Лахути, Р.Г. Пиотровский и др. За эти годы  выработаны  многочисленные подходы
    к решению данной проблемы, которые достаточно четко подразделяются на два направления:
    автоматическое реферирование, основанное на экстрагировании из первичных документов
    с помощью определенных формальных признаков «наиболее информативных» фраз (фрагментов),
    совокупность которых образует некоторый экстракт; автоматическое реферирование,
    основанное на выделении из текстов с помощью специальных информационных языков
    наиболее существенной информации и порождении новых текстов (рефератов), содержательно
    обобщающих первичные  документы.

    '
- example_title: Biological Info
  text: Первую многоножку, у которой более тысячи ног, обнаружили в австралийских
    пещерах биологи, изучавшие там подземные воды. Предыдущей рекордсменкой по количеству
    ног была 700-ногая многоножка. Новый вид имеет длинное тонкое тело, похожее на
    нить, и большое количество конечностей, по-видимому, дает преимущества для быстрого
    перемещения и проникновения в труднодоступные места  ученые полагают, такая многоножка
    может спокойно перемещаться по трещинам в камнях. Австралия известна своими огромными
    и жутковатыми животными вроде 25-сантиметровых пауков. Теперь список пугающих
    членистоногих пополнился самой «многоногой» в мире многоножкой, у которой более
    тысячи ног. Необычное животное обнаружила группа исследователей из Австралии и
    США в пещерах на западе страны. Подробнее многоножку ученые описали в статье в
    журнале Scientific Reports. Исследователи занимались оценкой воздействия подземных
    вод на окружающую среду в зоне добычи полезных ископаемых на западе страны, когда
    наткнулись на новый вид многоножек. В отличие от большинства сородичей, живущих
    на поверхности, эти многоножки обитали в пещерах на глубине до 60 метров. Новый
    вид исследователи назвали Eumillipes persephone, в честь Персефоны  древнегреческой
    богини подземного мира. У многоножки оказалось 1306 ног  больше, чем у любого
    другого известного вида. Предыдущей рекордсменкой была калифорнийская Illacme
    plenipes, у которой насчитывалось до 750 ног. «Эти животные были настолько уникальны,
     говорит биолог Бруно Бузатто.  Как только я понял, какой длины они были...
    Стало ясно, что это что-то совершенно новое». У Е. persephone нитевидное тело
    длиной около 9,5 см и шириной всего миллиметр, состоящее из 330 сегментов, короткие
    ноги и конусообразная голова. Как и другие животные, живущие в постоянной темноте,
    эти многоножки бледны и слепы. Энтомолог Пол Марек сравнивает ее с белой нитью,
    выдернутой из рубашки. Чтобы посчитать количество ног, ученым пришлось сначала
    снять многоножку в высоком разрешении, а затем закрашивать на фото каждый десяток
    ног другим цветом. (https://www.gazeta.ru/science/2021/12/17_a_14325355.shtml)
    
pipeline_tag: summarization
---
# mT5_ru_XLSum

Mod of https://huggingface.co/csebuetnlp/mT5_multilingual_XLSum. Shrink tokenizer to 32K (ru+en) with David's Dale [manual](https://towardsdatascience.com/how-to-adapt-a-multilingual-t5-model-for-a-single-language-b9f94f3d9c90).

## Using this model in `transformers`

```python
import re
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))

article_text = """
С точки зрения банальной эрудиции, в аспекте призматической парадоксальности,
цинизм ваших слов в данной конспекции ассоциируется мистификацией парадоксальных иллюзий.
Разложим его семилинейным функционалом в матpицy пpямоyгольнyю тpоеpанговyю обводимyю
собственной неодноpодностью непpеpывно интегpиpyемой в pазpыв попеpек интеpвала
pасходимости кpиволинейным экстpемyмом чеpез область целостности!
"""

model_name = "Nehc/mT5_ru_XLSum"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

input_ids = tokenizer(
    [WHITESPACE_HANDLER(article_text)],
    return_tensors="pt",
    padding="max_length",
    truncation=True,
    max_length=512
)["input_ids"]

output_ids = model.generate(
    input_ids=input_ids,
    max_length=84,
    no_repeat_ngram_size=2,
    num_beams=3
)[0]

summary = tokenizer.decode(
    output_ids,
    skip_special_tokens=True,
    clean_up_tokenization_spaces=False
)

print(summary)
```