metadata
license: mit
language:
- ru
- en
datasets:
- d0rj/samsum-ru
- IlyaGusev/gazeta
- zjkarina/matreshka
- rcp-meetings/rudialogsum_v2
- GEM/wiki_lingua
- mlsum
tags:
- summarization
- dialogue-summarization
- text2text-generation
- mbart
- mbart-50
widget:
- text: >
Актуальность проблемы. Электронная информация играет все большую роль во
всех сферах жизни современного общества. В последние годы объем
научно-технической текстовой информации в электронном виде возрос
настолько, что возникает угроза обесценивания этой информации в связи с
трудностями поиска необходимых сведений среди множества доступных текстов.
Развитие информационных ресурсов Интернет многократно усугубило проблему
информационной перегрузки. В этой ситуации особенно актуальными становятся
методы автоматизации реферирования текстовой информации, то есть методы
получения сжатого представления текстовых документов–рефератов
(аннотаций). Постановка проблемы автоматического реферирования текста и
соответственно попытки ее решения с использованием различных подходов
предпринимались многими исследователями. История применения вычислительной
техники для реферирования насчитывает уже более 50 лет и связана с
именами таких исследователей, как Г.П. Лун, В.Е. Берзон, И.П. Cевбо, Э.Ф.
Скороходько, Д.Г. Лахути, Р.Г. Пиотровский и др. За эти годы выработаны
многочисленные подходы к решению данной проблемы, которые достаточно четко
подразделяются на два направления: автоматическое реферирование,
основанное на экстрагировании из первичных документов с помощью
определенных формальных признаков «наиболее информативных» фраз
(фрагментов), совокупность которых образует некоторый экстракт;
автоматическое реферирование, основанное на выделении из текстов с помощью
специальных информационных языков наиболее существенной информации и
порождении новых текстов (рефератов), содержательно обобщающих первичные
документы.
- text: >
Первую многоножку, у которой более тысячи ног, обнаружили в австралийских
пещерах биологи, изучавшие там подземные воды. Предыдущей рекордсменкой по
количеству ног была 700-ногая многоножка. Новый вид имеет длинное тонкое
тело, похожее на нить, и большое количество конечностей, по-видимому, дает
преимущества для быстрого перемещения и проникновения в труднодоступные
места — ученые полагают, такая многоножка может спокойно перемещаться по
трещинам в камнях. Австралия известна своими огромными и жутковатыми
животными вроде 25-сантиметровых пауков. Теперь список пугающих
членистоногих пополнился самой «многоногой» в мире многоножкой, у которой
более тысячи ног. Необычное животное обнаружила группа исследователей из
Австралии и США в пещерах на западе страны. Подробнее многоножку ученые
описали в статье в журнале Scientific Reports. Исследователи занимались
оценкой воздействия подземных вод на окружающую среду в зоне добычи
полезных ископаемых на западе страны, когда наткнулись на новый вид
многоножек. В отличие от большинства сородичей, живущих на поверхности,
эти многоножки обитали в пещерах на глубине до 60 метров. Новый вид
исследователи назвали Eumillipes persephone, в честь Персефоны —
древнегреческой богини подземного мира. У многоножки оказалось 1306 ног —
больше, чем у любого другого известного вида. Предыдущей рекордсменкой
была калифорнийская Illacme plenipes, у которой насчитывалось до 750 ног.
«Эти животные были настолько уникальны, — говорит биолог Бруно Бузатто. —
Как только я понял, какой длины они были... Стало ясно, что это что-то
совершенно новое». У Е. persephone нитевидное тело длиной около 9,5 см и
шириной всего миллиметр, состоящее из 330 сегментов, короткие ноги и
конусообразная голова. Как и другие животные, живущие в постоянной
темноте, эти многоножки бледны и слепы. Энтомолог Пол Марек сравнивает ее
с белой нитью, выдернутой из рубашки. Чтобы посчитать количество ног,
ученым пришлось сначала снять многоножку в высоком разрешении, а затем
закрашивать на фото каждый десяток ног другим цветом.
(https://www.gazeta.ru/science/2021/12/17_a_14325355.shtml)
ru-mbart-large-summ
Model
Model forked from ru-bart-large which is smaller version of the facebook/mbart-large-50 with only Russian and English embeddings.
Data
- d0rj/samsum-ru
- IlyaGusev/gazeta
- zjkarina/matreshka
- rcp-meetings/rudialogsum_v2
- GEM/wiki_lingua
- mlsum
All 'train' subsets was concatenated and shuffled with seed 1000 - 7
.
Train subset = 155678 rows.
Metrics
Evaluation on 10% of concatenated 'validation' subsets = 1458 rows.
See WandB logs.
See report at REPORT WIP.
Usage
from transformers import pipeline
pipe = pipeline('summarization', model='d0rj/ru-mbart-large-summ')
pipe(text)
import torch
from transformers import AutoTokenizer, MBartModel
tokenizer = AutoTokenizer.from_pretrained('d0rj/ru-mbart-large-summ')
model = MBartModel.from_pretrained('d0rj/ru-mbart-large-summ')
inputs = tokenizer('Всё в порядке, мимо двигал Утром прозвенел будильник', return_tensors='pt')
with torch.no_grad():
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state