mT5_ru_XLSum / README.md
Nehc's picture
Update README.md
92745f5 verified
|
raw
history blame
9.38 kB
---
licenses:
- cc-by-nc-sa-4.0
language:
- ru
- en
tags:
- summarization
- dialogue-summarization
- text2text-generation
- mT5
widget:
- example_title: Diploma Introduction
text: 'Актуальность проблемы. Электронная информация играет все большую роль во
всех сферах жизни современного общества. В последние годы объем научно-технической
текстовой информации в электронном виде возрос настолько, что возникает угроза
обесценивания этой информации в связи с трудностями поиска необходимых сведений
среди множества доступных текстов. Развитие информационных ресурсов Интернет многократно
усугубило проблему информационной перегрузки. В этой ситуации особенно актуальными
становятся методы автоматизации реферирования текстовой информации, то есть методы
получения сжатого представления текстовых документов–рефератов (аннотаций). Постановка проблемы автоматического
реферирования текста и соответственно попытки ее решения с использованием различных
подходов предпринимались многими исследователями. История применения вычислительной
техники для реферирования насчитывает уже более 50 лет и связана с именами таких
исследователей, как Г.П. Лун, В.Е. Берзон, И.П. Cевбо, Э.Ф. Скороходько, Д.Г.
Лахути, Р.Г. Пиотровский и др. За эти годы выработаны многочисленные подходы
к решению данной проблемы, которые достаточно четко подразделяются на два направления:
автоматическое реферирование, основанное на экстрагировании из первичных документов
с помощью определенных формальных признаков «наиболее информативных» фраз (фрагментов),
совокупность которых образует некоторый экстракт; автоматическое реферирование,
основанное на выделении из текстов с помощью специальных информационных языков
наиболее существенной информации и порождении новых текстов (рефератов), содержательно
обобщающих первичные документы.
'
- example_title: Biological Info
text: Первую многоножку, у которой более тысячи ног, обнаружили в австралийских
пещерах биологи, изучавшие там подземные воды. Предыдущей рекордсменкой по количеству
ног была 700-ногая многоножка. Новый вид имеет длинное тонкое тело, похожее на
нить, и большое количество конечностей, по-видимому, дает преимущества для быстрого
перемещения и проникновения в труднодоступные места ученые полагают, такая многоножка
может спокойно перемещаться по трещинам в камнях. Австралия известна своими огромными
и жутковатыми животными вроде 25-сантиметровых пауков. Теперь список пугающих
членистоногих пополнился самой «многоногой» в мире многоножкой, у которой более
тысячи ног. Необычное животное обнаружила группа исследователей из Австралии и
США в пещерах на западе страны. Подробнее многоножку ученые описали в статье в
журнале Scientific Reports. Исследователи занимались оценкой воздействия подземных
вод на окружающую среду в зоне добычи полезных ископаемых на западе страны, когда
наткнулись на новый вид многоножек. В отличие от большинства сородичей, живущих
на поверхности, эти многоножки обитали в пещерах на глубине до 60 метров. Новый
вид исследователи назвали Eumillipes persephone, в честь Персефоны древнегреческой
богини подземного мира. У многоножки оказалось 1306 ног больше, чем у любого
другого известного вида. Предыдущей рекордсменкой была калифорнийская Illacme
plenipes, у которой насчитывалось до 750 ног. «Эти животные были настолько уникальны,
говорит биолог Бруно Бузатто. Как только я понял, какой длины они были...
Стало ясно, что это что-то совершенно новое». У Е. persephone нитевидное тело
длиной около 9,5 см и шириной всего миллиметр, состоящее из 330 сегментов, короткие
ноги и конусообразная голова. Как и другие животные, живущие в постоянной темноте,
эти многоножки бледны и слепы. Энтомолог Пол Марек сравнивает ее с белой нитью,
выдернутой из рубашки. Чтобы посчитать количество ног, ученым пришлось сначала
снять многоножку в высоком разрешении, а затем закрашивать на фото каждый десяток
ног другим цветом. (https://www.gazeta.ru/science/2021/12/17_a_14325355.shtml)
pipeline_tag: summarization
---
# mT5_ru_XLSum
Mod of https://huggingface.co/csebuetnlp/mT5_multilingual_XLSum. Shrink tokenizer to 30K (ru+en).
## Using this model in `transformers` (tested on 4.11.0.dev0)
```python
import re
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))
article_text = """Videos that say approved vaccines are dangerous and cause autism, cancer or infertility are among those that will be taken down, the company said. The policy includes the termination of accounts of anti-vaccine influencers. Tech giants have been criticised for not doing more to counter false health information on their sites. In July, US President Joe Biden said social media platforms were largely responsible for people's scepticism in getting vaccinated by spreading misinformation, and appealed for them to address the issue. YouTube, which is owned by Google, said 130,000 videos were removed from its platform since last year, when it implemented a ban on content spreading misinformation about Covid vaccines. In a blog post, the company said it had seen false claims about Covid jabs "spill over into misinformation about vaccines in general". The new policy covers long-approved vaccines, such as those against measles or hepatitis B. "We're expanding our medical misinformation policies on YouTube with new guidelines on currently administered vaccines that are approved and confirmed to be safe and effective by local health authorities and the WHO," the post said, referring to the World Health Organization."""
model_name = "Nehc/mT5_ru_XLSum"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
input_ids = tokenizer(
[WHITESPACE_HANDLER(article_text)],
return_tensors="pt",
padding="max_length",
truncation=True,
max_length=512
)["input_ids"]
output_ids = model.generate(
input_ids=input_ids,
max_length=84,
no_repeat_ngram_size=2,
num_beams=5
)[0]
summary = tokenizer.decode(
output_ids,
skip_special_tokens=True,
clean_up_tokenization_spaces=False
)
print(summary)
```