mT5_ru_XLSum
Mod of https://huggingface.co/csebuetnlp/mT5_multilingual_XLSum. Shrink tokenizer to 32K (ru+en) with David's Dale manual.
Using this model in transformers
import re
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))
article_text = """
С точки зрения банальной эрудиции, в аспекте призматической парадоксальности,
цинизм ваших слов в данной конспекции ассоциируется мистификацией парадоксальных иллюзий.
Разложим его семилинейным функционалом в матpицy пpямоyгольнyю тpоеpанговyю обводимyю
собственной неодноpодностью непpеpывно интегpиpyемой в pазpыв попеpек интеpвала
pасходимости кpиволинейным экстpемyмом чеpез область целостности!
"""
model_name = "Nehc/mT5_ru_XLSum"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
input_ids = tokenizer(
[WHITESPACE_HANDLER(article_text)],
return_tensors="pt",
padding="max_length",
truncation=True,
max_length=512
)["input_ids"]
output_ids = model.generate(
input_ids=input_ids,
max_length=84,
no_repeat_ngram_size=2,
num_beams=3
)[0]
summary = tokenizer.decode(
output_ids,
skip_special_tokens=True,
clean_up_tokenization_spaces=False
)
print(summary)
- Downloads last month
- 13
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.