GreekT5 (umt5-base-greeksum)
A Greek news summarization model trained on GreekSum.
This model is part of a series of models trained as part of our research paper:
Giarelis, N., Mastrokostas, C., & Karacapilidis, N. (2024) GreekT5: Sequence-to-Sequence Models for Greek News Summarization [arxiv]
The proposed models were trained and evaluated on the same dataset against GreekBART.
For more information see the evaluation section below.
Training dataset
The training dataset of GreekT5-umt5-base-greeksum
is GreekSum, which is the first news summarization dataset for the Greek Language.
This dataset contains ~151,000 news articles collected from News24/7, belonging to various topics (i.e., society, politics, economy, culture or world news).
For more information see: https://arxiv.org/abs/2304.00869
Training configuration
We trained google/umt5-base
[580 million parameters (~2.37 GB)] on the GreekSUM train split using the following parameters:
- GPU batch size = 1
- Total training epochs = 10
- AdamW optimizer (e = 1e−8, β1 = 0.9 and β2 = 0.0999)
- Learning rate = 3e−4
- No warmup steps
- 32-bit floating precision
- Tokenization
- maximum input token length = 1024
- maximum output token length = 128
- padding = ‘max_length’
- truncation = True
Note: T5-based models use a multi-task architecture, the prefix ‘summarize: ’ was prepended in each training sample.
Evaluation
Approach | ROUGE-1 | ROUGE-2 | ROUGE-L | BERTScore |
---|---|---|---|---|
TextRank | 18.10 | 5.76 | 13.84 | 68.39 |
GreekT5 (mt5-small) | 14.84 | 1.68 | 12.39 | 72.96 |
GreekT5 (umt5-small) | 25.49 | 12.03 | 21.32 | 72.86 |
GreekT5 (umt5-base) | 26.67 | 13.00 | 22.42 | 73.41 |
GreekBART | 17.43 | 2.44 | 15.08 | 75.89 |
Example code
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, pipeline
model_name = 'IMISLab/GreekT5-umt5-base-greeksum'
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
summarizer = pipeline(
'summarization',
device = 'cpu',
model = model,
tokenizer = tokenizer,
max_new_tokens = 128,
truncation = True
)
text = 'Να πάρει ""ξεκάθαρη"" θέση σε σχέση με τον κίνδυνο μετάδοσης του κορονοϊού από τη Θεία Κοινωνία καλεί την κυβέρνηση και τον Πρωθυπουργό με ανακοίνωσή του τη Δευτέρα ο ΣΥΡΙΖΑ. ""Την ώρα που κλείνουν προληπτικά και ορθώς σχολεία, πανεπιστήμια, γήπεδα και λαμβάνονται ειδικά μέτρα ακόμη και για την ορκωμοσία της νέας Προέδρου της Δημοκρατίας, η Ιερά Σύνοδος της Εκκλησίας της Ελλάδος επιμένει ότι το μυστήριο της Θείας Κοινωνίας δεν εγκυμονεί κινδύνους μετάδοσης του κορονοϊού, καλώντας όμως τις ευπαθείς ομάδες να μείνουν σπίτι τους"", αναφέρει η αξιωματική αντιπολίτευση και συνεχίζει: ""Ωστόσο το πρόβλημα δεν είναι τι λέει η Ιερά Σύνοδος, αλλά τι λέει η Πολιτεία και συγκεκριμένα ο ΕΟΔΥ και το Υπουργείο Υγείας, που έχουν και την αποκλειστική κοινωνική ευθύνη για τη μη εξάπλωση του ιού και την προστασία των πολιτών"". ""Σε άλλες ευρωπαϊκές χώρες με εξίσου μεγάλο σεβασμό στη Χριστιανική πίστη και στο θρησκευτικό συναίσθημα, τα μυστήρια της Εκκλησίας είτε αναστέλλονται είτε τροποποιούν το τελετουργικό τους. Μόνο στη χώρα μας έχουμε το θλιβερό προνόμιο μιας πολιτείας που δεν τολμά να πει το αυτονόητο"", προσθέτει, τονίζοντας ότι ""η κυβέρνηση λοιπόν και το Υπουργείο Υγείας οφείλουν να πάρουν δημόσια μια ξεκάθαρη θέση και να μην θυσιάζουν τη δημόσια Υγεία στο βωμό του πολιτικού κόστους"". ""Συμφωνούν ότι η Θεία Κοινωνία δεν εγκυμονεί κινδύνους μετάδοσης του κορονοϊού; Δεν είναι θέμα ευσέβειας αλλά κοινωνικής ευθύνης. Και με τη Δημόσια υγεία δεν μπορούμε να παίζουμε"", καταλήγει η ανακοίνωση του γραφείου Τύπου του ΣΥΡΙΖΑ. *ΠΩΣ ΜΕΤΑΔΙΔΕΤΑΙ. Χρήσιμος οδηγός για να προστατευθείτε από τον κορονοϊό *ΤΑ ΝΟΣΟΚΟΜΕΙΑ ΑΝΑΦΟΡΑΣ. Ποια θα υποδέχονται τα κρούσματα κορονοϊού στην Ελλάδα. *ΤΑΞΙΔΙΑ. Κορονοϊός και αεροδρόμια: Τι να προσέξετε. *Η ΕΠΙΔΗΜΙΑ ΣΤΟΝ ΠΛΑΝΗΤΗ. Δείτε LIVE χάρτη με την εξέλιξη του κορονοϊού.'
output = summarizer('summarize: ' + text)
print(output[0]['summary_text'])
Contact
If you have any questions/feedback about the model please e-mail one of the following authors:
[email protected]
[email protected]
[email protected]
Citation
The model has been officially released with the article: GreekT5: A Series of Greek Sequence-to-Sequence Models for News Summarization. If you use the model, please cite the following:
@inproceedings{giarelis2024greekt5,
title={GreekT5: Sequence-to-Sequence Models for Greek News Summarization},
author={Giarelis, Nikolaos and Mastrokostas, Charalampos and Karacapilidis, Nikos},
booktitle={IFIP International Conference on Artificial Intelligence Applications and Innovations},
pages={60--73},
year={2024},
organization={Springer}
}
- Downloads last month
- 32
Evaluation results
- ROUGE-1 on GreekSUMtest set self-reported26.670
- ROUGE-2 on GreekSUMtest set self-reported13.000
- ROUGE-L on GreekSUMtest set self-reported22.420
- BERTScore on GreekSUMtest set self-reported73.410