File size: 5,111 Bytes
03e5eec
 
 
 
 
 
 
 
1f1febf
 
 
80e4a33
61da571
 
1f1febf
 
 
 
 
 
 
72573db
 
1f1febf
 
 
 
 
 
 
 
 
 
2a37fef
1f1febf
 
 
 
 
 
 
 
 
068636c
1f1febf
 
558f80a
1f1febf
558f80a
1f1febf
 
 
 
 
 
 
 
 
 
608b824
3ffdf40
1f1febf
3ffdf40
 
1f1febf
3ffdf40
 
1f1febf
3ffdf40
1f1febf
3ffdf40
1f1febf
3ffdf40
1f1febf
3ffdf40
1f1febf
3ffdf40
 
1f1febf
3ffdf40
1f1febf
9669e4d
1f1febf
608b824
1f1febf
 
024106f
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
---
license: mit
language:
- ne
metrics:
- rouge
pipeline_tag: text-generation
tags:
- Nepali summary
- Nepali bart
- Nepali
- summary
- text
- nepali text summary
---
# Nep_Summ_BART:

<!-- Provide a quick summary of what the model is/does. -->

This model is pre-trained using BART on Nepali corpus and then fine-tuned on Nepali summary data.
<br>The model generates a summary for the text input.

The parameter size for the model is 101M.

## Model Details

### Model Description

<!-- Provide a longer summary of what this model is. -->

The model is trained using BART noising techniques like sentence permutation, token deletion, and random token masking.
<br>The noisy data is fed into the encoder of the transformer and the denoising task/ objective is fulfilled by the decoder of the transformer model.

Cross-entropy loss is used for both the pre-training and fine-tuning of the model.

The Loss for pre-training is as follows:

| Epoch   |      Training Loss      |  Val Loss |
|----------|:-------------:|------:|
| 1 |  0.8137 | 0.8010 |
| 2 |  0.7861 | 0.7524 |
| 3 |  0.7495 | 0.7290 |

The ROUGE Score for the fine-tuning, using the BBC XLSum Nepali Test Dataset is:

ROUGE1 : 0.177

ROUGE2 : 0.059

ROUGEL : 0.154

## Uses

<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
You can use this model for text summarization.

## How to Get Started with the Model

Use the code below to get started with the model.
```
import torch

# Load model directly
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("pascalrai/nep_summ_BART")
model = AutoModelForSeq2SeqLM.from_pretrained("pascalrai/nep_summ_BART")

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

sentence = """अत्यधिक माग भएका बेला दसैंमा चिनीको हाहाकार भएको थियो । उपत्यकाबाहिरका केही जिल्लामा चिनी पाइए पनि काठमाडौंमा भने अभाव नै कायम रहेको छ । प्रधानमन्त्री पुष्पकमल दाहालले बिहीबार बिहान उद्योग तथा वाणिज्य मन्त्री तथा मुख्यसचिवलाई चिनीको अभाव सिर्जना हुन नदिन सबै उपायको खोजी गर्न निर्देशन दिएका थिए ।

नेपाली चिनी उद्योगहरूले आम उपभोक्तालाई सहज हुने किसिमले बजारमा चिनी नपठाइ ठूला उद्योगलाई आपूर्ति गर्न गोदाममै राख्ने गरेको पनि भेटिएको छ । वाणिज्य विभागको तथ्यांक अनुसार, नेपालमा उत्पादन हुने चिनीको सत्तरी प्रतिशत चिनी बिभिन्न पेय पदार्थ, मिठाइ, चकलेट, विस्कुटलगायतका उद्योगहरुमा आपूर्ति हुने गर्दछ ।

नेपाल प्रहरीले नेपालमा रहेका सबै चिनी उद्योगको स्टक रेकर्ड चेक गर्ने तथा सो आधारमा बजारमा चिनी पठाउन उद्योगीहरूसँग छलफल गरिने विभागले जनाएको छ"""

inputs = tokenizer(sentence, max_length=1000, return_tensors="pt")
summary_ids = model.to(device).generate(inputs["input_ids"].to(device))

tokenizer.decode(summary_ids[0], skip_special_tokens=True, clean_up_tokenization_spaces=False)

'नेपालका चिनी उद्योगहरूले आम उपभोक्तालाई सहज हुने किसिमले बजारमा चिनी नपठाइ ठूला उद्योगलाई आपूर्ति गर्न गोदाममै राख्ने गरेको पनि भेटिएको वाणिज्य विभागको तथ्यांक अनुसार, नेपालमा उत्पादन हुने चिनीको सत्तरी प्रतिशत चिनी बिभिन्न पेय पदार्थ, मिठाइ, चकलेट, विस्कुटलगायतका उद्योगहरुमा आपूर्ति हुने गर्दछ ।'

```
#### Hardware

The model was trained on a single A10G GPU in an AWS instance with each epoch taking roughly 2 days.

#### Author:

Vijaya Bhatta
<br>Pascal Rai
<br>Niranjan Shrestha
<br>Dristi Sigdel
<br>Sujan Neupane