Add evaluation results on the samsum config and test split of samsum

Beep boop, I am a bot from Hugging Face's automatic model evaluator 👋!\
Your model has been evaluated on the samsum config and test split of the [samsum](https://huggingface.co/datasets/samsum) dataset by

@TheAlphaQ

, using the predictions stored [here](https://huggingface.co/datasets/autoevaluate/autoeval-eval-samsum-samsum-6999f5-3301091732).\
Accept this pull request to see the results displayed on the [Hub leaderboard](https://huggingface.co/spaces/autoevaluate/leaderboards?dataset=samsum).\
Evaluate your model on more datasets [here](https://huggingface.co/spaces/autoevaluate/model-evaluator?dataset=samsum).

Files changed (1) hide show

README.md +115 -80

README.md CHANGED Viewed

@@ -1,10 +1,10 @@
 ---
 language: en
 tags:
 - bart
 - seq2seq
 - summarization
-license: apache-2.0
 datasets:
 - cnndaily/newyorkdaily/xsum/samsum/dialogsum/AMI
 metrics:
@@ -190,42 +190,42 @@ model-index:
 - name: MEETING_SUMMARY
   results:
   - task:
-      name: Abstractive Text Summarization
       type: abstractive-text-summarization
     dataset:
       name: samsum
       type: samsum
     metrics:
-    - name: Validation ROGUE-1
-      type: rouge-1
       value: 53.8795
-    - name: Validation ROGUE-2
-      type: rouge-2
       value: 28.4975
-    - name: Validation ROGUE-L
-      type: rouge-L
       value: 44.1899
-    - name: Validation ROGUE-Lsum
-      type: rouge-Lsum
       value: 49.4863
-    - name: Validation ROGUE-Lsum
-      type: gen-length
       value: 30.088
-    - name: Test ROGUE-1
-      type: rouge-1
       value: 53.2284
-    - name: Test ROGUE-2
-      type: rouge-2
       value: 28.184
-    - name: Test ROGUE-L
-      type: rouge-L
       value: 44.122
-    - name: Test ROGUE-Lsum
-      type: rouge-Lsum
       value: 49.0301
-    - name: Test ROGUE-Lsum
-      type: gen-length
       value: 29.9951
   - task:
       type: summarization
       name: Summarization
@@ -235,108 +235,143 @@ model-index:
       config: bazzhangz--sumdataset
       split: train
     metrics:
-    - name: ROUGE-1
-      type: rouge
       value: 40.5544
       verified: true
-    - name: ROUGE-2
-      type: rouge
       value: 17.0751
       verified: true
-    - name: ROUGE-L
-      type: rouge
       value: 32.153
       verified: true
-    - name: ROUGE-LSUM
-      type: rouge
       value: 36.4277
       verified: true
-    - name: loss
-      type: loss
       value: 2.116729736328125
       verified: true
-    - name: gen_len
-      type: gen_len
       value: 42.1978
       verified: true
-- name: MEETING_SUMMARY
-  results:
   - task:
-      name: Abstractive Text Summarization
       type: abstractive-text-summarization
     dataset:
       name: xsum
       type: xsum
     metrics:
-    - name: Validation ROGUE-1
-      type: rouge-1
       value: 35.9078
-    - name: Validation ROGUE-2
-      type: rouge-2
       value: 14.2497
-    - name: Validation ROGUE-L
-      type: rouge-L
       value: 28.1421
-    - name: Validation ROGUE-Lsum
-      type: rouge-Lsum
       value: 28.9826
-    - name: Validation ROGUE-Lsum
-      type: gen-length
       value: 32.0167
-    - name: Test ROGUE-1
-      type: rouge-1
       value: 36.0241
-    - name: Test ROGUE-2
-      type: rouge-2
       value: 14.3715
-    - name: Test ROGUE-L
-      type: rouge-L
       value: 28.1968
-    - name: Test ROGUE-Lsum
-      type: rouge-Lsum
       value: 29.0527
-    - name: Test ROGUE-Lsum
-      type: gen-length
       value: 31.9933
-- name: MEETING_SUMMARY
-  results:
   - task:
-      name: Abstractive Text Summarization
       type: abstractive-text-summarization
     dataset:
       name: dialogsum
       type: dialogsum
     metrics:
-    - name: Validation ROGUE-1
-      type: rouge-1
       value: 39.8612
-    - name: Validation ROGUE-2
-      type: rouge-2
       value: 16.6917
-    - name: Validation ROGUE-L
-      type: rouge-L
       value: 32.2718
-    - name: Validation ROGUE-Lsum
-      type: rouge-Lsum
       value: 35.8748
-    - name: Validation ROGUE-Lsum
-      type: gen-length
       value: 41.726
-    - name: Test ROGUE-1
-      type: rouge-1
       value: 36.9608
-    - name: Test ROGUE-2
-      type: rouge-2
       value: 14.3058
-    - name: Test ROGUE-L
-      type: rouge-L
       value: 29.3261
-    - name: Test ROGUE-Lsum
-      type: rouge-Lsum
       value: 32.9
-    - name: Test ROGUE-Lsum
-      type: gen-length
       value: 43.086
 ---
 Model obtained by Fine Tuning 'facebook/bart-large-xsum' using AMI Meeting Corpus, SAMSUM Dataset, DIALOGSUM Dataset, XSUM Dataset!
 ## Usage

 ---
 language: en
+license: apache-2.0
 tags:
 - bart
 - seq2seq
 - summarization
 datasets:
 - cnndaily/newyorkdaily/xsum/samsum/dialogsum/AMI
 metrics:
 - name: MEETING_SUMMARY
   results:
   - task:
       type: abstractive-text-summarization
+      name: Abstractive Text Summarization
     dataset:
       name: samsum
       type: samsum
     metrics:
+    - type: rouge-1
       value: 53.8795
+      name: Validation ROGUE-1
+    - type: rouge-2
       value: 28.4975
+      name: Validation ROGUE-2
+    - type: rouge-L
       value: 44.1899
+      name: Validation ROGUE-L
+    - type: rouge-Lsum
       value: 49.4863
+      name: Validation ROGUE-Lsum
+    - type: gen-length
       value: 30.088
+      name: Validation ROGUE-Lsum
+    - type: rouge-1
       value: 53.2284
+      name: Test ROGUE-1
+    - type: rouge-2
       value: 28.184
+      name: Test ROGUE-2
+    - type: rouge-L
       value: 44.122
+      name: Test ROGUE-L
+    - type: rouge-Lsum
       value: 49.0301
+      name: Test ROGUE-Lsum
+    - type: gen-length
       value: 29.9951
+      name: Test ROGUE-Lsum
   - task:
       type: summarization
       name: Summarization
       config: bazzhangz--sumdataset
       split: train
     metrics:
+    - type: rouge
       value: 40.5544
+      name: ROUGE-1
       verified: true
+    - type: rouge
       value: 17.0751
+      name: ROUGE-2
       verified: true
+    - type: rouge
       value: 32.153
+      name: ROUGE-L
       verified: true
+    - type: rouge
       value: 36.4277
+      name: ROUGE-LSUM
       verified: true
+    - type: loss
       value: 2.116729736328125
+      name: loss
       verified: true
+    - type: gen_len
       value: 42.1978
+      name: gen_len
       verified: true
   - task:
       type: abstractive-text-summarization
+      name: Abstractive Text Summarization
     dataset:
       name: xsum
       type: xsum
     metrics:
+    - type: rouge-1
       value: 35.9078
+      name: Validation ROGUE-1
+    - type: rouge-2
       value: 14.2497
+      name: Validation ROGUE-2
+    - type: rouge-L
       value: 28.1421
+      name: Validation ROGUE-L
+    - type: rouge-Lsum
       value: 28.9826
+      name: Validation ROGUE-Lsum
+    - type: gen-length
       value: 32.0167
+      name: Validation ROGUE-Lsum
+    - type: rouge-1
       value: 36.0241
+      name: Test ROGUE-1
+    - type: rouge-2
       value: 14.3715
+      name: Test ROGUE-2
+    - type: rouge-L
       value: 28.1968
+      name: Test ROGUE-L
+    - type: rouge-Lsum
       value: 29.0527
+      name: Test ROGUE-Lsum
+    - type: gen-length
       value: 31.9933
+      name: Test ROGUE-Lsum
   - task:
       type: abstractive-text-summarization
+      name: Abstractive Text Summarization
     dataset:
       name: dialogsum
       type: dialogsum
     metrics:
+    - type: rouge-1
       value: 39.8612
+      name: Validation ROGUE-1
+    - type: rouge-2
       value: 16.6917
+      name: Validation ROGUE-2
+    - type: rouge-L
       value: 32.2718
+      name: Validation ROGUE-L
+    - type: rouge-Lsum
       value: 35.8748
+      name: Validation ROGUE-Lsum
+    - type: gen-length
       value: 41.726
+      name: Validation ROGUE-Lsum
+    - type: rouge-1
       value: 36.9608
+      name: Test ROGUE-1
+    - type: rouge-2
       value: 14.3058
+      name: Test ROGUE-2
+    - type: rouge-L
       value: 29.3261
+      name: Test ROGUE-L
+    - type: rouge-Lsum
       value: 32.9
+      name: Test ROGUE-Lsum
+    - type: gen-length
       value: 43.086
+      name: Test ROGUE-Lsum
+  - task:
+      type: summarization
+      name: Summarization
+    dataset:
+      name: samsum
+      type: samsum
+      config: samsum
+      split: test
+    metrics:
+    - type: rouge
+      value: 53.1878
+      name: ROUGE-1
+      verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiOTVkNTczYjFmYzBmMzczNWE0MGY4MDAyZWExOGNjZmY1Yzk2ZGM1MGNjZmFmYWUyZmIxZjdjOTk4OTc4OGJlMSIsInZlcnNpb24iOjF9.yyzPpGtESuZXy_lBESrboGxdGYB7I6jaIjquCYqliE2xdbGf5awDFpDUwlZHDuw6RD2mIZv1FC8PPs9lOHuSAg
+    - type: rouge
+      value: 28.1666
+      name: ROUGE-2
+      verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiMjAzOTdjNGYxNWMzYmFjYjRmMTcxYzI0MmNlNmM5Nzg2MzBlNDdmZWFkN2EwMDE2ZTZmYzc0Zjg0ZDc0M2IxNiIsInZlcnNpb24iOjF9.cPH6O50T6HekO227Xzha-EN_Jp7JS9fh5EP9I0tHxbpGptKtZOQC-NG68zfU2eJKlRSrmgaBYs8tjfTvpAgyDg
+    - type: rouge
+      value: 44.117
+      name: ROUGE-L
+      verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNmNmMzJkYjMxMjhlZDM4YmU3NmI1MDExNzhiYmVhMzEyZGJjNDJkNzczNGQwOTMwNzg2YjU1ZWQ4MDhiMzkxYiIsInZlcnNpb24iOjF9.lcEXK15UqZOdXnPjVqIhFd6o_PLROSIONTRFX5NbwanjEI_MWMLpDh_V0Kpnvs_W0sE6cXh2yoifSYNDA5W7Bw
+    - type: rouge
+      value: 49.0094
+      name: ROUGE-LSUM
+      verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYThkYjk4ZjMzYjI0OTAxNDJiZTU5MzE0YjI5MjEzYTYwNWEzMmU5NjU2ZjQ5NzJhMzkyNmVhNWFjZmM1MjAwMSIsInZlcnNpb24iOjF9.LTn6LpKuMO4Rv4NgsbPmtr2ewiKyoqAXlf6YJfM_6GKwVTKpnJxwx7gaaAtMb0jVlgieITMP11JmbeRfMEhgDg
+    - type: loss
+      value: 1.710614562034607
+      name: loss
+      verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNjNjZmM0ZjkwYWYyMWIyMmFiMWI1ODBiYjRjNzVhM2JhN2NmNmM1ZDUwZWRjNDQxNzUwMWM4YjYxYTg1MWYwNyIsInZlcnNpb24iOjF9.hGXZhp9pe-HDJilXVvMCkqz-92YZvH6Qr7q9Z7fJkm8N9s0b4sl-4PwjQYJEOLEAhoRO2s-F5T3bmCYCaMiNBQ
+    - type: gen_len
+      value: 29.9951
+      name: gen_len
+      verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiZmY1NzZiMDAzNGJlNTg4Nzc0YzU1MTA3YTI3MzVmNGZkNWQ0ZDE4MGZlNGI1MzJmYzA3MjQ0MDZhMTcyYTk2NCIsInZlcnNpb24iOjF9.8dvMfY7Y-nw-K8NGgTXIGFMxaSUWQYBE1w3N5YYOn4iwnCe2ugo2qPIOxLY91q7CaAOMCSskFV3BDStQ4p0ZCg
 ---
 Model obtained by Fine Tuning 'facebook/bart-large-xsum' using AMI Meeting Corpus, SAMSUM Dataset, DIALOGSUM Dataset, XSUM Dataset!
 ## Usage