aishwaryamirashi's picture
Create README.md
bdc2ea4 verified
|
raw
history blame
6.44 kB
metadata
license: cc-by-4.0
language:
  - ml
tags:
  - bert
datasets:
  - L3Cube-IndicNews
widget:
  - text: >-
      ടോക്യോ: ജപ്പാനിൽ റിക്ടർ സ്കെയിലിൽ 6.0 തീവ്രത രേഖപ്പെടുത്തിയ ഭൂചലനം
      അനുഭവപ്പെട്ടു.  ജപ്പാനിലെ ഹോൺഷു ദ്വീപിന്റെ തെക്കുകിഴക്ക് ഭാഗത്ത്
      വെള്ളിയാഴ്ചയാണ് ഭൂചലനം ഉണ്ടായതെന്ന് നാഷണൽ സെന്റർ ഫോർ സീസ്മോളജി (എൻ.സി.എസ്)
      അറിയിച്ചു. പസഫിക് സമുദ്രത്തിലെ ദ്വീപുകൾക്ക് സമീപമുണ്ടായ ഭൂചലനത്തെ തുടർന്ന്
      ജപ്പാൻ സുനാമി മുന്നറിയിപ്പ് നൽകി.  ആളപായം സംബന്ധിച്ച റിപ്പോർട്ടുകളൊന്നും
      ഇതുവരെ പുറത്തുവന്നിട്ടില്ല. വെള്ളിയാഴ്ച ഇന്ത്യൻ സമയം രാവിലെ 7.01നാണ്
      ഭൂചലനം ഉണ്ടായത്. ഇസു ശൃംഖലയിലെ ദ്വീപുകളിലെ ആളുകളോട് കടൽതീരങ്ങളിൽ നിന്നും
      നദിക്കു സമീപത്തുനിന്നും അകന്നു നിൽക്കാൻ അധികൃതർ ആവശ്യപ്പെട്ടു. ദ്വീപുകളുടെ
      തീരങ്ങളിൽ  ഉയരത്തിൽ തിരമാല അടിക്കാൻ സാധ്യതയുണ്ടെന്ന് ജപ്പാൻ കാലാവസ്ഥാ
      ഏജൻസി മുന്നറിയിപ്പ് നൽകി. ലോകത്ത്  ഏറ്റവും കൂടുതൽ ഭൂകമ്പ സാധ്യതയുള്ള
      പ്രദേശങ്ങളിൽ ഒന്നാണ് ജപ്പാൻ.
  - text: >-
      മൊബൈൽ ഇന്റർനെറ്റ് വേഗതയിൽ വീണ്ടും ആഗോളതലത്തിൽ ഒന്നാമതെത്തി ഖത്തർ.
      ഓക്‌ലയുടെ സ്പീഡ്ടെസ്റ്റ് ഗ്ലോബൽ ഇൻഡക്സ് പുറത്തിറക്കിയ 2023 ഏപ്രിലിലെ
      റിപ്പോർട്ട് അനുസരിച്ച് 189.98 എംബിപിഎസ് ശരാശരി ഡൗൺലോഡ് വേഗതയോടെയാണ് ഖത്തർ
      ഒന്നാമതെത്തിയത്. 175.34 എംബിപിഎസ് ശരാശരി ഡൗൺലോഡ് വേഗതയുള്ള യു.എ.ഇയാണ്
      രണ്ടാം സ്ഥാനത്ത്. മകാവു (171.73 എംബിപിഎസ്), കുവൈറ്റ് (139.03), നോർവേ
      (131.16) എന്നീ രാജ്യങ്ങളാണ് ആദ്യ അഞ്ച് സ്ഥാനങ്ങളിലുള്ള മറ്റ് രാജ്യങ്ങൾ.
      36.35 എംബിപിഎസ് ശരാശരി മൊബൈൽ ഇന്റർനെറ്റ് വേഗതയുള്ള ഇന്ത്യ ആഗോളതലത്തിൽ
      60-ാം സ്ഥാനത്താണ്, മാർച്ചിൽ 64-ാം സ്ഥാനത്തായിരുന്നു നമ്മുടെ രാജ്യം.
      അതേസമയം, കഴിഞ്ഞ വർഷവും ഖത്തർ തന്നെയായിരുന്നു വേഗതയിൽ ഒന്നാം
      സ്ഥാനത്തുണ്ടായിരുന്നത്. അതേസമയം, ഫിക്സ്ഡ് ബ്രോഡ്ബാൻഡ് ഇന്റർനെറ്റ് വേഗതയിൽ
      242.01 എംബിപിഎസ് ശരാശരി ഡൗൺലോഡ് വേഗതയുമായി സിംഗപ്പൂരാണ് ഒന്നാം സ്ഥാനത്ത്.
      ചിലി (222.49), യു.എ.ഇ (216.78), ചൈന (215.80), ഹോങ്കോങ് (205.19) എന്നീ
      രാജ്യങ്ങളാണ് ആദ്യ അഞ്ച് സ്ഥാനങ്ങളിലുള്ളത്.    

Malayalam-Doc-Topic-BERT

Malayalam-Doc-Topic-BERT model is an IndicSBERT(l3cube-pune/malayalam-sentence-bert-nli) model fine-tuned on Malayalam documents from the L3Cube-IndicNews Corpus [dataset link]https://github.com/l3cube-pune/indic-nlp.
This dataset consists of sub-datasets like LDC (Long Document Classification), LPC (Long Paragraph Classification), and SHC (Short Headlines Classification), each having different document lengths.
This model is trained on a combination of all three variants and works well across different document sizes.

More details on the dataset, models, and baseline results can be found in our [paper]https://arxiv.org/abs/2401.02254

Citing:

@article{mirashi2024l3cube,
  title={L3Cube-IndicNews: News-based Short Text and Long Document Classification Datasets in Indic Languages},
  author={Mirashi, Aishwarya and Sonavane, Srushti and Lingayat, Purva and Padhiyar, Tejas and Joshi, Raviraj},
  journal={arXiv preprint arXiv:2401.02254},
  year={2024}
}

Other document topic models for different Indic languages are listed below:
Hindi-Doc-Topic-BERT
Bengali-Doc-Topic-BERT
Marathi-Doc-Topic-BERT
Telugu-Doc-Topic-BERT
Tamil-Doc-Topic-BERT
Gujarati-Doc-Topic-BERT
Kannada-Doc-Topic-BERT
Odia-Doc-Topic-BERT
Punjabi-Doc-Topic-BERT