File size: 8,432 Bytes
ed4077f 7c71c1b 80c9ed0 8845411 98ce57c 8845411 98ce57c 7c71c1b b072ea0 7c71c1b 3ad8179 98ce57c 7c71c1b ed4077f 7c71c1b ed4077f 7c71c1b ed4077f 98ce57c 80c9ed0 ed4077f 80c9ed0 3865e8b 98ce57c ed4077f 98ce57c ed4077f eb7765b 98ce57c ed4077f 98ce57c 976743f 6f43d50 eb7765b 98ce57c ed4077f 98ce57c eb7765b ed4077f eb7765b ed4077f 80c9ed0 976743f 80c9ed0 8845411 80c9ed0 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 |
---
language: ar
datasets:
- Marefa-NER
---
# Tebyan تبيـان
## Marefa Arabic Named Entity Recognition Model
## نموذج المعرفة لتصنيف أجزاء النص
---------
**Version**: 1.2
**Last Update:** 22-05-2021
## Model description
**Marefa-NER** is a Large Arabic Named Entity Recognition (NER) model built on a completely new dataset and targets to extract up to 9 different types of entities
```
Person, Location, Organization, Nationality, Job, Product, Event, Time, Art-Work
```
نموذج المعرفة لتصنيف أجزاء النص. نموذج جديد كليا من حيث البيانات المستخدمة في تدريب النموذج.
كذلك يستهدف النموذج تصنيف حتى 9 أنواع مختلفة من أجزاء النص
```
شخص - مكان - منظمة - جنسية - وظيفة - منتج - حدث - توقيت - عمل إبداعي
```
## How to use كيف تستخدم النموذج
*You can test the model quickly by checking this [Colab notebook](https://colab.research.google.com/drive/1OGp9Wgm-oBM5BBhTLx6Qow4dNRSJZ-F5?usp=sharing)*
-----
Install the following Python packages
`$ pip3 install transformers==4.8.0 nltk==3.5 protobuf==3.15.3 torch==1.9.0 `
> If you are using `Google Colab`, please restart your runtime after installing the packages.
[**OPTIONAL**]
Using of an Arabic segmentation tool approved better results in many scenarios. If you want to use `FarasaPy`to segment the texts, please ensure that you have `openjdk-11`installed in your machine, then install the package via:
```bash
# install openjdk-11-jdk
$ apt-get install -y build-essential
$ apt-get install -y openjdk-11-jdk
# instll FarasaPy
$ pip3 install farasapy==0.0.13
```
*Do not forget to set `USE_FARASAPY` to `True` in the following code*
Also, you can set `USE_SENTENCE_TOKENIZER` to `True` for getting better results for long texts.
-----------
```python
# ==== Set configurations
# do you want to use FarasaPy Segmentation tool ?
USE_FARASAPY = False # set to True to use it
# do you want to split text into sentences [better for long texts] ?
USE_SENTENCE_TOKENIZER = False # set to True to use it
# ==== Import required modules
import logging
import re
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize, sent_tokenize
from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline
# disable INFO Logs
transformers_logger = logging.getLogger("transformers")
transformers_logger.setLevel(logging.WARNING)
def _extract_ner(sent: str, ner: pipeline) -> str:
grouped_ents = []
current_ent = {}
results = ner(sent)
for ent in results:
if len(current_ent) == 0:
current_ent = ent
continue
if current_ent["end"] == ent["start"] and current_ent["entity_group"] == ent["entity_group"]:
current_ent["word"] = current_ent["word"]+ent["word"]
else:
grouped_ents.append(current_ent)
current_ent = ent
if len(grouped_ents) > 0 and grouped_ents[-1] != ent:
grouped_ents.append(current_ent)
elif len(grouped_ents) == 0 and len(current_ent) > 0:
grouped_ents.append(current_ent)
return [ g for g in grouped_ents if len(g["word"].strip()) ]
if USE_FARASAPY:
from farasa.segmenter import FarasaSegmenter
segmenter = FarasaSegmenter()
def _segment_text(text: str, segmenter: FarasaSegmenter) -> str:
segmented = segmenter.segment(text)
f_segments = { w.replace("+",""): w.replace("و+","و ").replace("+","") for w in segmented.split(" ") if w.strip() != "" and w.startswith("و+") }
for s,t in f_segments.items():
text = text.replace(s, t)
return text
_ = _segment_text("نص تجريبي للتأكد من عمل الأداة", segmenter)
custom_labels = ["O", "B-job", "I-job", "B-nationality", "B-person", "I-person", "B-location",
"B-time", "I-time", "B-event", "I-event", "B-organization", "I-organization",
"I-location", "I-nationality", "B-product", "I-product", "B-artwork", "I-artwork"]
# ==== Import/Download the NER Model
m_name = "marefa-nlp/marefa-ner"
tokenizer = AutoTokenizer.from_pretrained(m_name)
model = AutoModelForTokenClassification.from_pretrained(m_name)
ar_ner = pipeline("ner", model=model, tokenizer=tokenizer, grouped_entities=True, aggregation_strategy="simple")
# ==== Model Inference
samples = [
"تلقى تعليمه في الكتاب ثم انضم الى الأزهر عام 1873م. تعلم على يد السيد جمال الدين الأفغاني والشيخ محمد عبده",
"بعد عودته إلى القاهرة، التحق نجيب الريحاني فرقة جورج أبيض، الذي كان قد ضمَّ - قُبيل ذلك - فرقته إلى فرقة سلامة حجازي . و منها ذاع صيته",
"امبارح اتفرجت على مباراة مانشستر يونايتد مع ريال مدريد في غياب الدون كرستيانو رونالدو",
"Government extends flight ban from India and Pakistan until June 21"
]
# [optional]
samples = [ " ".join(word_tokenize(sample.strip())) for sample in samples if sample.strip() != "" ]
for sample in samples:
ents = []
if USE_FARASAPY:
sample = _segment_text(sample, segmenter)
if USE_SENTENCE_TOKENIZER:
for sent in sent_tokenize(sample):
ents += _extract_ner(sent, ar_ner)
else:
ents = _extract_ner(sample, ar_ner)
# print the results
print("(", sample, ")")
for ent in ents:
print("\t", ent["word"], "=>", ent["entity_group"])
print("=========\n")
```
Output
```
( تلقى تعليمه في الكتاب ثم انضم الى الأزهر عام 1873م . تعلم على يد السيد جمال الدين الأفغاني والشيخ محمد عبده )
الأزهر => organization
عام 1873م => time
جمال الدين الأفغاني => person
محمد عبده => person
=========
( بعد عودته إلى القاهرة، التحق نجيب الريحاني فرقة جورج أبيض، الذي كان قد ضمَّ - قُبيل ذلك - فرقته إلى فرقة سلامة حجازي . و منها ذاع صيته )
القاهرة => location
نجيب الريحاني => person
فرقة جورج أبيض => organization
فرقة سلامة حجازي => organization
=========
( امبارح اتفرجت على مباراة مانشستر يونايتد مع ريال مدريد في غياب الدون كرستيانو رونالدو )
مانشستر يونايتد => organization
ريال مدريد => organization
كرستيانو رونالدو => person
=========
( Government extends flight ban from India and Pakistan until June 21 )
India => location
Pakistan => location
June 21 => time
=========
```
## Fine-Tuning
Check this [notebook](https://colab.research.google.com/drive/1WUYrnmDFFEItqGMvbyjqZEJJqwU7xQR-?usp=sharing) to fine-tune the NER model
## Acknowledgment شكر و تقدير
قام بإعداد البيانات التي تم تدريب النموذج عليها, مجموعة من المتطوعين الذين قضوا ساعات يقومون بتنقيح البيانات و مراجعتها
- على سيد عبد الحفيظ - إشراف
- نرمين محمد عطيه
- صلاح خيرالله
- احمد علي عبدربه
- عمر بن عبد العزيز سليمان
- محمد ابراهيم الجمال
- عبدالرحمن سلامه خلف
- إبراهيم كمال محمد سليمان
- حسن مصطفى حسن
- أحمد فتحي سيد
- عثمان مندو
- عارف الشريف
- أميرة محمد محمود
- حسن سعيد حسن
- عبد العزيز علي البغدادي
- واثق عبدالملك الشويطر
- عمرو رمضان عقل الحفناوي
- حسام الدين أحمد على
- أسامه أحمد محمد محمد
- حاتم محمد المفتي
- عبد الله دردير
- أدهم البغدادي
- أحمد صبري
- عبدالوهاب محمد محمد
- أحمد محمد عوض |