Add new SentenceTransformer model.
Browse files- .gitattributes +2 -0
- 1_Pooling/config.json +10 -0
- README.md +454 -0
- config.json +26 -0
- config_sentence_transformers.json +10 -0
- model.safetensors +3 -0
- modules.json +14 -0
- sentence_bert_config.json +4 -0
- special_tokens_map.json +51 -0
- tokenizer.json +3 -0
- tokenizer_config.json +64 -0
- unigram.json +3 -0
.gitattributes
CHANGED
@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
|
|
|
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
36 |
+
tokenizer.json filter=lfs diff=lfs merge=lfs -text
|
37 |
+
unigram.json filter=lfs diff=lfs merge=lfs -text
|
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 384,
|
3 |
+
"pooling_mode_cls_token": false,
|
4 |
+
"pooling_mode_mean_tokens": true,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
README.md
ADDED
@@ -0,0 +1,454 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
base_model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
|
3 |
+
datasets: []
|
4 |
+
language: []
|
5 |
+
library_name: sentence-transformers
|
6 |
+
pipeline_tag: sentence-similarity
|
7 |
+
tags:
|
8 |
+
- sentence-transformers
|
9 |
+
- sentence-similarity
|
10 |
+
- feature-extraction
|
11 |
+
- generated_from_trainer
|
12 |
+
- dataset_size:1440
|
13 |
+
- loss:MultipleNegativesRankingLoss
|
14 |
+
widget:
|
15 |
+
- source_sentence: Ποια είναι η ομοιότητα αμινοξέων μεταξύ των IFITM 1, IFITM 2 και
|
16 |
+
IFITM 3;
|
17 |
+
sentences:
|
18 |
+
- 'αναλυση mh ( ιος, φυλο ( γυναικα / αρρεν ) ) προσαρμοσμενη για los ( < 4 η ≥4
|
19 |
+
ετη ), οι πιθανοτητες μολυνσης παρεμειναν σημαντικες μεταξυ των ηλικιωμενων κατοικων
|
20 |
+
( ≥86 ετων ) : nov + / ανδρες ( αναλογια πιθανοτητων ( or ( mh ) ) : 1, 64, 95
|
21 |
+
% διαστημα εμπιστοσυνης ( ci ) : 1, 16 – 2, 30 ) και flu + / θηλυκο και αρσενικο
|
22 |
+
( αντιστοιχα or ( mh ) : 1, 50, ci : 1, 27 – 1, 79 και 1, 73, ci : 1, 28 – 2,
|
23 |
+
33 ). στη'
|
24 |
+
- '##5 περιοριζεται κυριως στα κυτταρα οστεοβλαστων [ 18, 19, 27 ], ενω οι αλλες
|
25 |
+
πρωτεινες ifitm εκφραζονται παντου ( ii ). ομοιοτητα αλληλουχιας αμινοξεων : η
|
26 |
+
αλληλουχια αμινοξεων του ifitm5 ειναι σχετικα ανομοια με τις πρωτεινες ifitm1
|
27 |
+
- 3 ( ~ 65 % ομοιοτητα ), ενω οι πρωτεινες ifitm1 - 3 μοιραζονται ~ 85 % ομοιοτητα
|
28 |
+
μεταξυ τους ( εικονα 1 - c ). επιπλεον, το ifitm5 εχει μια περιοχη πλουσια σε
|
29 |
+
ασπαρτικο στην c - τερματικη περιοχη, η οποια θα μπορουσε να εμπλεκεται στη δεσμευση
|
30 |
+
ασβεστιου ( εικονα 1 -'
|
31 |
+
- 'οι εργαζομενοι στον τομεα της υγειας θα πρεπει να λαμβανουν τις ακολουθες προφυλαξεις
|
32 |
+
: συμπληρωστε τα μετρα προληψης και ελεγχου λοιμωξεων, συμπεριλαμβανομενης της
|
33 |
+
υγιεινης των χεριων. σιγουρευτειτε οτι το δωματιο οπου ο ασθενης φροντιζει ειναι
|
34 |
+
καλα αεριζομενος, ανοιγοντας παραθυρα, εαν ειναι απαραιτητο. παροχη οδηγιων στους
|
35 |
+
φροντιστες και τα μελη του νοικοκυριου για τον καθαρισμο και την απολυμανση στο
|
36 |
+
σπιτι, καθως και για τη διαχειριση αποβλητων, πλυντηριου και σκευη που σχετιζονται
|
37 |
+
με τον ασθενη. αναζητηστε απο τον ασθενη να φοραει ιατρικη μασκα κατα την παροχη
|
38 |
+
φροντιδας η σε αποσταση ενος μετρου. αποθηκευση περιορισμου του αριθμου των μελων
|
39 |
+
του νοικοκυριου κατα τη διαρκεια επισκεψεων και διατηρησης τουλαχιστον αποστασης
|
40 |
+
1 μετρου. αφαιρεστε'
|
41 |
+
- source_sentence: Ποια είναι μερικά ψηφιακά εργαλεία που χρησιμοποιούνται για την
|
42 |
+
υποστήριξη εντοπισμού επαφών; Πώς μπορούν να ενισχύσουν τις διαδικασίες εντοπισμού
|
43 |
+
επαφών;
|
44 |
+
sentences:
|
45 |
+
- δεν ξερουμε ποτε θα τελειωσει η πανδημια, αλλα γνωριζουμε οτι εξαρταται απο καθε
|
46 |
+
ατομο που συμβαλλει στη διακοπη της εξαπλωσης του ιου. οι θυσιες που κανατε με
|
47 |
+
το να μην δειτε τους φιλους σας και με το να μην πατε στο σχολειο για λιγο, και
|
48 |
+
αλλες δραστηριοτητες, ειναι η συμβολη σας στην καταπολεμηση της πανδημιας. βαζοντας
|
49 |
+
τις κοινωνιες και τις οικονομιες σε αναμονη, εχουμε μειωσει την ικανοτητα του
|
50 |
+
ιου να εξαπλωθει μεσω των κοινοτητων μας. αυτα τα αμυντικα μετρα εχουν βοηθησει
|
51 |
+
να περιοριστει η βλαβη που μπορει να προκαλεσει ο ιος, και μας αγορασε χρονο για
|
52 |
+
να μαθουμε περισσοτερα για τον ιο και να βρουμε λυσεις ωστε να μπορεσουμε να επιστρεψουμε
|
53 |
+
σε εναν πιο οικειο
|
54 |
+
- '##02c704 ; huang, lijuan ; nie, shaofa ; liu, zengyan ; yu, hongjie ; yan, weirong
|
55 |
+
; xu, yihuaημερομηνια : 2011 - 05 - 16doi : 10. 1186 / 1471 - 2334 - 11 - 128αδεια
|
56 |
+
: cc - byabstract : ιστορικο : η κινα διατρεχει τον μεγαλυτερο κινδυνο της πανδημιας
|
57 |
+
( h1n1 ) 2009 λογω του τεραστιου πληθυσμου της και του υψηλου πληθυσμου της. η
|
58 |
+
ασαφης κατανοηση και η αρνητικη σταση απεναντι'
|
59 |
+
- οσον αφορα τα ηλεκτρονικα εργαλεια και την τεχνολογια των πληροφοριων μπορουν
|
60 |
+
να χρησιμοποιηθουν για την ενισχυση της αποτελεσματικοτητας των διαδικασιων εντοπισμου
|
61 |
+
επαφης, και χρησιμοποιουνται επι του παροντος σε αυτες τις περιπτωσεις υγειας.
|
62 |
+
ωστοσο, το εν λογω εργατικο δυναμικο μπορει να κατακλυζεται γρηγορα στο πλαισιο
|
63 |
+
της εκτεταμενης μεταδοσης sars - cov - 2. τα ηλεκτρονικα εργαλεια και η τεχνολογια
|
64 |
+
πληροφοριων μπορουν να χρησιμοποιηθουν για την ενισχυση της αποτελεσματικοτητας
|
65 |
+
των υπηρεσιων εντοπισμου επαφων, καθως και για την αποφυγη της χρησης των εν λογω
|
66 |
+
εργαλειων. ψηφιακα εργαλεια που υποστηριζουν τις διαδικασιες εντοπισμου επαφων
|
67 |
+
μπορουν να χωριζονται σε γενικες γραμμες σε τρεις κατηγοριες που βασιζονται στη
|
68 |
+
λειτουργια δημοσιας υγειας κατα τη διαρκεια συγκεκριμενων σταδιων της διαδικασιας
|
69 |
+
εντοπισμου επαφων
|
70 |
+
- source_sentence: Σχετίζονται οι σύγχρονοι ιοί της γρίπης με τον ιό της ισπανικής
|
71 |
+
γρίπης του 1918;
|
72 |
+
sentences:
|
73 |
+
- '##bdtrp - m4hr ) και εχουμε κανει προκαταρκτικη ερευνα σχετικα με την ανασταλτικη
|
74 |
+
τους δραση εναντι των κυτταρων που διαμεσολαβουνται απο τον hiv - 1 env. συντηξη
|
75 |
+
16. στην παρουσα μελετη, σχεδιασαμε ενα νεο τεχνητο πεπτιδιο, το ap3 ( εικ. 1a
|
76 |
+
), με στοχο την εφαρμογη της δομης " m - t hook " για τη σταθεροποιηση της αλληλεπιδρασης
|
77 |
+
του τεχνητου πεπτιδιου με τον υδροφοβο θυλακα στο τριμερες gp41 nhr 17, 18. μετα
|
78 |
+
απο διεξοδικη μελετη της αντιικης του δρασης, της βιοχημικης'
|
79 |
+
- '##ου α σε 648 δειγματα κοπρανων διαφορετικων ζωικων ειδων απο τη βορειοανατολικη
|
80 |
+
μεσοπεριοχη της πολιτειας παρα της βραζιλιας, η οποια χαρακτηριζεται ως αστικοποιημενη
|
81 |
+
περιοχη με θραυσματα δασων. τα δειγματα κοπρανων συλλεχθηκαν απο τον οκτωβριο
|
82 |
+
του 2014 εως τον απριλιο του 2016 και υποβληθηκαν σε ποιοτικη αλυσιδωτη αντιδραση
|
83 |
+
πολυμερασης σε πραγματικο χρονο ( rt - qpcr ), χρησιμοποιωντας το γονιδιο nsp3
|
84 |
+
ως στοχο. παρατηρηθηκε οτι το 27, 5 % ( 178 / 648 ) των δειγματων παρουσιασε θετικα
|
85 |
+
αποτελεσματα για rva, με 178 δειγματα κατανεμημενα σε πτηνα ( 23, 6 % ), κυνοδοντες'
|
86 |
+
- ( 7 ). ο αντικτυπος αυτης της πανδημιας δεν περιοριστηκε στο 191871919. ολες οι
|
87 |
+
πανδημιες γριπης α απο εκεινη την εποχη, και μαλιστα σχεδον ολες οι περιπτωσεις
|
88 |
+
γριπης α παγκοσμιως ( εκτος απο τις ανθρωπινες μολυνσεις απο ιους των πτηνων οπως
|
89 |
+
ο h5n1 και ο h7n7 ), εχουν προκληθει απο απογονους του ιου του 1918, συμπεριλαμβανομενων
|
90 |
+
των « παρασυρομενων » ιων h1n1 hn2n2 και των ιων h2n2. ιους. τα τελευταια αποτελουνται
|
91 |
+
απο βασικα γονιδια απο τον ιο του 1918, ενημερωμενα απο ενσωματωμενα στη συνεχεια
|
92 |
+
γονιδια
|
93 |
+
- source_sentence: Ποια είναι η θέση της ΠΟΥ σχετικά με τη χρήση του φυτικού υλικού
|
94 |
+
Artemisia για την πρόληψη ή τη θεραπεία της ελονοσίας ή/και COVID-19;
|
95 |
+
sentences:
|
96 |
+
- 'αποφασιζοντας να κλεισουν, να κλεισουν εν μερει η να ανοιξουν ξανα σχολεια θα
|
97 |
+
πρεπει να καθοδηγηθουν απο μια προσεγγιση με βαση τον κινδυνο, να μεγιστοποιηθουν
|
98 |
+
τα εκπαιδευτικα, ευεξια και υγεια για τους μαθητες, τους εκπαιδευτικους, το προσωπικο
|
99 |
+
και την ευρυτερη κοινοτητα, και να συμβαλουν στην προληψη μιας νεας εστιας covid
|
100 |
+
- 19 στην κοινοτητα. πολλα στοιχεια θα πρεπει να αξιολογουνται για την αποφαση
|
101 |
+
για την επανενωση των σχολειων η τη διατηρηση τους ανοικτα : η επανεκπαιδευση
|
102 |
+
του covid - 19 σε τοπικο επιπεδο : αυτο μπορει να διαφερει απο το ενα μερος σε
|
103 |
+
αλλο σε μια χωραπλεονεκτηματα και κινδυνοι : ποια ειναι τα πιθανα οφελη και'
|
104 |
+
- οι πιο ευρεως χρησιμοποιουμενες αντιμαλατικες θεραπειες, θεραπειες συνδυασμου
|
105 |
+
με βαση την αρτεμισινη ( acts ), παραγονται χρησιμοποιωντας την καθαρη ενωση αρτεμισινινης
|
106 |
+
που εξαγεται απο το φυτο artemisia annua. υπηρξαν αναφορες οτι τα προιοντα η τα
|
107 |
+
εκχυλισματα ( π. χ. φυτικα τσαι η δισκια ) που παραγονται απο το φυτικο υλικο
|
108 |
+
artemisia μπορει να εχουν προληπτικη η θεραπευτικη επιδραση στο covid - 19. ωστοσο,
|
109 |
+
τα διαθεσιμα in vitro στοιχεια δειχνουν οτι τα καθαρισμενα προιοντα αρτεμισινινης
|
110 |
+
η a. annua φυτικα προιοντα η εκχυλισματα δεν εχουν σημαντικη επιδραση κατα του
|
111 |
+
covid - 19 σε συγκεντρωσεις που
|
112 |
+
- την ανιχνευση της θερμοκρασιας του σωματος των επιβατων που φευγουν απο τη γουχαν
|
113 |
+
σε αεροδρομια, σιδηροδρομικους σταθμους, σταθμους λεωφορειων μεγαλων αποστασεων
|
114 |
+
και τερματικους σταθμους επιβατων. απο τις 17 ιανουαριου, συνολικα σχεδον 0, 3
|
115 |
+
εκατομμυρια ανθρωποι ειχαν δοκιμαστει για τη θερμοκρασια του σωματος [ 23 ]. στη
|
116 |
+
γουχαν, υπαρχουν περιπου 2, 87 εκατομμυρια μετακινουμενος πληθυσμος [ 24 ]. υποθεσαμε
|
117 |
+
οτι 0, 1 εκατομμυρια ανθρωποι μετακινουνταν στην πολη της γουχαν την ημερα απο
|
118 |
+
τις 10 ιανουαριου 2020 και πιστευουμε οτι αυτος ο αριθμος θα αυξανοταν ( κυριως
|
119 |
+
λογω των χειμερινων διακοπων και των διακοπων της κινεζικης πρωτοχρονιας ) μεχρι
|
120 |
+
τις 24 ιανουαριου
|
121 |
+
- source_sentence: Η WHO συνιστά την υδροξυχλωροκίνη ως θεραπεία για το COVID-19;
|
122 |
+
sentences:
|
123 |
+
- ολα τα εμβολια με χρηση εκτακτης αναγκης who ειναι εξαιρετικα αποτελεσματικα στην
|
124 |
+
προληψη σοβαρων ασθενειων, νοσηλειας και θανατου λογω covid - 19. θα πρεπει να
|
125 |
+
αποδεχτειτε το εμβολιο που προσφερονται πρωτα και να εμβολιαστειτε αμεσως μολις
|
126 |
+
ειναι η σειρα σας για τη μειωση του κινδυνου σας. μην καθυστερησετε να εμβολιαστειτε,
|
127 |
+
εκτος εαν σας συμβουλευσει ο παροχος υγειονομικης περιθαλψης σας, καθως αυτο θα
|
128 |
+
μπορουσε να σας θεσει σε κινδυνο covid - 19. το getting εμβολιαζομενο θα μπορουσε
|
129 |
+
να σας σωσει τη ζωη. τον απριλιο 2020, who δημοσιευσε τα ελαχιστα κριτηρια για
|
130 |
+
το ποσο αποτελεσματικα εμβολια covid - 19 θα πρεπει να ειναι για
|
131 |
+
- βαση για την εναρξη περαιτερω μελετων σχετικα με την παθογενεση και τη βελτιστοποιηση
|
132 |
+
του σχεδιασμου των διαγνωστικων, αντιικων και εμβολιαστικων στρατηγικων για αυτην
|
133 |
+
την αναδυομενη μολυνση. η υποοικογενεια coronavirinae, οικογενεια coronavirdiae,
|
134 |
+
ταξη nidovirales. υπαρχουν τεσσερα γενη covs, συγκεκριμενα, ο αλφακορωνοιος (
|
135 |
+
αcov ), ο βητα κορωνοιος ( βcov ), ο δελτακορωνοιος ( δcov ) και ο γαμμακορωνοιος
|
136 |
+
( γcov ) [ 1 ]. εξελικτικες αναλυσεις εχουν
|
137 |
+
- η συσταση αυτη βασιζεται σε 30 δοκιμες με περισσοτερους απο 10 000 ασθενεις με
|
138 |
+
covid - 19. η υδροξυχλωροκινη δεν μειωσε τη θνησιμοτητα, την αναγκη η τη διαρκεια
|
139 |
+
του μηχανικου εξαερισμου. η ληψη υδροξυχλωροκινης για τη θεραπεια του covid -
|
140 |
+
19 μπορει να αυξησει τον κινδυνο καρδιακων προβληματων, διαταραχων του αιματος
|
141 |
+
και των λεμφαδενων, νεφρικων βλαβων, ηπατικων προβληματων και ανεπαρκειας. περισσοτερες
|
142 |
+
πληροφοριες μπορουν να βρεθουν εδω. ωστοσο, τα υδροξυχλωροκινη και τα χλωροκινη
|
143 |
+
ειναι ασφαλη για χρηση σε ασθενεις με αυτοανοσες ασθενειες η ελονοσια ( οχι covid
|
144 |
+
- 19 ).
|
145 |
+
---
|
146 |
+
|
147 |
+
# SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
|
148 |
+
|
149 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2). It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
150 |
+
|
151 |
+
## Model Details
|
152 |
+
|
153 |
+
### Model Description
|
154 |
+
- **Model Type:** Sentence Transformer
|
155 |
+
- **Base model:** [sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2) <!-- at revision bf3bf13ab40c3157080a7ab344c831b9ad18b5eb -->
|
156 |
+
- **Maximum Sequence Length:** 128 tokens
|
157 |
+
- **Output Dimensionality:** 384 tokens
|
158 |
+
- **Similarity Function:** Cosine Similarity
|
159 |
+
<!-- - **Training Dataset:** Unknown -->
|
160 |
+
<!-- - **Language:** Unknown -->
|
161 |
+
<!-- - **License:** Unknown -->
|
162 |
+
|
163 |
+
### Model Sources
|
164 |
+
|
165 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
166 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
167 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
168 |
+
|
169 |
+
### Full Model Architecture
|
170 |
+
|
171 |
+
```
|
172 |
+
SentenceTransformer(
|
173 |
+
(0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel
|
174 |
+
(1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
175 |
+
)
|
176 |
+
```
|
177 |
+
|
178 |
+
## Usage
|
179 |
+
|
180 |
+
### Direct Usage (Sentence Transformers)
|
181 |
+
|
182 |
+
First install the Sentence Transformers library:
|
183 |
+
|
184 |
+
```bash
|
185 |
+
pip install -U sentence-transformers
|
186 |
+
```
|
187 |
+
|
188 |
+
Then you can load this model and run inference.
|
189 |
+
```python
|
190 |
+
from sentence_transformers import SentenceTransformer
|
191 |
+
|
192 |
+
# Download from the 🤗 Hub
|
193 |
+
model = SentenceTransformer("panosgriz/covid_el_paraphrase-multilingual-MiniLM-L12-v2")
|
194 |
+
# Run inference
|
195 |
+
sentences = [
|
196 |
+
'Η WHO συνιστά την υδροξυχλωροκίνη ως θεραπεία για το COVID-19;',
|
197 |
+
'η συσταση αυτη βασιζεται σε 30 δοκιμες με περισσοτερους απο 10 000 ασθενεις με covid - 19. η υδροξυχλωροκινη δεν μειωσε τη θνησιμοτητα, την αναγκη η τη διαρκεια του μηχανικου εξαερισμου. η ληψη υδροξυχλωροκινης για τη θεραπεια του covid - 19 μπορει να αυξησει τον κινδυνο καρδιακων προβληματων, διαταραχων του αιματος και των λεμφαδενων, νεφρικων βλαβων, ηπατικων προβληματων και ανεπαρκειας. περισσοτερες πληροφοριες μπορουν να βρεθουν εδω. ωστοσο, τα υδροξυχλωροκινη και τα χλωροκινη ειναι ασφαλη για χρηση σε ασθ��νεις με αυτοανοσες ασθενειες η ελονοσια ( οχι covid - 19 ).',
|
198 |
+
'ολα τα εμβολια με χρηση εκτακτης αναγκης who ειναι εξαιρετικα αποτελεσματικα στην προληψη σοβαρων ασθενειων, νοσηλειας και θανατου λογω covid - 19. θα πρεπει να αποδεχτειτε το εμβολιο που προσφερονται πρωτα και να εμβολιαστειτε αμεσως μολις ειναι η σειρα σας για τη μειωση του κινδυνου σας. μην καθυστερησετε να εμβολιαστειτε, εκτος εαν σας συμβουλευσει ο παροχος υγειονομικης περιθαλψης σας, καθως αυτο θα μπορουσε να σας θεσει σε κινδυνο covid - 19. το getting εμβολιαζομενο θα μπορουσε να σας σωσει τη ζωη. τον απριλιο 2020, who δημοσιευσε τα ελαχιστα κριτηρια για το ποσο αποτελεσματικα εμβολια covid - 19 θα πρεπει να ειναι για',
|
199 |
+
]
|
200 |
+
embeddings = model.encode(sentences)
|
201 |
+
print(embeddings.shape)
|
202 |
+
# [3, 384]
|
203 |
+
|
204 |
+
# Get the similarity scores for the embeddings
|
205 |
+
similarities = model.similarity(embeddings, embeddings)
|
206 |
+
print(similarities.shape)
|
207 |
+
# [3, 3]
|
208 |
+
```
|
209 |
+
|
210 |
+
<!--
|
211 |
+
### Direct Usage (Transformers)
|
212 |
+
|
213 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
214 |
+
|
215 |
+
</details>
|
216 |
+
-->
|
217 |
+
|
218 |
+
<!--
|
219 |
+
### Downstream Usage (Sentence Transformers)
|
220 |
+
|
221 |
+
You can finetune this model on your own dataset.
|
222 |
+
|
223 |
+
<details><summary>Click to expand</summary>
|
224 |
+
|
225 |
+
</details>
|
226 |
+
-->
|
227 |
+
|
228 |
+
<!--
|
229 |
+
### Out-of-Scope Use
|
230 |
+
|
231 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
232 |
+
-->
|
233 |
+
|
234 |
+
<!--
|
235 |
+
## Bias, Risks and Limitations
|
236 |
+
|
237 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
238 |
+
-->
|
239 |
+
|
240 |
+
<!--
|
241 |
+
### Recommendations
|
242 |
+
|
243 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
244 |
+
-->
|
245 |
+
|
246 |
+
## Training Details
|
247 |
+
|
248 |
+
### Training Dataset
|
249 |
+
|
250 |
+
#### Unnamed Dataset
|
251 |
+
|
252 |
+
|
253 |
+
* Size: 1,440 training samples
|
254 |
+
* Columns: <code>sentence_0</code>, <code>sentence_1</code>, <code>sentence_2</code>, and <code>label</code>
|
255 |
+
* Approximate statistics based on the first 1000 samples:
|
256 |
+
| | sentence_0 | sentence_1 | sentence_2 | label |
|
257 |
+
|:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:-----------------------------------|
|
258 |
+
| type | string | string | string | list |
|
259 |
+
| details | <ul><li>min: 7 tokens</li><li>mean: 22.63 tokens</li><li>max: 60 tokens</li></ul> | <ul><li>min: 11 tokens</li><li>mean: 123.43 tokens</li><li>max: 128 tokens</li></ul> | <ul><li>min: 38 tokens</li><li>mean: 125.83 tokens</li><li>max: 128 tokens</li></ul> | <ul><li>size: 2 elements</li></ul> |
|
260 |
+
* Samples:
|
261 |
+
| sentence_0 | sentence_1 | sentence_2 | label |
|
262 |
+
|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------|
|
263 |
+
| <code>Τι είναι το Tamiflu;</code> | <code>/ h3n2 ) " ειχαν ως αποτελεσμα τον θανατο περιπου 2 - 3 εκατομμυριων ανθρωπων παγκοσμιως [ 1, 2 ]. σημερα, οι απογονοι τους συνεχιζουν να προκαλουν την πλειονοτητα των λοιμωξεων απο γριπη στους ανθρωπους [ 3 ]. απο οσο εχει μαθευτει οτι το πιο αποτελεσματικο αντιικο φαρμακο ειναι ο αναστολεας της νευραμινιδασης ( na ), ο οποιος στοχευει τις γλυκοπρωτεινες να του ιου της γριπης α και β [ 4, 5 ]. η απελευθερωση νεων ιοσωματων απο το μολυσμενο κυτταρο ειναι ενα βασικο βημα στον κυκλο ζωης της γριπης και χρειαζονται νευραμινιδαση ( na ) για να</code> | <code>επειδη μπορει να δαπανατε ακομη περισσοτερο χρονο online απο ο, τι πριν, ειναι σοφο να γνωριζετε μερικους απο τους κινδυνους. πρωτα, να ειστε προσεκτικοι τι περιεχομενο μοιραζεστε online. επικινδυνη συμπεριφορα, οπως sexting η ανταλλαγη σεξουαλικου περιεχομενου, μπορει να σας εκθεσει σε κινδυνους εκβιασμου, παρενοχλησης και ταπεινωσης. δευτερον, δαπανωντας περισσοτερο χρονο σε απευθειας συνδεση μπορει να αυξησει τις πιθανοτητες οτι θα μπορουσε να ερθει σε επαφη με online θηρευτες που επιδιωκουν σεξουαλικα εκμεταλλευση των νεων ανθρωπων. οταν μπροστα απο καμερες φορουν καταλληλα ρουχα και να αποφευχθει η χρηση ιδιωτικων υπηρεσιων αμεσης ανταλλαγης μηνυματων στην επικοινωνια σας με τους δασκαλους. επιπλεον, ειναι σημαντικο να σημειωθει</code> | <code>[0.01247549057006836, -0.0069751739501953125]</code> |
|
264 |
+
| <code>Τα κορτικοστεροειδή έχουν παρενέργειες;</code> | <code>οταν λαμβανονται για συντομο χρονικο διαστημα, τα κορτικοστεροειδη ειναι γενικα ασφαλη και δεν σχετιζονται με σοβαρες ανεπιθυμητες ενεργειες. τα κορτικοστεροειδη μπορουν να αυξησουν τα επιπεδα γλυκοζης στο αιμα σε ασθενεις και συνισταται σε ολα τα ατομα να παρακολουθουν το σακχαρο του αιματος τους. οι πιθανες επιπλοκες απο κορτικοστεροειδη περιλαμβανουν κακη επουλωση τραυματος, ανοσοκαταστολη ( που μπορει να αυξησει τον κινδυνο για αλλες λοιμωξεις ) και αυξημενο σακχαρο στο αιμα, το οποιο εαν δεν παρακολουθειται μπορει να οδηγησει σε διαβητικη κετοξεωση η μη ελεγχομενο διαβητη. οταν χρησιμοποιειται για μια περιοδο μεγαλυτερη των δυο εβδομαδων, τα κορτικοστεροειδη μπορει να σχετιζονται</code> | <code>αν ενα παιδι πρεπει να παει στο σχολειο εξαρταται απο την κατασταση της υγειας του, την τρεχουσα μεταδοση του covid - 19 στην κοινοτητα του, και τα προστατευτικα μετρα που εχει θεσπισει το σχολειο και η κοινοτητα για να μειωσει τον κινδυνο μεταδοσης covid - 19. ενω τα τρεχοντα στοιχεια δειχνουν οτι ο κινδυνος σοβαρης ασθενειας για τα παιδια ειναι μικροτερος συνολικα απο ο, τι για τους ενηλικες, μπορουν να ληφθουν ειδικες προφυλαξεις για την ελαχιστοποιηση του κινδυνου μολυνσης μεταξυ των παιδιων, και τα οφελη της επιστροφης στο σχολειο θα πρεπει επισης να εξεταστουν. συγκεκριμενα στοιχεια δειχνουν οτι τα ατομα με υποκειμενες παθησεις οπως το χρονιο αναπνευστικο ασθμα ( μεσαιο εως</code> | <code>[-8.302862167358398, 7.267459869384766]</code> |
|
265 |
+
| <code>8. Τι μπορώ να κάνω για να προστατεύσω τον εαυτό μου από παραλλαγές;</code> | <code>για να προστατεψετε τον εαυτο σας και αλλους απο τις παραλλαγες covid - 19 : κρατηστε αποσταση τουλαχιστον 1 μετρο απο τους αλλουςφορεσε μια καλα εξοπλισμενη μασκα πανω απο το στομα και τη μυτη σουανοιξτε τα παραθυραβηχας η φτερνισου σε ενα λυγισμενο αγκωνα η ιστοκαθαριστε τα χερια σας συχναπροσεξτε να εμβολιαστειτε, μολις ειναι η σειρα σας</code> | <code>. τα αποτελεσματα της ερευνας παρεχουν ακριβεστερες εκτιμησεις για τα ποσοστα επιπολασμου της φυματιωσης απο ο, τι εκτιμα ο που και μπορουν να χρησιμοποιηθουν για την αξιολογηση της πιθανοτητας η κινα να επιτυχει παγκοσμιους στοχους για τον επιπολασμο της φυματιωσης. η επαρχια σαντονγκ εχει πληθυσμο 94 εκατομμυριων. ειναι μια σχετικα ανεπτυγμενη επαρχια με κατα κεφαλην αεπ 1, 6 φορες τον εθνικο μεσο ορο το 2010 [ 5 ]. το ποσοστο επικρατησης της φυματιωσης στο shandong ηταν χαμηλοτερο σε συγκριση με το μεσο ποσοστο της κινας το 2000 [ 3 ]. αντιπροσωπευτικα δειγματα πληθυσμου ληφθηκαν</code> | <code>[-8.404379844665527, 7.3363752365112305]</code> |
|
266 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
267 |
+
```json
|
268 |
+
{
|
269 |
+
"scale": 20.0,
|
270 |
+
"similarity_fct": "cos_sim"
|
271 |
+
}
|
272 |
+
```
|
273 |
+
|
274 |
+
### Training Hyperparameters
|
275 |
+
#### Non-Default Hyperparameters
|
276 |
+
|
277 |
+
- `per_device_train_batch_size`: 16
|
278 |
+
- `per_device_eval_batch_size`: 16
|
279 |
+
- `num_train_epochs`: 20
|
280 |
+
- `multi_dataset_batch_sampler`: round_robin
|
281 |
+
|
282 |
+
#### All Hyperparameters
|
283 |
+
<details><summary>Click to expand</summary>
|
284 |
+
|
285 |
+
- `overwrite_output_dir`: False
|
286 |
+
- `do_predict`: False
|
287 |
+
- `prediction_loss_only`: True
|
288 |
+
- `per_device_train_batch_size`: 16
|
289 |
+
- `per_device_eval_batch_size`: 16
|
290 |
+
- `per_gpu_train_batch_size`: None
|
291 |
+
- `per_gpu_eval_batch_size`: None
|
292 |
+
- `gradient_accumulation_steps`: 1
|
293 |
+
- `eval_accumulation_steps`: None
|
294 |
+
- `learning_rate`: 5e-05
|
295 |
+
- `weight_decay`: 0.0
|
296 |
+
- `adam_beta1`: 0.9
|
297 |
+
- `adam_beta2`: 0.999
|
298 |
+
- `adam_epsilon`: 1e-08
|
299 |
+
- `max_grad_norm`: 1
|
300 |
+
- `num_train_epochs`: 20
|
301 |
+
- `max_steps`: -1
|
302 |
+
- `lr_scheduler_type`: linear
|
303 |
+
- `lr_scheduler_kwargs`: {}
|
304 |
+
- `warmup_ratio`: 0.0
|
305 |
+
- `warmup_steps`: 0
|
306 |
+
- `log_level`: passive
|
307 |
+
- `log_level_replica`: warning
|
308 |
+
- `log_on_each_node`: True
|
309 |
+
- `logging_nan_inf_filter`: True
|
310 |
+
- `save_safetensors`: True
|
311 |
+
- `save_on_each_node`: False
|
312 |
+
- `save_only_model`: False
|
313 |
+
- `no_cuda`: False
|
314 |
+
- `use_cpu`: False
|
315 |
+
- `use_mps_device`: False
|
316 |
+
- `seed`: 42
|
317 |
+
- `data_seed`: None
|
318 |
+
- `jit_mode_eval`: False
|
319 |
+
- `use_ipex`: False
|
320 |
+
- `bf16`: False
|
321 |
+
- `fp16`: False
|
322 |
+
- `fp16_opt_level`: O1
|
323 |
+
- `half_precision_backend`: auto
|
324 |
+
- `bf16_full_eval`: False
|
325 |
+
- `fp16_full_eval`: False
|
326 |
+
- `tf32`: None
|
327 |
+
- `local_rank`: 0
|
328 |
+
- `ddp_backend`: None
|
329 |
+
- `tpu_num_cores`: None
|
330 |
+
- `tpu_metrics_debug`: False
|
331 |
+
- `debug`: []
|
332 |
+
- `dataloader_drop_last`: False
|
333 |
+
- `dataloader_num_workers`: 0
|
334 |
+
- `dataloader_prefetch_factor`: None
|
335 |
+
- `past_index`: -1
|
336 |
+
- `disable_tqdm`: False
|
337 |
+
- `remove_unused_columns`: True
|
338 |
+
- `label_names`: None
|
339 |
+
- `load_best_model_at_end`: False
|
340 |
+
- `ignore_data_skip`: False
|
341 |
+
- `fsdp`: []
|
342 |
+
- `fsdp_min_num_params`: 0
|
343 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
344 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
345 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True}
|
346 |
+
- `deepspeed`: None
|
347 |
+
- `label_smoothing_factor`: 0.0
|
348 |
+
- `optim`: adamw_torch
|
349 |
+
- `optim_args`: None
|
350 |
+
- `adafactor`: False
|
351 |
+
- `group_by_length`: False
|
352 |
+
- `length_column_name`: length
|
353 |
+
- `ddp_find_unused_parameters`: None
|
354 |
+
- `ddp_bucket_cap_mb`: None
|
355 |
+
- `ddp_broadcast_buffers`: False
|
356 |
+
- `dataloader_pin_memory`: True
|
357 |
+
- `dataloader_persistent_workers`: False
|
358 |
+
- `skip_memory_metrics`: True
|
359 |
+
- `use_legacy_prediction_loop`: False
|
360 |
+
- `push_to_hub`: False
|
361 |
+
- `resume_from_checkpoint`: None
|
362 |
+
- `hub_model_id`: None
|
363 |
+
- `hub_strategy`: every_save
|
364 |
+
- `hub_private_repo`: False
|
365 |
+
- `hub_always_push`: False
|
366 |
+
- `gradient_checkpointing`: False
|
367 |
+
- `gradient_checkpointing_kwargs`: None
|
368 |
+
- `include_inputs_for_metrics`: False
|
369 |
+
- `fp16_backend`: auto
|
370 |
+
- `push_to_hub_model_id`: None
|
371 |
+
- `push_to_hub_organization`: None
|
372 |
+
- `mp_parameters`:
|
373 |
+
- `auto_find_batch_size`: False
|
374 |
+
- `full_determinism`: False
|
375 |
+
- `torchdynamo`: None
|
376 |
+
- `ray_scope`: last
|
377 |
+
- `ddp_timeout`: 1800
|
378 |
+
- `torch_compile`: False
|
379 |
+
- `torch_compile_backend`: None
|
380 |
+
- `torch_compile_mode`: None
|
381 |
+
- `dispatch_batches`: None
|
382 |
+
- `split_batches`: None
|
383 |
+
- `include_tokens_per_second`: False
|
384 |
+
- `include_num_input_tokens_seen`: False
|
385 |
+
- `neftune_noise_alpha`: None
|
386 |
+
- `optim_target_modules`: None
|
387 |
+
- `batch_sampler`: batch_sampler
|
388 |
+
- `multi_dataset_batch_sampler`: round_robin
|
389 |
+
|
390 |
+
</details>
|
391 |
+
|
392 |
+
### Training Logs
|
393 |
+
| Epoch | Step | Training Loss |
|
394 |
+
|:-------:|:----:|:-------------:|
|
395 |
+
| 5.5556 | 500 | 0.7188 |
|
396 |
+
| 11.1111 | 1000 | 0.0506 |
|
397 |
+
| 16.6667 | 1500 | 0.0161 |
|
398 |
+
|
399 |
+
|
400 |
+
### Framework Versions
|
401 |
+
- Python: 3.8.10
|
402 |
+
- Sentence Transformers: 3.0.1
|
403 |
+
- Transformers: 4.39.3
|
404 |
+
- PyTorch: 2.3.1+cu118
|
405 |
+
- Accelerate: 0.30.1
|
406 |
+
- Datasets: 2.20.0
|
407 |
+
- Tokenizers: 0.15.2
|
408 |
+
|
409 |
+
## Citation
|
410 |
+
|
411 |
+
### BibTeX
|
412 |
+
|
413 |
+
#### Sentence Transformers
|
414 |
+
```bibtex
|
415 |
+
@inproceedings{reimers-2019-sentence-bert,
|
416 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
417 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
418 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
419 |
+
month = "11",
|
420 |
+
year = "2019",
|
421 |
+
publisher = "Association for Computational Linguistics",
|
422 |
+
url = "https://arxiv.org/abs/1908.10084",
|
423 |
+
}
|
424 |
+
```
|
425 |
+
|
426 |
+
#### MultipleNegativesRankingLoss
|
427 |
+
```bibtex
|
428 |
+
@misc{henderson2017efficient,
|
429 |
+
title={Efficient Natural Language Response Suggestion for Smart Reply},
|
430 |
+
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
|
431 |
+
year={2017},
|
432 |
+
eprint={1705.00652},
|
433 |
+
archivePrefix={arXiv},
|
434 |
+
primaryClass={cs.CL}
|
435 |
+
}
|
436 |
+
```
|
437 |
+
|
438 |
+
<!--
|
439 |
+
## Glossary
|
440 |
+
|
441 |
+
*Clearly define terms in order to be accessible across audiences.*
|
442 |
+
-->
|
443 |
+
|
444 |
+
<!--
|
445 |
+
## Model Card Authors
|
446 |
+
|
447 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
448 |
+
-->
|
449 |
+
|
450 |
+
<!--
|
451 |
+
## Model Card Contact
|
452 |
+
|
453 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
454 |
+
-->
|
config.json
ADDED
@@ -0,0 +1,26 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_name_or_path": "/home/pgriziotis/thesis/qa-subsystem/dev/retriever/adapted_retriever",
|
3 |
+
"architectures": [
|
4 |
+
"BertModel"
|
5 |
+
],
|
6 |
+
"attention_probs_dropout_prob": 0.1,
|
7 |
+
"classifier_dropout": null,
|
8 |
+
"gradient_checkpointing": false,
|
9 |
+
"hidden_act": "gelu",
|
10 |
+
"hidden_dropout_prob": 0.1,
|
11 |
+
"hidden_size": 384,
|
12 |
+
"initializer_range": 0.02,
|
13 |
+
"intermediate_size": 1536,
|
14 |
+
"layer_norm_eps": 1e-12,
|
15 |
+
"max_position_embeddings": 512,
|
16 |
+
"model_type": "bert",
|
17 |
+
"num_attention_heads": 12,
|
18 |
+
"num_hidden_layers": 12,
|
19 |
+
"pad_token_id": 0,
|
20 |
+
"position_embedding_type": "absolute",
|
21 |
+
"torch_dtype": "float32",
|
22 |
+
"transformers_version": "4.39.3",
|
23 |
+
"type_vocab_size": 2,
|
24 |
+
"use_cache": true,
|
25 |
+
"vocab_size": 250037
|
26 |
+
}
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"__version__": {
|
3 |
+
"sentence_transformers": "3.0.1",
|
4 |
+
"transformers": "4.39.3",
|
5 |
+
"pytorch": "2.3.1+cu118"
|
6 |
+
},
|
7 |
+
"prompts": {},
|
8 |
+
"default_prompt_name": null,
|
9 |
+
"similarity_fn_name": null
|
10 |
+
}
|
model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:2fa639dfdf16ddef0377f09560de2114abba9b7971d94129ee6df98d1d3d78a3
|
3 |
+
size 470637416
|
modules.json
ADDED
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
}
|
14 |
+
]
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 128,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
special_tokens_map.json
ADDED
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"bos_token": {
|
3 |
+
"content": "<s>",
|
4 |
+
"lstrip": false,
|
5 |
+
"normalized": false,
|
6 |
+
"rstrip": false,
|
7 |
+
"single_word": false
|
8 |
+
},
|
9 |
+
"cls_token": {
|
10 |
+
"content": "<s>",
|
11 |
+
"lstrip": false,
|
12 |
+
"normalized": false,
|
13 |
+
"rstrip": false,
|
14 |
+
"single_word": false
|
15 |
+
},
|
16 |
+
"eos_token": {
|
17 |
+
"content": "</s>",
|
18 |
+
"lstrip": false,
|
19 |
+
"normalized": false,
|
20 |
+
"rstrip": false,
|
21 |
+
"single_word": false
|
22 |
+
},
|
23 |
+
"mask_token": {
|
24 |
+
"content": "<mask>",
|
25 |
+
"lstrip": true,
|
26 |
+
"normalized": false,
|
27 |
+
"rstrip": false,
|
28 |
+
"single_word": false
|
29 |
+
},
|
30 |
+
"pad_token": {
|
31 |
+
"content": "<pad>",
|
32 |
+
"lstrip": false,
|
33 |
+
"normalized": false,
|
34 |
+
"rstrip": false,
|
35 |
+
"single_word": false
|
36 |
+
},
|
37 |
+
"sep_token": {
|
38 |
+
"content": "</s>",
|
39 |
+
"lstrip": false,
|
40 |
+
"normalized": false,
|
41 |
+
"rstrip": false,
|
42 |
+
"single_word": false
|
43 |
+
},
|
44 |
+
"unk_token": {
|
45 |
+
"content": "<unk>",
|
46 |
+
"lstrip": false,
|
47 |
+
"normalized": false,
|
48 |
+
"rstrip": false,
|
49 |
+
"single_word": false
|
50 |
+
}
|
51 |
+
}
|
tokenizer.json
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:fa685fc160bbdbab64058d4fc91b60e62d207e8dc60b9af5c002c5ab946ded00
|
3 |
+
size 17083009
|
tokenizer_config.json
ADDED
@@ -0,0 +1,64 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"added_tokens_decoder": {
|
3 |
+
"0": {
|
4 |
+
"content": "<s>",
|
5 |
+
"lstrip": false,
|
6 |
+
"normalized": false,
|
7 |
+
"rstrip": false,
|
8 |
+
"single_word": false,
|
9 |
+
"special": true
|
10 |
+
},
|
11 |
+
"1": {
|
12 |
+
"content": "<pad>",
|
13 |
+
"lstrip": false,
|
14 |
+
"normalized": false,
|
15 |
+
"rstrip": false,
|
16 |
+
"single_word": false,
|
17 |
+
"special": true
|
18 |
+
},
|
19 |
+
"2": {
|
20 |
+
"content": "</s>",
|
21 |
+
"lstrip": false,
|
22 |
+
"normalized": false,
|
23 |
+
"rstrip": false,
|
24 |
+
"single_word": false,
|
25 |
+
"special": true
|
26 |
+
},
|
27 |
+
"3": {
|
28 |
+
"content": "<unk>",
|
29 |
+
"lstrip": false,
|
30 |
+
"normalized": false,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false,
|
33 |
+
"special": true
|
34 |
+
},
|
35 |
+
"250001": {
|
36 |
+
"content": "<mask>",
|
37 |
+
"lstrip": true,
|
38 |
+
"normalized": false,
|
39 |
+
"rstrip": false,
|
40 |
+
"single_word": false,
|
41 |
+
"special": true
|
42 |
+
}
|
43 |
+
},
|
44 |
+
"bos_token": "<s>",
|
45 |
+
"clean_up_tokenization_spaces": true,
|
46 |
+
"cls_token": "<s>",
|
47 |
+
"do_lower_case": true,
|
48 |
+
"eos_token": "</s>",
|
49 |
+
"mask_token": "<mask>",
|
50 |
+
"max_length": 128,
|
51 |
+
"model_max_length": 128,
|
52 |
+
"pad_to_multiple_of": null,
|
53 |
+
"pad_token": "<pad>",
|
54 |
+
"pad_token_type_id": 0,
|
55 |
+
"padding_side": "right",
|
56 |
+
"sep_token": "</s>",
|
57 |
+
"stride": 0,
|
58 |
+
"strip_accents": null,
|
59 |
+
"tokenize_chinese_chars": true,
|
60 |
+
"tokenizer_class": "BertTokenizer",
|
61 |
+
"truncation_side": "right",
|
62 |
+
"truncation_strategy": "longest_first",
|
63 |
+
"unk_token": "<unk>"
|
64 |
+
}
|
unigram.json
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:da145b5e7700ae40f16691ec32a0b1fdc1ee3298db22a31ea55f57a966c4a65d
|
3 |
+
size 14763260
|