Spaces:

mteb
/

leaderboard

Running on CPU Upgrade

App Files Files Community

144

Tom Aarsen commited on Mar 29

Commit

6c6aac5

•

1 Parent(s): cfacdee

Add Sentence Transformers model type option

Browse files

Files changed (1) hide show

app.py +114 -9

app.py CHANGED Viewed

@@ -1003,6 +1003,104 @@ MODELS_TO_SKIP = {
     "Koat/gte-tiny",
 }
 def add_lang(examples):
     if not(examples["eval_language"]):
         examples["mteb_dataset_name_with_lang"] = examples["mteb_dataset_name"]
@@ -1170,6 +1268,8 @@ def get_mteb_data(tasks=["Clustering"], langs=[], datasets=[], fillna=True, add_
                 except:
                     pass
             df_list.append(out)
     df = pd.DataFrame(df_list)
     # If there are any models that are the same, merge them
     # E.g. if out["Model"] has the same value in two places, merge & take whichever one is not NaN else just take the first one
@@ -1863,22 +1963,21 @@ def update_url_language(event: gr.SelectData, current_task_language: dict, langu
 NUMERIC_INTERVALS = {
     "<100M": pd.Interval(0, 100, closed="right"),
-    ">100M, <250M": pd.Interval(100, 250, closed="right"),
-    ">250M, <500M": pd.Interval(250, 500, closed="right"),
-    ">500M, <1B": pd.Interval(500, 1000, closed="right"),
     ">1B": pd.Interval(1000, 1_000_000, closed="right"),
 }
 MODEL_TYPES = [
     "Open",
     "Proprietary",
 ]
 def filter_data(search_query, model_types, model_sizes, *full_dataframes):
     output_dataframes = []
     for df in full_dataframes:
-        # df = pd.DataFrame(data=dataframe.value["data"], columns=dataframe.value["headers"])
         # Apply the search query
         if search_query:
             names = df["Model"].map(lambda x: re.match("<a .+?>(.+)</a>", x).group(1))
@@ -1895,7 +1994,12 @@ def filter_data(search_query, model_types, model_sizes, *full_dataframes):
                     masks.append(df["Model Size (Million Parameters)"] != "")
                 elif model_type == "Proprietary":
                     masks.append(df["Model Size (Million Parameters)"] == "")
-            df = df[reduce(lambda a, b: a | b, masks)]
         # Apply the model size filtering
         if model_sizes != list(NUMERIC_INTERVALS.keys()):
@@ -1920,8 +2024,8 @@ with gr.Blocks(css=css) as block:
     with gr.Row():
         search_bar = gr.Textbox(
-            label="Search Bar",
-            placeholder=" 🔍 Search for your model (separate multiple queries with `;`) and press enter...",
         )
         filter_model_type = gr.CheckboxGroup(
             label="Model types",
@@ -1935,7 +2039,8 @@ with gr.Blocks(css=css) as block:
             choices=list(NUMERIC_INTERVALS.keys()),
             value=list(NUMERIC_INTERVALS.keys()),
             interactive=True,
-            elem_classes=["filter-checkbox-group"]
         )
     with gr.Tabs() as outer_tabs:

     "Koat/gte-tiny",
 }
+SENTENCE_TRANSFORMERS_COMPATIBLE_MODELS = {
+    "allenai-specter",
+    "allenai-specter",
+    "all-MiniLM-L12-v2",
+    "all-MiniLM-L6-v2",
+    "all-mpnet-base-v2",
+    "bert-base-10lang-cased",
+    "bert-base-15lang-cased",
+    "bert-base-25lang-cased",
+    "bert-base-multilingual-cased",
+    "bert-base-multilingual-uncased",
+    "bert-base-swedish-cased",
+    "bert-base-uncased",
+    "bge-base-zh-v1.5",
+    "bge-large-zh-v1.5",
+    "bge-large-zh-noinstruct",
+    "bge-small-zh-v1.5",
+    "camembert-base",
+    "camembert-large",
+    "contriever-base-msmarco",
+    "cross-en-de-roberta-sentence-transformer",
+    "DanskBERT",
+    "distilbert-base-25lang-cased",
+    "distilbert-base-en-fr-cased",
+    "distilbert-base-en-fr-es-pt-it-cased",
+    "distilbert-base-fr-cased",
+    "distilbert-base-uncased",
+    "distiluse-base-multilingual-cased-v2",
+    "dfm-encoder-large-v1",
+    "dfm-sentence-encoder-large-1",
+    "e5-base",
+    "e5-large",
+    "e5-mistral-7b-instruct",
+    "e5-small",
+    "electra-small-nordic",
+    "electra-small-swedish-cased-discriminator",
+    "flaubert_base_cased",
+    "flaubert_base_uncased",
+    "flaubert_large_cased",
+    "gbert-base",
+    "gbert-large",
+    "gelectra-base",
+    "gelectra-large",
+    "glove.6B.300d",
+    "gottbert-base",
+    "gtr-t5-base",
+    "gtr-t5-large",
+    "gtr-t5-xl",
+    "gtr-t5-xxl",
+    "herbert-base-retrieval-v2",
+    "komninos",
+    "luotuo-bert-medium",
+    "LaBSE",
+    "m3e-base",
+    "m3e-large",
+    "msmarco-bert-co-condensor",
+    "multi-qa-MiniLM-L6-cos-v1",
+    "multilingual-e5-base",
+    "multilingual-e5-large",
+    "multilingual-e5-small",
+    "nb-bert-base",
+    "nb-bert-large",
+    "nomic-embed-text-v1.5-64",
+    "nomic-embed-text-v1.5-128",
+    "nomic-embed-text-v1.5-256",
+    "nomic-embed-text-v1.5-512",
+    "norbert3-base",
+    "norbert3-large",
+    "paraphrase-multilingual-mpnet-base-v2",
+    "paraphrase-multilingual-MiniLM-L12-v2",
+    "sentence-camembert-base",
+    "sentence-camembert-large",
+    "sentence-croissant-llm-base",
+    "sentence-bert-swedish-cased",
+    "sentence-t5-base",
+    "sentence-t5-large",
+    "sentence-t5-xl",
+    "sentence-t5-xxl",
+    "silver-retriever-base-v1",
+    "sup-simcse-bert-base-uncased",
+    "st-polish-paraphrase-from-distilroberta",
+    "st-polish-paraphrase-from-mpnet",
+    "text2vec-base-chinese",
+    "text2vec-large-chinese",
+    "udever-bloom-1b1",
+    "udever-bloom-560m",
+    "universal-sentence-encoder-multilingual-3",
+    "universal-sentence-encoder-multilingual-large-3",
+    "unsup-simcse-bert-base-uncased",
+    "use-cmlm-multilingual",
+    "xlm-roberta-base",
+    "xlm-roberta-large",
+}
+SENTENCE_TRANSFORMERS_COMPATIBLE_MODELS = {
+    make_clickable_model(model, link=EXTERNAL_MODEL_TO_LINK.get(model, "https://huggingface.co/spaces/mteb/leaderboard"))
+    for model in SENTENCE_TRANSFORMERS_COMPATIBLE_MODELS
+}
 def add_lang(examples):
     if not(examples["eval_language"]):
         examples["mteb_dataset_name_with_lang"] = examples["mteb_dataset_name"]
                 except:
                     pass
             df_list.append(out)
+        if model.library_name == "sentence-transformers" or "sentence-transformers" in model.tags or "modules.json" in {file.rfilename for file in model.siblings}:
+            SENTENCE_TRANSFORMERS_COMPATIBLE_MODELS.add(out["Model"])
     df = pd.DataFrame(df_list)
     # If there are any models that are the same, merge them
     # E.g. if out["Model"] has the same value in two places, merge & take whichever one is not NaN else just take the first one
 NUMERIC_INTERVALS = {
     "<100M": pd.Interval(0, 100, closed="right"),
+    "100M to 250M": pd.Interval(100, 250, closed="right"),
+    "250M to 500M": pd.Interval(250, 500, closed="right"),
+    "500M to 1B": pd.Interval(500, 1000, closed="right"),
     ">1B": pd.Interval(1000, 1_000_000, closed="right"),
 }
 MODEL_TYPES = [
     "Open",
     "Proprietary",
+    "Sentence Transformers",
 ]
 def filter_data(search_query, model_types, model_sizes, *full_dataframes):
     output_dataframes = []
     for df in full_dataframes:
         # Apply the search query
         if search_query:
             names = df["Model"].map(lambda x: re.match("<a .+?>(.+)</a>", x).group(1))
                     masks.append(df["Model Size (Million Parameters)"] != "")
                 elif model_type == "Proprietary":
                     masks.append(df["Model Size (Million Parameters)"] == "")
+                elif model_type == "Sentence Transformers":
+                    masks.append(df["Model"].isin(SENTENCE_TRANSFORMERS_COMPATIBLE_MODELS))
+            if masks:
+                df = df[reduce(lambda a, b: a | b, masks)]
+            else:
+                df = pd.DataFrame(columns=df.columns)
         # Apply the model size filtering
         if model_sizes != list(NUMERIC_INTERVALS.keys()):
     with gr.Row():
         search_bar = gr.Textbox(
+            label="Search Bar (separate multiple queries with `;`)",
+            placeholder=" 🔍 Search for a model and press enter...",
         )
         filter_model_type = gr.CheckboxGroup(
             label="Model types",
             choices=list(NUMERIC_INTERVALS.keys()),
             value=list(NUMERIC_INTERVALS.keys()),
             interactive=True,
+            elem_classes=["filter-checkbox-group"],
+            scale=2,
         )
     with gr.Tabs() as outer_tabs: