Spaces:

acmc
/

Universities-Explorer

Running

App Files Files Community

acmc commited on Apr 14

Commit

115f2ee

•

1 Parent(s): 36c5b68

new model

Browse files

Files changed (5) hide show

app.py +40 -40
institutions.csv +0 -0
model/.data-00000-of-00001 +2 -2
model/.index +1 -1
model/model_metadata.ampkl +2 -2

app.py CHANGED Viewed

@@ -112,30 +112,30 @@ def process_user_input_concept(concept_chooser):
     # Now, average the similarities
     scores = np.stack(list(all_similarities.values()), axis=0)
-    scores = np.mean(all_similarities, axis=0)
     table_df = pd.DataFrame(
         {
-            "Institution": s,
-            "Mean similarity": scores.flatten(),
-            "Institution name": all_ids_institutions[:, 1],
             # "num_articles": all_ids_institutions[:, 2].astype(int),
         }
     )
     # Add the individual similarities
     for i, concept in enumerate(chosen_concepts):
-        table_df[f"Similarity to {chosen_concepts_names[i]}"] = all_similarities[concept]
     # Reorder the columns so that the mean similarity is after the individual similarities and before the institution name
     table_df = table_df[
-        ["Institution"]
-        + [f"Similarity to {chosen_concepts_names[i]}" for i in range(len(chosen_concepts))]
-        + ["Mean similarity", "Institution name"]
     ]
     # Sort by mean similarity
-    table_df = table_df.sort_values(by=["Mean similarity"], ascending=False)
     concept_names = [get_concept_name(concept_uri) for concept_uri in chosen_concepts]
     return (
@@ -151,7 +151,7 @@ def calculate_emdeddings_and_pca(table):
     gr.Info("Performing PCA and clustering...")
     # Perform PCA
     embeddings_of_institutions = model.get_embeddings(
-        entities=np.array(table["Institution"])
     )
     entity_embeddings_pca = pca(embeddings_of_institutions)
@@ -161,9 +161,9 @@ def calculate_emdeddings_and_pca(table):
     plot_df = pd.DataFrame(
         {
-            "Embedding (coord 1)": entity_embeddings_pca[:, 0],
-            "Embedding (coord 2)": entity_embeddings_pca[:, 1],
-            "Cluster": "Cluster" + pd.Series(clusters).astype(str),
         }
     )
@@ -173,16 +173,16 @@ def calculate_emdeddings_and_pca(table):
 def click_on_institution(table, embeddings_var, evt: gr.SelectData):
-    institution_id = table["Institution"][evt.index[0]]
     try:
         embeddings_df = embeddings_var["embeddings_df"]
         plot_df = pd.DataFrame(
             {
-                "Institution": table["Institution"].values,
-                "Institution name": table["Institution name"].values,
-                "Embedding (coord 1)": embeddings_df["Embedding (coord 1)"].values,
-                "Embedding (coord 2)": embeddings_df["Embedding (coord 2)"].values,
-                "Cluster": embeddings_df["Cluster"].values,
                 # "num_articles": table["num_articles"].values,
             }
         )
@@ -196,11 +196,11 @@ def click_on_show_plot(table):
     plot_df = pd.DataFrame(
         {
-            "Institution": table["Institution"].values,
-            "Institution_name": table["Institution Name"].values,
-            "Embedding (coord 1)": embeddings_df["Embedding (coord 1)"].values,
-            "Embedding (coord 2)": embeddings_df["Embedding (coord 2)"].values,
-            "Cluster": embeddings_df["Cluster"].values,
             # "num_articles": table["num_articles"].values,
         }
     )
@@ -215,17 +215,17 @@ def plot_embeddings(plot_df, institution_id):
     # fig.title("{} embeddings".format(parameter).capitalize())
     ax = sns.scatterplot(
         data=plot_df,
-        x="Embedding (coord 1)",
-        y="Embedding (coord 2)",
-        hue="Cluster",
     )
-    row_of_institution = plot_df[plot_df["Institution"] == institution_id]
     if not row_of_institution.empty:
         ax.text(
-            row_of_institution["Embedding (coord 1)"],
-            row_of_institution["Embedding (coord 2)"],
-            row_of_institution["Institution name"].values[0],
             horizontalalignment="left",
             size="medium",
             color="black",
@@ -233,20 +233,20 @@ def plot_embeddings(plot_df, institution_id):
         )
         # Also draw a point for the institution
         ax.scatter(
-            row_of_institution["Embedding (coord 1)"],
-            row_of_institution["Embedding (coord 2)"],
             color="black",
             s=100,
             marker="x",
         )
     # texts = []
     # for i, point in plot_df.iterrows():
-    #    if point["Institution"] == institution_id:
     #        texts.append(
     #            fig.text(
-    #                point["Embedding (coord 1)"] + 0.02,
-    #                point["Embedding (coord 2)"] + 0.01,
-    #                str(point["Institution name"]),
     #            )
     #        )
     # adjust_text(texts)
@@ -257,9 +257,9 @@ def get_authors_of_institution(institutions_table, concept_chooser, evt: gr.Sele
     """
     Get the authors of an institution
     """
-    institution = institutions_table["Institution"][0]
     number_of_row = evt.index[0]
-    institution = institutions_table["Institution"][number_of_row]
     concepts = separate_concepts(concept_chooser)
     results_dfs = []
     for concept in concepts:
@@ -269,7 +269,7 @@ def get_authors_of_institution(institutions_table, concept_chooser, evt: gr.Sele
             WHERE {{
                     ?author a <urn:acmcmc:unis:Author> .
                     ?author <urn:acmcmc:unis:name> ?name .
-                    ?article <urn:acmcmc:unis:written_in_institution> <{Institution}> .
                     ?article <urn:acmcmc:unis:has_author> ?author .
                     ?article <urn:acmcmc:unis:related_to_concept> <{concept}> .
             }}

     # Now, average the similarities
     scores = np.stack(list(all_similarities.values()), axis=0)
+    scores = np.mean(scores, axis=0)
     table_df = pd.DataFrame(
         {
+            "institution": s,
+            "mean_similarity": scores.flatten(),
+            "institution_name": all_ids_institutions[:, 1],
             # "num_articles": all_ids_institutions[:, 2].astype(int),
         }
     )
     # Add the individual similarities
     for i, concept in enumerate(chosen_concepts):
+        table_df[f"similarity_to_{chosen_concepts_names[i]}"] = all_similarities[concept]
     # Reorder the columns so that the mean similarity is after the individual similarities and before the institution name
     table_df = table_df[
+        ["institution"]
+        + [f"similarity_to_{chosen_concepts_names[i]}" for i in range(len(chosen_concepts))]
+        + ["mean_similarity", "institution_name"]
     ]
     # Sort by mean similarity
+    table_df = table_df.sort_values(by=["mean_similarity"], ascending=False)
     concept_names = [get_concept_name(concept_uri) for concept_uri in chosen_concepts]
     return (
     gr.Info("Performing PCA and clustering...")
     # Perform PCA
     embeddings_of_institutions = model.get_embeddings(
+        entities=np.array(table["institution"])
     )
     entity_embeddings_pca = pca(embeddings_of_institutions)
     plot_df = pd.DataFrame(
         {
+            "embedding_x": entity_embeddings_pca[:, 0],
+            "embedding_y": entity_embeddings_pca[:, 1],
+            "cluster": "cluster" + pd.Series(clusters).astype(str),
         }
     )
 def click_on_institution(table, embeddings_var, evt: gr.SelectData):
+    institution_id = table["institution"][evt.index[0]]
     try:
         embeddings_df = embeddings_var["embeddings_df"]
         plot_df = pd.DataFrame(
             {
+                "institution": table["institution"].values,
+                "institution_name": table["institution_name"].values,
+                "embedding_x": embeddings_df["embedding_x"].values,
+                "embedding_y": embeddings_df["embedding_y"].values,
+                "cluster": embeddings_df["cluster"].values,
                 # "num_articles": table["num_articles"].values,
             }
         )
     plot_df = pd.DataFrame(
         {
+            "institution": table["institution"].values,
+            "Institution_name": table["institution Name"].values,
+            "embedding_x": embeddings_df["embedding_x"].values,
+            "embedding_y": embeddings_df["embedding_y"].values,
+            "cluster": embeddings_df["cluster"].values,
             # "num_articles": table["num_articles"].values,
         }
     )
     # fig.title("{} embeddings".format(parameter).capitalize())
     ax = sns.scatterplot(
         data=plot_df,
+        x="embedding_x",
+        y="embedding_y",
+        hue="cluster",
     )
+    row_of_institution = plot_df[plot_df["institution"] == institution_id]
     if not row_of_institution.empty:
         ax.text(
+            row_of_institution["embedding_x"],
+            row_of_institution["embedding_y"],
+            row_of_institution["institution_name"].values[0],
             horizontalalignment="left",
             size="medium",
             color="black",
         )
         # Also draw a point for the institution
         ax.scatter(
+            row_of_institution["embedding_x"],
+            row_of_institution["embedding_y"],
             color="black",
             s=100,
             marker="x",
         )
     # texts = []
     # for i, point in plot_df.iterrows():
+    #    if point["institution"] == institution_id:
     #        texts.append(
     #            fig.text(
+    #                point["embedding_x"] + 0.02,
+    #                point["embedding_y"] + 0.01,
+    #                str(point["institution_name"]),
     #            )
     #        )
     # adjust_text(texts)
     """
     Get the authors of an institution
     """
+    institution = institutions_table["institution"][0]
     number_of_row = evt.index[0]
+    institution = institutions_table["institution"][number_of_row]
     concepts = separate_concepts(concept_chooser)
     results_dfs = []
     for concept in concepts:
             WHERE {{
                     ?author a <urn:acmcmc:unis:Author> .
                     ?author <urn:acmcmc:unis:name> ?name .
+                    ?article <urn:acmcmc:unis:written_in_institution> <{institution}> .
                     ?article <urn:acmcmc:unis:has_author> ?author .
                     ?article <urn:acmcmc:unis:related_to_concept> <{concept}> .
             }}

institutions.csv CHANGED Viewed

The diff for this file is too large to render. See raw diff

model/.data-00000-of-00001 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa8f3d8bd8f7a741cfe1ef560e5d2f894314342b51ec9a60844d5fc796b8e0c5
-size 2350332477

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1c911cf8812ae52e3a75dbb51ddf610067a96eb3b807a6f0bd7deb6dfc95ffc
+size 1411474077

model/.index CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:364d14e1bb0830e861ef9c87ee188e8b00f90eea93ea07f828d69c3daa0a4139
 size 294

 version https://git-lfs.github.com/spec/v1
+oid sha256:49e9e5e144cbd54aa3a0a2a2e0a77395d682d9850b38ecd925622e386ea25f34
 size 294

model/model_metadata.ampkl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:95e4a9f0906a1e60acbe7771e223dae8fa88859afb65066cef0541c1cbc78378
-size 676909665

 version https://git-lfs.github.com/spec/v1
+oid sha256:cdcc9837fd93c7604c58c02ff89219154fa4129cccae86f4d5995feb32d4726a
+size 406330271