Spaces:

somosnlp-hackathon-2022
/

Paraphrase-Bertin

Build error

App Files Files Community

Lautaro commited on Apr 3, 2022

Commit

718142c

•

1 Parent(s): 6a92e9f

Adding App

Browse files

Files changed (1) hide show

app.py +3 -44

app.py CHANGED Viewed

@@ -12,20 +12,14 @@ from sklearn.manifold import TSNE
 @st.cache
 def load_model():
-  model = SentenceTransformer('hackathon-pln-es/bertin-roberta-base-finetuning-esnli')
   model.eval()
   return model
-@st.cache
-def load_plot_data():
-  embs = np.load('semeval2015-embs.npy')
-  data = pd.read_csv('semeval2015-data.csv')
-  return embs, data
 st.title("Sentence Embedding for Spanish with Bertin")
-st.write("Sentence embedding for spanish trained on NLI. Used for Sentence Textual Similarity. Based on the model hackathon-pln-es/bertin-roberta-base-finetuning-esnli.")
 st.write("Introduce two sentence to see their cosine similarity and a graph showing them in the embedding space.")
-st.write("Authors: Anibal Pérez, Emilio Tomás Ariza, Lautaro Gesuelli y Mauricio Mazuecos.")
 sent1 = st.text_area('Enter sentence 1')
 sent2 = st.text_area('Enter sentence 2')
@@ -36,41 +30,6 @@ if st.button('Compute similarity'):
     encodings = model.encode([sent1, sent2])
     sim = cos_sim(encodings[0], encodings[1]).numpy().tolist()[0][0]
     st.text('Cosine Similarity: {0:.4f}'.format(sim))
-    print('Generating visualization...')
-    sentembs, data = load_plot_data()
-    X_embedded = TSNE(n_components=2, learning_rate='auto',
-                  init='random').fit_transform(np.concatenate([sentembs, encodings], axis=0))
-    data = data.append({'sent': sent1, 'color': '#F0E442'}, ignore_index=True) # sentence 1
-    data = data.append({'sent': sent2, 'color': '#D55E00'}, ignore_index=True) # sentence 2
-    data['x'] = X_embedded[:,0]
-    data['y'] = X_embedded[:,1]
-    source = ColumnDataSource(data)
-    p = figure(title="Embeddings in space")
-    p.circle(
-      x='x',
-      y='y',
-      legend_label="Objects",
-      #fill_color=["red"],
-      color='color',
-      fill_alpha=0.5,
-      line_color="blue",
-      size=14,
-      source=source
-    )
-    p.add_tools(HoverTool(
-      tooltips=[
-          ('sent', '@sent')
-      ],
-      formatters={
-          '@sent': 'printf'
-      },
-      mode='mouse'
-    ))
-    st.bokeh_chart(p, use_container_width=True)
   else:
       st.write('Missing a sentences')
 else:

 @st.cache
 def load_model():
+  model = SentenceTransformer('hackathon-pln-es/paraphrase-spanish-distilroberta')
   model.eval()
   return model
 st.title("Sentence Embedding for Spanish with Bertin")
+st.write("Sentence embedding for spanish trained according to instructions in the paper [Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation](https://arxiv.org/pdf/2004.09813.pdf) and the [documentation](https://www.sbert.net/examples/training/multilingual/README.html) accompanying its companion python package. We have used the strongest available pretrained English Bi-Encoder ([paraphrase-mpnet-base-v2](https://www.sbert.net/docs/pretrained_models.html#sentence-embedding-models)) as a teacher model, and the pretrained Spanish [BERTIN](https://huggingface.co/bertin-project/bertin-roberta-base-spanish) as the student model.Used for Sentence Textual Similarity. Based on the model hackathon-pln-es/paraphrase-spanish-distilroberta.")
 st.write("Introduce two sentence to see their cosine similarity and a graph showing them in the embedding space.")
+st.write("Authors: Anibal Pérez, Emilio Tomás Ariza, Lautaro Gesuelli Pinto y Mauricio Mazuecos.")
 sent1 = st.text_area('Enter sentence 1')
 sent2 = st.text_area('Enter sentence 2')
     encodings = model.encode([sent1, sent2])
     sim = cos_sim(encodings[0], encodings[1]).numpy().tolist()[0][0]
     st.text('Cosine Similarity: {0:.4f}'.format(sim))
   else:
       st.write('Missing a sentences')
 else: