Spaces:

dejanseo
/

CTR

Running

App Files Files Community

dejanseo commited on Aug 21

Commit

a3ab355

•

1 Parent(s): 77c9a6d

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -20

app.py CHANGED Viewed

@@ -22,11 +22,10 @@ except FileNotFoundError:
     st.stop()
 def tokenize(text):
-    # Ensure the text is a string before splitting
     if isinstance(text, str):
         return text.split()
     else:
-        return []  # Return an empty list if the text is not a string
 def embed_text(text_series, fasttext_model):
     embeddings = []
@@ -40,26 +39,21 @@ def embed_text(text_series, fasttext_model):
     return np.array(embeddings)
 def preprocess_input(query, title, description, url, fasttext_model):
-    # Convert None or NaN to an empty string to avoid errors during tokenization
     query = str(query) if pd.notna(query) else ''
     title = str(title) if pd.notna(title) else ''
     description = str(description) if pd.notna(description) else ''
     url = str(url) if pd.notna(url) else ''
-    # Embed each text field using FastText
     query_ft = embed_text(pd.Series([query]), fasttext_model)
     title_ft = embed_text(pd.Series([title]), fasttext_model)
     description_ft = embed_text(pd.Series([description]), fasttext_model)
     url_ft = embed_text(pd.Series([url]), fasttext_model)
-    # Combine embeddings into a single array
     combined_features = np.hstack([query_ft, title_ft, description_ft, url_ft])
-    # Convert combined_features to a DMatrix for XGBoost
     dmatrix = xgb.DMatrix(combined_features)
     return dmatrix
-# Function to extract title and description from a URL
 def extract_title_description(url):
     headers = {
         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.5112.81 Safari/537.36'
@@ -74,11 +68,10 @@ def extract_title_description(url):
     except Exception as e:
         return 'Error extracting title', 'Error extracting description'
-# Function to make predictions
 def predict(query, title, description, url, fasttext_model):
     dmatrix = preprocess_input(query, title, description, url, fasttext_model)
-    probability = model.predict(dmatrix, validate_features=False)[0]  # Get the probability prediction
-    binary_prediction = int(probability >= 0.5)  # Convert to binary: 1 if >= 0.5, else 0
     return binary_prediction, probability
 # Streamlit interface
@@ -101,8 +94,6 @@ with tab1:
             binary_result, confidence = predict(query, title, description, url, fasttext_model)
             st.write(f'Predicted +/-: {binary_result}')
             st.write(f'Conf.: {confidence:.2%}')
-            # Convert confidence to a percentage and cast to int
             confidence_percentage = int(confidence * 100)
             st.progress(confidence_percentage)
         else:
@@ -115,8 +106,6 @@ with tab2:
     if uploaded_file is not None:
         df = pd.read_csv(uploaded_file)
-        # Select only the columns necessary for inference
         required_columns = ['Query', 'Title', 'Description', 'URL']
         if set(required_columns).issubset(df.columns):
@@ -127,15 +116,12 @@ with tab2:
                 predictions.append(binary_result)
                 confidences.append(confidence)
-            # Add binary predictions and confidence to the DataFrame
             df['+/-'] = predictions
             df['Conf.'] = [f"{conf:.2%}" for conf in confidences]
-            # Reorder the columns to put '+/-' and 'Conf.' at the front
             cols = ['+/-', 'Conf.'] + [col for col in df.columns if col not in ['+/-', 'Conf.']]
             df = df[cols]
-            # Display and allow download of results
             st.write(df)
             st.download_button("Download Predictions", df.to_csv(index=False), "predictions.csv")
         else:
@@ -149,11 +135,13 @@ with tab3:
     if st.button('Scrape A/B'):
         title_A, description_A = extract_title_description(url)
         st.write(f'Extracted Title A: {title_A}')
         st.write(f'Extracted Description A: {description_A}')
-        title_B = st.text_input('Title B', value=title_A)
-        description_B = st.text_area('Description B', value=description_A)
         if st.button('Predict A/B'):
             if query and url:
@@ -163,7 +151,6 @@ with tab3:
                 st.write(f'Results for A: Predicted +/-: {binary_result_A}, Conf.: {confidence_A:.2%}')
                 st.write(f'Results for B: Predicted +/-: {binary_result_B}, Conf.: {confidence_B:.2%}')
-                # Determine improvement
                 if binary_result_A == 1 and binary_result_B == 0:
                     st.write("B is worse than A")
                 elif binary_result_A == 0 and binary_result_B == 1:

     st.stop()
 def tokenize(text):
     if isinstance(text, str):
         return text.split()
     else:
+        return []
 def embed_text(text_series, fasttext_model):
     embeddings = []
     return np.array(embeddings)
 def preprocess_input(query, title, description, url, fasttext_model):
     query = str(query) if pd.notna(query) else ''
     title = str(title) if pd.notna(title) else ''
     description = str(description) if pd.notna(description) else ''
     url = str(url) if pd.notna(url) else ''
     query_ft = embed_text(pd.Series([query]), fasttext_model)
     title_ft = embed_text(pd.Series([title]), fasttext_model)
     description_ft = embed_text(pd.Series([description]), fasttext_model)
     url_ft = embed_text(pd.Series([url]), fasttext_model)
     combined_features = np.hstack([query_ft, title_ft, description_ft, url_ft])
     dmatrix = xgb.DMatrix(combined_features)
     return dmatrix
 def extract_title_description(url):
     headers = {
         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.5112.81 Safari/537.36'
     except Exception as e:
         return 'Error extracting title', 'Error extracting description'
 def predict(query, title, description, url, fasttext_model):
     dmatrix = preprocess_input(query, title, description, url, fasttext_model)
+    probability = model.predict(dmatrix, validate_features=False)[0]
+    binary_prediction = int(probability >= 0.5)
     return binary_prediction, probability
 # Streamlit interface
             binary_result, confidence = predict(query, title, description, url, fasttext_model)
             st.write(f'Predicted +/-: {binary_result}')
             st.write(f'Conf.: {confidence:.2%}')
             confidence_percentage = int(confidence * 100)
             st.progress(confidence_percentage)
         else:
     if uploaded_file is not None:
         df = pd.read_csv(uploaded_file)
         required_columns = ['Query', 'Title', 'Description', 'URL']
         if set(required_columns).issubset(df.columns):
                 predictions.append(binary_result)
                 confidences.append(confidence)
             df['+/-'] = predictions
             df['Conf.'] = [f"{conf:.2%}" for conf in confidences]
             cols = ['+/-', 'Conf.'] + [col for col in df.columns if col not in ['+/-', 'Conf.']]
             df = df[cols]
             st.write(df)
             st.download_button("Download Predictions", df.to_csv(index=False), "predictions.csv")
         else:
     if st.button('Scrape A/B'):
         title_A, description_A = extract_title_description(url)
+        st.session_state['title_A'] = title_A
+        st.session_state['description_A'] = description_A
         st.write(f'Extracted Title A: {title_A}')
         st.write(f'Extracted Description A: {description_A}')
+        title_B = st.text_input('Title B', value=st.session_state.get('title_A', ''))
+        description_B = st.text_area('Description B', value=st.session_state.get('description_A', ''))
         if st.button('Predict A/B'):
             if query and url:
                 st.write(f'Results for A: Predicted +/-: {binary_result_A}, Conf.: {confidence_A:.2%}')
                 st.write(f'Results for B: Predicted +/-: {binary_result_B}, Conf.: {confidence_B:.2%}')
                 if binary_result_A == 1 and binary_result_B == 0:
                     st.write("B is worse than A")
                 elif binary_result_A == 0 and binary_result_B == 1: