Spaces:

vectara
/

leaderboard

Running on CPU Upgrade

App Files Files Community

Minseok Bae commited on Jan 4

Commit

156ef43

•

1 Parent(s): 2864204

Refine the code style

Browse files

Files changed (7) hide show

app.py +2 -2
src/backend/evaluate_model.py +3 -7
src/backend/manage_requests.py +1 -0
src/backend/model_operations.py +5 -6
src/backend/util.py +9 -11
src/display/about.py +3 -4
src/envs.py +2 -1

app.py CHANGED Viewed

@@ -97,7 +97,7 @@ def filter_models(
     if show_deleted:
         filtered_df = df
     else:  # Show only still on the hub models
-        filtered_df = df[df[utils.AutoEvalColumn.still_on_hub.name] == True]
     type_emoji = [t[0] for t in type_query]
     filtered_df = filtered_df.loc[df[utils.AutoEvalColumn.model_type_symbol.name].isin(type_emoji)]
@@ -181,7 +181,7 @@ with demo:
                 elem_id="leaderboard-table",
                 interactive=False,
                 visible=True,
-                column_widths=["2%", "33%"]
             )
             # Dummy leaderboard for handling the case when the user uses backspace key

     if show_deleted:
         filtered_df = df
     else:  # Show only still on the hub models
+        filtered_df = df[df[utils.AutoEvalColumn.still_on_hub.name]]
     type_emoji = [t[0] for t in type_query]
     filtered_df = filtered_df.loc[df[utils.AutoEvalColumn.model_type_symbol.name].isin(type_emoji)]
                 elem_id="leaderboard-table",
                 interactive=False,
                 visible=True,
+                column_widths=["2%", "33%"]
             )
             # Dummy leaderboard for handling the case when the user uses backspace key

src/backend/evaluate_model.py CHANGED Viewed

@@ -69,13 +69,11 @@ class Evaluator:
             dict: A dictionary containing evaluation results.
         """
         try:
-            # df = pd.read_csv(envs.SOURCE_PATH)
-            df = pd.read_csv(envs.SAMPLE_DATASET_PATH)
             generated_summaries_df = self.summary_generator.generate_summaries(df)
             avg_summary_len = self.summary_generator.avg_length
             answer_rate = self.summary_generator.answer_rate
-            # error_rate = self.summary_generator.error_rate
             hallucination_scores = self.eval_model.evaluate_hallucination(
                 generated_summaries_df)
@@ -83,16 +81,14 @@ class Evaluator:
             hallucination_rate = self.eval_model.hallucination_rate
             results = util.format_results(model_name=self.model, revision=self.revision,
-                                        precision=self.precision,
                                         factual_consistency_rate=factual_consistency_rate,
                                         hallucination_rate=hallucination_rate,
                                         answer_rate=answer_rate,
                                         avg_summary_len=avg_summary_len)
             return results
         except FileNotFoundError:
-            # logging.error(f"File not found: {envs.SOURCE_PATH}")
-            logging.error(f"File not found: {envs.SAMPLE_DATASET_PATH}")
             raise
         except Exception as e:
             logging.error(f"Error during evaluation: {e}")

             dict: A dictionary containing evaluation results.
         """
         try:
+            df = pd.read_csv(envs.DATASET_PATH)
             generated_summaries_df = self.summary_generator.generate_summaries(df)
             avg_summary_len = self.summary_generator.avg_length
             answer_rate = self.summary_generator.answer_rate
             hallucination_scores = self.eval_model.evaluate_hallucination(
                 generated_summaries_df)
             hallucination_rate = self.eval_model.hallucination_rate
             results = util.format_results(model_name=self.model, revision=self.revision,
+                                        precision=self.precision,
                                         factual_consistency_rate=factual_consistency_rate,
                                         hallucination_rate=hallucination_rate,
                                         answer_rate=answer_rate,
                                         avg_summary_len=avg_summary_len)
             return results
         except FileNotFoundError:
+            logging.error(f"File not found: {envs.DATASET_PATH}")
             raise
         except Exception as e:
             logging.error(f"Error during evaluation: {e}")

src/backend/manage_requests.py CHANGED Viewed

@@ -6,6 +6,7 @@ from typing import Optional
 from huggingface_hub import HfApi, snapshot_download
 @dataclass
 class EvalRequest:
     model: str

 from huggingface_hub import HfApi, snapshot_download
 @dataclass
 class EvalRequest:
     model: str

src/backend/model_operations.py CHANGED Viewed

@@ -105,11 +105,11 @@ class SummaryGenerator:
         for index, row in df.iterrows():
             _source = row['text']
             _dataset = row['dataset']
             system_prompt = envs.SYSTEM_PROMPT
             user_prompt = f"{envs.USER_PROMPT}\nPassage:\n{_source}"
-            while True:
                 try:
                     _summary = generate_summary(self.model, system_prompt,
                                                 user_prompt, self.api_base)
@@ -129,7 +129,7 @@ class SummaryGenerator:
         summary.append(_summary)
         source.append(_source)
         dataset.append(_dataset)
         time.sleep(1)
         self.summaries_df = pd.DataFrame(list(zip(source, summary, dataset)),
@@ -199,10 +199,9 @@ class EvaluationModel:
         Returns:
             list: List of hallucination scores. Also updates the 'scores' attribute of the instance.
         """
-        source_docs = np.array(summaries_df['source'])
-        generated_summaries = np.array(summaries_df['summary'])
         try:
-            scores = self.model.predict(source_docs, generated_summaries)
             self.scores = scores
             return self.scores
         except Exception as e:

         for index, row in df.iterrows():
             _source = row['text']
             _dataset = row['dataset']
             system_prompt = envs.SYSTEM_PROMPT
             user_prompt = f"{envs.USER_PROMPT}\nPassage:\n{_source}"
+            while True:
                 try:
                     _summary = generate_summary(self.model, system_prompt,
                                                 user_prompt, self.api_base)
         summary.append(_summary)
         source.append(_source)
         dataset.append(_dataset)
         time.sleep(1)
         self.summaries_df = pd.DataFrame(list(zip(source, summary, dataset)),
         Returns:
             list: List of hallucination scores. Also updates the 'scores' attribute of the instance.
         """
+        source_summary_pairs = util.create_pairs(summaries_df)
         try:
+            scores = self.model.predict(source_summary_pairs)
             self.scores = scores
             return self.scores
         except Exception as e:

src/backend/util.py CHANGED Viewed

@@ -1,23 +1,21 @@
-def generate_prompt(source_passage: str) -> str:
     """
-    Generates a prompt for a chatbot to summarize a given passage.
     Args:
-        source_passage (str): The passage to be summarized.
     Returns:
-        str: A formatted prompt string for the chatbot.
     """
-    if not source_passage:
-        raise ValueError("Source passage is empty.")
-    return f"""You are a chat bot answering questions using data. You must stick to the answers provided solely by the text in the passage provided.
-    You are asked the question 'Provide a concise summary of the following passage, covering the core pieces of information described:'
-    Passage:\n {source_passage}
-    """
-def format_results(model_name: str, revision: str, precision: str,
                 factual_consistency_rate: float, hallucination_rate: float,
                 answer_rate: float, avg_summary_len: float) -> dict:
     """

+def create_pairs(df):
     """
+    Creates pairs of source and summary from the dataframe.
     Args:
+        df (DataFrame): The dataframe containing source and summary columns.
     Returns:
+        list: A list of pairs [source, summary].
     """
+    pairs = []
+    for _, row in df.iterrows():
+        pairs.append([row['source'], row['summary']])
+    return pairs
+def format_results(model_name: str, revision: str, precision: str,
                 factual_consistency_rate: float, hallucination_rate: float,
                 answer_rate: float, avg_summary_len: float) -> dict:
     """

src/display/about.py CHANGED Viewed

@@ -9,15 +9,14 @@ class Task:
 class Tasks(Enum):
-    # task_key in the json file, metric_key in the json file, name to display in the leaderboard
-    hallucination_rate = Task("hallucination_rate",
                             "hallucination_rate", "Hallucination Rate")
     accuracy = Task("factual_consistency_rate", "factual_consistency_rate", "Factual Consistency Rate")
     answer_rate = Task("answer_rate", "answer_rate", "Answer Rate")
-    average_summary_length = Task("average_summary_length",
                                 "average_summary_length", "Average Summary Length")
     # error_rate = Task("error_rate", "error_rate", "Error Rate")
 # Your leaderboard name

 class Tasks(Enum):
+    # task_key in the json file, metric_key in the json file, name to display in the leaderboard
+    hallucination_rate = Task("hallucination_rate",
                             "hallucination_rate", "Hallucination Rate")
     accuracy = Task("factual_consistency_rate", "factual_consistency_rate", "Factual Consistency Rate")
     answer_rate = Task("answer_rate", "answer_rate", "Answer Rate")
+    average_summary_length = Task("average_summary_length",
                                 "average_summary_length", "Average Summary Length")
     # error_rate = Task("error_rate", "error_rate", "Error Rate")
 # Your leaderboard name

src/envs.py CHANGED Viewed

@@ -2,6 +2,7 @@ import os
 from huggingface_hub import HfApi
 # replace this with our token
 TOKEN = os.environ.get("HF_TOKEN", None)
@@ -21,7 +22,7 @@ EVAL_RESULTS_PATH_BACKEND = os.path.join(CACHE_PATH, "eval-results-bk")
 DEVICE = "cpu"
 API = HfApi(token=TOKEN)
-SOURCE_PATH = "src/datasets/leaderboard_dataset.csv"
 SAMPLE_DATASET_PATH = "src/datasets/sample_dataset.csv"
 HEM_PATH = 'vectara/hallucination_evaluation_model'

 from huggingface_hub import HfApi
 # replace this with our token
 TOKEN = os.environ.get("HF_TOKEN", None)
 DEVICE = "cpu"
 API = HfApi(token=TOKEN)
+DATASET_PATH = "src/datasets/leaderboard_dataset.csv"
 SAMPLE_DATASET_PATH = "src/datasets/sample_dataset.csv"
 HEM_PATH = 'vectara/hallucination_evaluation_model'