Spaces:

JetBrains-Research
/

commit-message-editing-visualization

Sleeping

App Files Files Community

saridormi commited on 27 days ago

Commit

d3a24ff

•

1 Parent(s): 216d66f

add a couple of plots and prettify README

Browse files

Files changed (2) hide show

README.md +8 -8
change_visualizer.py +109 -20

README.md CHANGED Viewed

@@ -8,18 +8,18 @@ app_file: change_visualizer.py
 # Commit Message Editing Visualisation ✍️🔍📊
-This space provides a visualization app for exploring the commit message edits datasets (🤗[expert-labeled](https://huggingface.co/datasets/JetBrains-Research/commit-msg-edits) and 🤗[synthetic](https://huggingface.co/datasets/JetBrains-Research/synthetic-commit-msg-edits))
-from [Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings](https://arxiv.org/abs/2410.12046) paper and also hosts important artifacts from our work.
 ## Artifacts
-* [`metrics_analysis.ipynb`](metrics_analysis.ipynb) contains the code for metrics calculation and analysis;
-* [`chart.ipynb`](chart.ipynb) contains the code for Figure 4 with edit distance distribution;
-* [`data_stats.ipynb`](data_stats.ipynb) contains the code for obtaining the dataset statistics from Table 1;
-* [`generation_steps/synthetic_backward.py`](generation_steps/synthetic_backward.py) contains the code for *Synthetic Backward* generation proposed in our paper;
-* [`generation_steps/synthetic_forward.py`](generation_steps/synthetic_forward.py) contains the code for *Synthetic Forward* generation proposed in our paper.
 ## Visualization
 * 🔍 Click on `Examples Exploration` tab to browse through nicely-formatted examples from our dataset.
-* 📊 Click on `Dataset Statistics` tab to see the major statistics for our dataset.

 # Commit Message Editing Visualisation ✍️🔍📊
+This space provides a visualization app for exploring the commit message edits datasets (🤗 [expert-labeled](https://huggingface.co/datasets/JetBrains-Research/commit-msg-edits) and 🤗 [synthetic](https://huggingface.co/datasets/JetBrains-Research/synthetic-commit-msg-edits))
+from 📜 [Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings](https://arxiv.org/abs/2410.12046) paper and also hosts important artifacts from our work.
 ## Artifacts
+* 📊[`metrics_analysis.ipynb`](https://huggingface.co/spaces/JetBrains-Research/commit-message-editing-visualization/blob/main/metrics_analysis.ipynb) contains the code for metrics calculation and analysis;
+* 📈[`chart.ipynb`](https://huggingface.co/spaces/JetBrains-Research/commit-message-editing-visualization/blob/main/chart.ipynb) contains the code for Figure 4 with edit distance distribution;
+* 🗃️[`data_stats.ipynb`](https://huggingface.co/spaces/JetBrains-Research/commit-message-editing-visualization/blob/main/data_stats.ipynb) contains the code for obtaining the dataset statistics from Table 1;
+* ⬅️[`generation_steps/synthetic_backward.py`](https://huggingface.co/spaces/JetBrains-Research/commit-message-editing-visualization/blob/main/generation_steps/synthetic_backward.py) contains the code for *Synthetic Backward* generation proposed in our paper;
+* ➡️[`generation_steps/synthetic_forward.py`](https://huggingface.co/spaces/JetBrains-Research/commit-message-editing-visualization/blob/main/generation_steps/synthetic_forward.py) contains the code for *Synthetic Forward* generation proposed in our paper.
 ## Visualization
 * 🔍 Click on `Examples Exploration` tab to browse through nicely-formatted examples from our dataset.
+* 📈 Click on `Dataset Statistics` tab to see the major statistics for our dataset.

change_visualizer.py CHANGED Viewed

@@ -7,25 +7,32 @@ import numpy as np
 from scipy.stats import gaussian_kde
 import plotly.graph_objects as go
 from generation_steps.metrics_analysis import edit_distance_fn
-df = generate_annotated_diffs.data_with_annotated_diffs()
 def golden():
-    return df.loc[(df['G_type'] == "initial") & (df['E_type'] == "expert_labeled")].reset_index(drop=True)
 def backward():
-    return df.loc[(df['G_type'] == "synthetic_backward") & (df['E_type'] == "expert_labeled")].reset_index(drop=True)
 def forward():
-    return df.loc[(df['G_type'] == "initial") & (df['E_type'] == "synthetic_forward")].reset_index(drop=True)
 def forward_from_backward():
-    return df.loc[(df.G_type == "synthetic_backward") & (df.E_type.isin(["synthetic_forward", "synthetic_forward_from_backward"]))].reset_index(drop=True)
 n_diffs_manual = len(golden())
@@ -56,9 +63,96 @@ def update_dataset_view_synthetic_forward_backward(diff_idx):
     return update_dataset_view(diff_idx, forward_from_backward())
 def edit_distance_plot():
     df_edit_distance = {"Full": [edit_distance_fn(pred=row["G_text"], ref=row["E_text"]) for _, row in
-                                 df.iterrows()],
                         "Synthetic Backward": [edit_distance_fn(pred=row["G_text"], ref=row["E_text"]) for
                                                _, row in backward().iterrows()],
                         "Synthetic Forward": [edit_distance_fn(pred=row["G_text"], ref=row["E_text"]) for
@@ -67,11 +161,6 @@ def edit_distance_plot():
                         "Expert-labeled": [edit_distance_fn(pred=row["G_text"], ref=row["E_text"]) for
                                            _, row in golden().iterrows()]
                         }
-    colors = {"Expert-labeled": "#C19C0B",
-              "Synthetic Backward": "#913632",
-              "Synthetic Forward": "#58136a",
-              "Full": "#000000"}
     traces = []
     for key in df_edit_distance:
@@ -91,13 +180,13 @@ def edit_distance_plot():
     fig.update_layout(
         bargap=0.1,
         xaxis=dict(
-            title=dict(text="Edit Distance", font=dict(size=30)),
             range=[0, 1200],
             showgrid=True,
             gridcolor='lightgrey'
         ),
         yaxis=dict(
-            title=dict(text="Probability Density", font=dict(size=30)),
             range=[0, 0.004],
             showgrid=True,
             gridcolor='lightgrey',
@@ -106,10 +195,7 @@ def edit_distance_plot():
         ),
         plot_bgcolor='rgba(0,0,0,0)',
         paper_bgcolor='rgba(0,0,0,0)',
-        font=dict(size=24),
-        legend=dict(font=dict(size=30)),
-        width=1600,
-        height=600,
     )
     return fig
@@ -177,9 +263,14 @@ if __name__ == '__main__':
                                         outputs=view_synthetic_forward_backward)
         with gr.Tab("Dataset Statistics"):
             gr.Markdown("## Edit Distance Distribution (w/o PyCharm Logs)")
-            edit_distance_gr_plot = gr.Plot()
         application.load(update_dataset_view_manual, inputs=slider_manual,
                          outputs=view_manual)
@@ -193,6 +284,4 @@ if __name__ == '__main__':
         application.load(update_dataset_view_synthetic_forward_backward, inputs=slider_synthetic_forward_backward,
                          outputs=view_synthetic_forward_backward)
-        application.load(edit_distance_plot, outputs=edit_distance_gr_plot)
     application.launch()

 from scipy.stats import gaussian_kde
 import plotly.graph_objects as go
+from api_wrappers import hf_data_loader
 from generation_steps.metrics_analysis import edit_distance_fn
+colors = {"Expert-labeled": "#C19C0B",
+          "Synthetic Backward": "#913632",
+          "Synthetic Forward": "#58136a",
+          "Full": "#000000"}
+df_related = generate_annotated_diffs.data_with_annotated_diffs()
 def golden():
+    return df_related.loc[(df_related['G_type'] == "initial") & (df_related['E_type'] == "expert_labeled")].reset_index(drop=True)
 def backward():
+    return df_related.loc[(df_related['G_type'] == "synthetic_backward") & (df_related['E_type'] == "expert_labeled")].reset_index(drop=True)
 def forward():
+    return df_related.loc[(df_related['G_type'] == "initial") & (df_related['E_type'] == "synthetic_forward")].reset_index(drop=True)
 def forward_from_backward():
+    return df_related.loc[(df_related.G_type == "synthetic_backward") & (df_related.E_type.isin(["synthetic_forward", "synthetic_forward_from_backward"]))].reset_index(drop=True)
 n_diffs_manual = len(golden())
     return update_dataset_view(diff_idx, forward_from_backward())
+def number_of_pairs_plot():
+    related_plot_dict = {"Full": df_related,
+                        "Synthetic Backward": backward(),
+                        "Synthetic Forward": pd.concat([forward(), forward_from_backward()], axis=0,
+                                                                  ignore_index=True),
+                        "Expert-labeled": golden()
+                        }
+    df_unrelated = hf_data_loader.load_synthetic_as_pandas()
+    df_unrelated = df_unrelated.loc[~df_unrelated.is_related].copy()
+    unrelated_plot_dict = {"Full": df_unrelated,
+                            "Synthetic Backward": df_unrelated.loc[
+            (df_unrelated['G_type'] == "synthetic_backward") & (~df_unrelated.E_type.isin(["synthetic_forward", "synthetic_forward_from_backward"]))],
+                            "Synthetic Forward":  df_unrelated.loc[
+    (
+        (df_unrelated['G_type'] == "initial") &
+        (df_unrelated['E_type'] == "synthetic_forward")
+    ) | (
+        (df_unrelated['G_type'] == "synthetic_backward") &
+        (df_unrelated['E_type'].isin(["synthetic_forward", "synthetic_forward_from_backward"]))
+    )
+],
+                           "Expert-labeled": df_unrelated.loc[(df_unrelated.G_type == "initial") & (df_unrelated.E_type == "expert_labeled")]}
+    traces = []
+    for split in related_plot_dict.keys():
+        related_count = len(related_plot_dict[split])
+        unrelated_count = len(unrelated_plot_dict[split])
+        traces.append(
+            go.Bar(
+                name=f'{split} - Related pairs',
+                x=[split],
+                y=[related_count],
+                marker=dict(
+                    color=colors[split],
+                )
+            )
+        )
+        traces.append(
+            go.Bar(
+                name=f'{split} - Conditionally independent pairs',
+                x=[split],
+                y=[unrelated_count],
+                marker=dict(
+                    color=colors[split],
+                    pattern=dict(
+                        shape='/',  # Crosses
+                        fillmode='overlay',
+                        solidity=0.5
+                    )
+                )
+            )
+        )
+    fig = go.Figure(data=traces)
+    fig.update_layout(
+        barmode='stack',
+        bargap=0.2,
+        xaxis=dict(
+            title="Split",
+            showgrid=True,
+            gridcolor='lightgrey'
+        ),
+        yaxis=dict(
+            title="Number of Examples",
+            showgrid=True,
+            gridcolor='lightgrey'
+        ),
+        legend=dict(
+            title='Pair Type',
+            orientation='h',
+            yanchor='bottom',
+            y=1.02,
+            xanchor='right',
+            x=1
+        ),
+        plot_bgcolor='rgba(0,0,0,0)',
+        paper_bgcolor='rgba(0,0,0,0)',
+        width=1100,
+    )
+    return fig
 def edit_distance_plot():
     df_edit_distance = {"Full": [edit_distance_fn(pred=row["G_text"], ref=row["E_text"]) for _, row in
+                                 df_related.iterrows()],
                         "Synthetic Backward": [edit_distance_fn(pred=row["G_text"], ref=row["E_text"]) for
                                                _, row in backward().iterrows()],
                         "Synthetic Forward": [edit_distance_fn(pred=row["G_text"], ref=row["E_text"]) for
                         "Expert-labeled": [edit_distance_fn(pred=row["G_text"], ref=row["E_text"]) for
                                            _, row in golden().iterrows()]
                         }
     traces = []
     for key in df_edit_distance:
     fig.update_layout(
         bargap=0.1,
         xaxis=dict(
+            title=dict(text="Edit Distance"),
             range=[0, 1200],
             showgrid=True,
             gridcolor='lightgrey'
         ),
         yaxis=dict(
+            title=dict(text="Probability Density"),
             range=[0, 0.004],
             showgrid=True,
             gridcolor='lightgrey',
         ),
         plot_bgcolor='rgba(0,0,0,0)',
         paper_bgcolor='rgba(0,0,0,0)',
+        width=1100,
     )
     return fig
                                         outputs=view_synthetic_forward_backward)
         with gr.Tab("Dataset Statistics"):
+            gr.Markdown("## Number of examples per split")
+            number_of_pairs_gr_plot = gr.Plot(number_of_pairs_plot, label=None)
             gr.Markdown("## Edit Distance Distribution (w/o PyCharm Logs)")
+            edit_distance_gr_plot = gr.Plot(edit_distance_plot(), label=None)
         application.load(update_dataset_view_manual, inputs=slider_manual,
                          outputs=view_manual)
         application.load(update_dataset_view_synthetic_forward_backward, inputs=slider_synthetic_forward_backward,
                          outputs=view_synthetic_forward_backward)
     application.launch()