Spaces:

danielhajialigol
/

DRGCoder

Running

App Files Files Community

danielhajialigol commited on Aug 5, 2023

Commit

adc6c07

•

1 Parent(s): bc31c45

fixing ICD padding and related summary bank

Browse files

Files changed (2) hide show

app.py +30 -18
utils.py +12 -7

app.py CHANGED Viewed

@@ -1,4 +1,4 @@
-import numpy as np
 import gradio as gr
 import pandas as pd
 import torch
@@ -27,8 +27,7 @@ mimic.eval()
 # disease ner model
 pipe = pipeline("token-classification", model="alvaroalon2/biobert_diseases_ner")
-#
 ex1 = """HEAD CT:  Head CT showed no intracranial hemorrhage or mass effect, but old infarction consistent with past medical history."""
 ex2 = """Radiologic studies also included a chest CT, which confirmed cavitary lesions in the left lung apex consistent with infectious tuberculosis. This also moderate-sized left pleural effusion."""
 ex3 = """We have discharged Mrs Smith on regular oral Furosemide (40mg OD) and we have requested an outpatient ultrasound of her renal tract which will be performed in the next few weeks. We will review Mrs Smith in the Cardiology Outpatient Clinic in 6 weeks time."""
@@ -74,19 +73,19 @@ def find_related_summaries(text):
     scores = torch.mm(related_tensor, embedding.transpose(1,0))
     scores_indices = scores.topk(k=50, dim=0)
     indices, scores = scores_indices[-1], torch.round(100 * scores_indices[0], decimals=2)
-    summaries = []
     score_set = set()
     for summary_idx, score in zip(indices, scores):
         score = score.item()
-        if len(summaries) == 5:
             break
         corresp_summary = all_summaries[summary_idx]
         if score in score_set:
             continue
-        summary = f'{round(score,2)}% Similarity Rate for the following Discharge Summary:\n\n{corresp_summary}'
-        summaries.append([summary])
         score_set.add(score)
-    return summaries
@@ -112,7 +111,8 @@ def run(text, related_discharges=False):
         return visualize_attn(model_results=model_results)
     return (
         visualize_attn(model_results=model_results),
-        gr.Dataset.update(samples=related_summaries, visible=True, label='Related Discharge Summaries'),
         gr.ClearButton.update(visible=True),
         gr.TextArea.update(visible=True),
         gr.Button.update(visible=True),
@@ -149,14 +149,19 @@ def load_example(example_id):
     return prettify_text(related_chosen)
     # return related_chosen
 def prettify_text(nested_list):
-    idx = 1
     string = ''
     for li in nested_list:
         delimiters = 99 * '='
-        string += f'({idx})\n{li[0]}\n{delimiters}\n'
-        idx += 1
-    return string
 def remove_most_recent():
     global related_chosen
@@ -175,7 +180,10 @@ def main():
         This interface outlines DRGCoder, an explainable clinical coding for the early prediction of diagnostic-related groups (DRGs). Please note all summaries will be truncated to 512 words if longer.
         """)
         with gr.Row() as row:
-            input = gr.Textbox(label="Input Discharge Summary Here", placeholder='sample discharge summary')
         with gr.Row() as row:
             gr.Examples(examples, [input])
         with gr.Row() as row:
@@ -215,18 +223,22 @@ def main():
         # input to related summaries
         with gr.Row() as row:
-            input_related = gr.TextArea(label="Input up to 3 Related Discharge Summary/Summaries Here", visible=False)
         with gr.Row() as row:
             rmv_related_btn = gr.Button(value='Remove Related Summary', visible=False)
             sbm_btn = gr.Button(value="Submit Related Summaries", components=[input_related], visible=False)
         with gr.Row() as row:
-            related = gr.Dataset(samples=[], components=[input_related], visible=False, type='index')
         # initial run
         btn.click(run, inputs=[input], outputs=[attn_viz, related, attn_clr_btn, input_related, sbm_btn, rmv_related_btn])
         # find related summaries
-        related.click(load_example, inputs=[related], outputs=[input_related])
         # remove related summaries
         rmv_related_btn.click(remove_most_recent, outputs=[input_related])

+import re
 import gradio as gr
 import pandas as pd
 import torch
 # disease ner model
 pipe = pipeline("token-classification", model="alvaroalon2/biobert_diseases_ner")
+# default DRG summary examples
 ex1 = """HEAD CT:  Head CT showed no intracranial hemorrhage or mass effect, but old infarction consistent with past medical history."""
 ex2 = """Radiologic studies also included a chest CT, which confirmed cavitary lesions in the left lung apex consistent with infectious tuberculosis. This also moderate-sized left pleural effusion."""
 ex3 = """We have discharged Mrs Smith on regular oral Furosemide (40mg OD) and we have requested an outpatient ultrasound of her renal tract which will be performed in the next few weeks. We will review Mrs Smith in the Cardiology Outpatient Clinic in 6 weeks time."""
     scores = torch.mm(related_tensor, embedding.transpose(1,0))
     scores_indices = scores.topk(k=50, dim=0)
     indices, scores = scores_indices[-1], torch.round(100 * scores_indices[0], decimals=2)
+    summary_score_list = []
     score_set = set()
     for summary_idx, score in zip(indices, scores):
         score = score.item()
+        if len(summary_score_list) == 5:
             break
         corresp_summary = all_summaries[summary_idx]
         if score in score_set:
             continue
+        summary_score_list.append(
+            [round(score,2), corresp_summary])
         score_set.add(score)
+    return summary_score_list
         return visualize_attn(model_results=model_results)
     return (
         visualize_attn(model_results=model_results),
+        # gr.Dataset.update(samples=related_summaries, visible=True, label='Related Discharge Summaries'),
+        gr.DataFrame.update(value=related_summaries, visible=True),
         gr.ClearButton.update(visible=True),
         gr.TextArea.update(visible=True),
         gr.Button.update(visible=True),
     return prettify_text(related_chosen)
     # return related_chosen
+def load_df_example(df, event: gr.SelectData):
+    global related_chosen
+    discharge_summary = event.value
+    related_chosen.append([discharge_summary])
+    return prettify_text(related_chosen)
 def prettify_text(nested_list):
     string = ''
     for li in nested_list:
+        striped = re.sub(' +', ' ', li[0]).strip()
         delimiters = 99 * '='
+        string += f'{striped}\n{delimiters}\n'
+    return string.strip()
 def remove_most_recent():
     global related_chosen
         This interface outlines DRGCoder, an explainable clinical coding for the early prediction of diagnostic-related groups (DRGs). Please note all summaries will be truncated to 512 words if longer.
         """)
         with gr.Row() as row:
+            input = gr.Textbox(
+                label="Input Discharge Summary Here", placeholder='sample discharge summary',
+                text_align='left', interactive=True
+            )
         with gr.Row() as row:
             gr.Examples(examples, [input])
         with gr.Row() as row:
         # input to related summaries
         with gr.Row() as row:
+            input_related = gr.TextArea(label="Input up to 3 Related Discharge Summaries Here", visible=False, text_align='left', min_width=300)
         with gr.Row() as row:
             rmv_related_btn = gr.Button(value='Remove Related Summary', visible=False)
             sbm_btn = gr.Button(value="Submit Related Summaries", components=[input_related], visible=False)
         with gr.Row() as row:
+            # related = gr.Dataset(samples=[], components=[input_related], visible=False, type='index', headers=['AAAAA', 'BBBB', 'CCCCC', 'DDDDD', 'RRRRR'])
+            related = gr.DataFrame(
+                value=None, headers=['Similarity Score', 'Related Discharge Summary'], max_rows=5,
+                datatype=['number', 'str'], col_count=(2, 'fixed'), visible=False
+            )
         # initial run
         btn.click(run, inputs=[input], outputs=[attn_viz, related, attn_clr_btn, input_related, sbm_btn, rmv_related_btn])
         # find related summaries
+        # related.click(load_example, inputs=[related], outputs=[input_related])
+        related.select(load_df_example, inputs=[related], outputs=[input_related])
         # remove related summaries
         rmv_related_btn.click(remove_most_recent, outputs=[input_related])

utils.py CHANGED Viewed

@@ -286,27 +286,32 @@ def modify_drg_html(html, drg_link):
 def get_icd_html(icd_list):
     if len(icd_list) == 0:
-        return '<td><text style="padding-right:2em"><b>N/A</b></text></td>'
     final_html = '<td>'
     icd_set = set()
-    for icd_dict in icd_list:
         text, link = icd_dict['text'], icd_dict['link']
         if text in icd_set:
             continue
-        tmp_html = visualization.format_classname(classname=text)
-        html = modify_code_html(html=tmp_html, link=link, icd=True)
-        final_html += html
         icd_set.add(text)
     return final_html + '</td>'
 def get_disease_html(diseases):
     if len(diseases) == 0:
-        return '<td><text style="padding-right:2em"><b>N/A</b></text></td>'
     diseases = list(set(diseases))
     diseases_str = ', '.join(diseases)
     html = visualization.format_classname(classname=diseases_str)
-    return html + '</td>'

 def get_icd_html(icd_list):
     if len(icd_list) == 0:
+        return '<td><text style="padding-left:2em"><b>N/A</b></text></td>'
     final_html = '<td>'
     icd_set = set()
+    style="border-style: solid; overflow: visible; min-width: calc(min(0px, 100%)); border-width: var(--block-border-width);"
+    for i, icd_dict in enumerate(icd_list):
         text, link = icd_dict['text'], icd_dict['link']
         if text in icd_set:
             continue
+        # tmp_html = visualization.format_classname(classname=text)
+        # html = modify_code_html(html=tmp_html, link=link, icd=True)
+        # style="padding-left:2em; font-weight:bold;"
         icd_set.add(text)
+        if i+1 < len(icd_list):
+            text += ','
+        html = f'<a style="{style}" href="{link}">{text}</a><br>'
+        final_html += html
     return final_html + '</td>'
 def get_disease_html(diseases):
     if len(diseases) == 0:
+        return '<td><text style="padding-left:2em"><b>N/A</b></text></td>'
     diseases = list(set(diseases))
     diseases_str = ', '.join(diseases)
     html = visualization.format_classname(classname=diseases_str)
+    return html