Spaces:

ljyflores
/

casemaker_demo

Sleeping

App Files Files Community

ljyflores commited on Jun 23

Commit

850fcc9

•

1 Parent(s): 16939ac

Add cached files and update app

Browse files

Files changed (4) hide show

__pycache__/utils_casemaker.cpython-310.pyc +0 -0
__pycache__/utils_report_parser.cpython-310.pyc +0 -0
app.py +15 -5
utils_casemaker.py +16 -11

__pycache__/utils_casemaker.cpython-310.pyc ADDED Viewed

Binary file (8.49 kB). View file

__pycache__/utils_report_parser.cpython-310.pyc ADDED Viewed

Binary file (582 Bytes). View file

app.py CHANGED Viewed

@@ -20,7 +20,7 @@ if uploaded_file is not None:
         )
     patient_options = {
-        f"Patient {patient_id}: {len(reports[patient_id])} reports": patient_id
         for patient_id in reports.keys()
     }
     selected_patient_string = st.radio(
@@ -34,7 +34,17 @@ if uploaded_file is not None:
         summary_by_organ = casemaker.parse_records(reports[selected_patient_id])
         summary_by_organ = casemaker.format_reports(summary_by_organ)
-        for chosen_organ in summary_by_organ.keys():
-            if summary_by_organ[chosen_organ]:
-                st.header(chosen_organ.capitalize())
-                st.write(summary_by_organ[chosen_organ])

         )
     patient_options = {
+        f"Patient {patient_id} ({len(reports[patient_id])} reports)": patient_id
         for patient_id in reports.keys()
     }
     selected_patient_string = st.radio(
         summary_by_organ = casemaker.parse_records(reports[selected_patient_id])
         summary_by_organ = casemaker.format_reports(summary_by_organ)
+        # Display the report
+        col1, col2 = st.columns(2)
+        with col1:
+            st.subheader("Original")
+            for report in reports[selected_patient_id]:
+                st.write(f"**Report {report.date}**")
+                st.write(report.text)
+        with col2:
+            st.subheader("With Casemaker")
+            for chosen_organ in summary_by_organ.keys():
+                if summary_by_organ[chosen_organ]:
+                    st.header(chosen_organ.capitalize())
+                    st.write(summary_by_organ[chosen_organ])

utils_casemaker.py CHANGED Viewed

@@ -16,12 +16,14 @@ from transformers import (
     pipeline,
 )
 @dataclass
 class Report:
-    patient_id: str|int
     text: str
     date: str
-    summary: str|None = None
 def clean(s: str) -> str:
     s = s.replace("\n", " ")  # Concatenate into one string
@@ -64,7 +66,7 @@ def format_casemaker_data(
         .groupby("patient_id")
         .apply(lambda df: df[["patient_id", "text", "date"]].to_dict("records"))
     )
-    reports_by_patient = dict[str,Sequence[Report]]()
     for patient_id, report_list in zip(df.index, df):
         patient_id = str(patient_id)
         report_list = [Report(**report) for report in report_list]
@@ -151,11 +153,8 @@ class CaseMaker:
         return report_string_by_organ
     def trim_to_relevant_portion(self, report: str):
-        # Cut the report to the findings
-        report = get_section_from_report(report, "findings")
         # Only keep sentences with symptoms and disease descriptions
-        relevant_sentences = []
         for sentence in sent_tokenize(report):
             if any(
                 [
@@ -163,7 +162,7 @@ class CaseMaker:
                     for ent in self.ner_pipe(sentence)
                 ]
             ):
-                relevant_sentences.append(sentence)
         return "\n".join(relevant_sentences)
     def summarize_report(self, text: str) -> str:
@@ -219,12 +218,18 @@ class CaseMaker:
             must contain "text" and "date" keys
         """
-        # For each organ, collect a list of relevant records containing the text and date
         reports_by_organ = dict[str, Sequence[Report]]()
         for report in reports:
-            report_by_organ = self.parse_report_by_organ(report.text)
             for organ, report_text in report_by_organ.items():
-                organ_level_record = Report(text=report_text, date=report.date, patient_id=report.patient_id)
                 if organ in reports_by_organ:
                     reports_by_organ[organ].append(organ_level_record)
                 else:

     pipeline,
 )
 @dataclass
 class Report:
+    patient_id: str | int
     text: str
     date: str
+    summary: str | None = None
 def clean(s: str) -> str:
     s = s.replace("\n", " ")  # Concatenate into one string
         .groupby("patient_id")
         .apply(lambda df: df[["patient_id", "text", "date"]].to_dict("records"))
     )
+    reports_by_patient = dict[str, Sequence[Report]]()
     for patient_id, report_list in zip(df.index, df):
         patient_id = str(patient_id)
         report_list = [Report(**report) for report in report_list]
         return report_string_by_organ
     def trim_to_relevant_portion(self, report: str):
         # Only keep sentences with symptoms and disease descriptions
+        relevant_sentences = list[str]()
         for sentence in sent_tokenize(report):
             if any(
                 [
                     for ent in self.ner_pipe(sentence)
                 ]
             ):
+                relevant_sentences.append(str(sentence))
         return "\n".join(relevant_sentences)
     def summarize_report(self, text: str) -> str:
             must contain "text" and "date" keys
         """
+        # Split the reports by organ
         reports_by_organ = dict[str, Sequence[Report]]()
         for report in reports:
+            # Cut the report to the findings
+            report_findings = get_section_from_report(report.text, "findings")
+            # For each organ, collect a list of relevant records containing the text and date
+            report_by_organ = self.parse_report_by_organ(report_findings)
             for organ, report_text in report_by_organ.items():
+                organ_level_record = Report(
+                    text=report_text, date=report.date, patient_id=report.patient_id
+                )
                 if organ in reports_by_organ:
                     reports_by_organ[organ].append(organ_level_record)
                 else: