QDrantRAG9

Sleeping

App Files Files Community

dinhquangson commited on Jun 25

Commit

816de41

•

1 Parent(s): 48a3716

Update app.py

Browse files

Files changed (1) hide show

app.py +73 -1

app.py CHANGED Viewed

@@ -269,7 +269,7 @@ async def download_database():
     return FileResponse(zip_path, media_type='application/zip', filename='database.zip')
 @app.post("/pdf2text/")
-async def create_upload_file(file: UploadFile = File(...)):
     import pytesseract
     from pdf2image import convert_from_path
@@ -288,6 +288,78 @@ async def create_upload_file(file: UploadFile = File(...)):
         text=text+ocr_text+'\n'
     return text
 @app.get("/")
 def api_home():
     return {'detail': 'Welcome to FastAPI Qdrant importer!'}

     return FileResponse(zip_path, media_type='application/zip', filename='database.zip')
 @app.post("/pdf2text/")
+async def convert_upload_file(file: UploadFile = File(...)):
     import pytesseract
     from pdf2image import convert_from_path
         text=text+ocr_text+'\n'
     return text
+def get_type_name(element):
+  return type(element).__name__
+def filter_by_type(elements, type):
+  return [element for element in elements if get_type_name(element) == type]
+import re
+def extract_value_from_text(text, format):
+    pattern = re.compile(format)
+    match = pattern.search(text)
+    if match:
+        return match.group(0)  # Use group(0) to get the entire match
+    else:
+        return None
+def filter_by_labels(elements, labels, format):
+  for element in elements:
+    for label in labels:
+      if label.lower() in element.text.lower():
+        return extract_value_from_text(element.text, format)
+  return None
+def filter_by_values(elements, values):
+  for element in elements:
+    for value in values:
+      if value.lower() in element.text.lower():
+        return value
+  return None
+def get_elements_by_schemas(elements, schemas):
+  result_elements=[]
+  for schema in schemas:
+    result_element={}
+    filterred_by_type_elements = filter_by_type(elements, schema['layout_type'])
+    if 'labels' in schema:
+      filterred_by_label_elements = filter_by_labels(filterred_by_type_elements, schema['labels'], schema['format'])
+      if filterred_by_label_elements is not None:
+        result_element[schema['name']] = filterred_by_label_elements
+        result_elements.append(result_element)
+    elif 'values' in schema:
+      fitered_by_value_elements = filter_by_values(filterred_by_type_elements, schema['values'])
+      if fitered_by_value_elements is not None:
+        result_element[schema['name']] = fitered_by_value_elements
+        result_elements.append(result_element)
+    else:
+      if filterred_by_type_elements is not None:
+        result_element[schema['name']] = filterred_by_type_elements[0].text
+        result_elements.append(result_element)
+  return result_elements
+@app.post("/pdf2metadata/")
+async def extract_upload_file(file: UploadFile = File(...)):
+    from unstructured.partition.pdf import partition_pdf
+    file_savePath =  join(temp_path,file.filename)
+    with open(file_savePath,'wb') as f:
+        shutil.copyfileobj(file.file, f)
+    # Returns a List[Element] present in the pages of the parsed pdf document
+    elements = partition_pdf(file_savePath, languages=["vie"])
+    schema = [{'name':'publisher','layout_type':'Title','position':0,'from_last':False},{'name':'number','layout_type':'Text','position':0,'from_last':False, 'label':['Số','Luật số']}]
+    return get_elements_by_schemas(elements, schemas)
 @app.get("/")
 def api_home():
     return {'detail': 'Welcome to FastAPI Qdrant importer!'}