QDrantRAG9

Sleeping

App Files Files Community

dinhquangson commited on Jul 4

Commit

768def6

•

1 Parent(s): a7ec673

Update app.py

Browse files

Files changed (1) hide show

app.py +84 -1

app.py CHANGED Viewed

@@ -210,7 +210,7 @@ def search(prompt: str):
     template = """
-        Với thông tin sau, hãy trả lời câu hỏi bằng tiếng ViệtViệt.
         Bối cảnh: {% for document in documents %}
@@ -359,6 +359,89 @@ async def convert_upload_file(file: UploadFile = File(...)):
     return {'content':text,'metadate':completion.choices[0].message.content}
 def image2metadata(image):
     try:
         image = image.convert('RGB')

     template = """
+        Với thông tin sau, hãy trả lời câu hỏi bằng tiếng Việt.
         Bối cảnh: {% for document in documents %}
     return {'content':text,'metadate':completion.choices[0].message.content}
+@app.post("/large_pdf2text/")
+async def upload_large_file(file: UploadFile = File(...)):
+    import pytesseract
+    from pdf2image import convert_from_path
+    from octoai.client import OctoAI
+    from octoai.text_gen import ChatCompletionResponseFormat, ChatMessage
+    from pathlib import Path
+    from haystack.components.generators import OpenAIGenerator
+    from haystack.utils import Secret
+    from haystack.components.builders import PromptBuilder
+    from haystack import Document
+    from haystack import Pipeline
+    from haystack.document_stores.in_memory import InMemoryDocumentStore
+    from haystack.components.converters.txt import TextFileToDocument
+    from haystack.components.preprocessors import DocumentCleaner
+    from haystack.components.preprocessors import DocumentSplitter
+    from haystack.components.writers import DocumentWriter
+    prompt_builder = PromptBuilder(template=template)
+    generator = OpenAIGenerator(
+        api_key=Secret.from_env_var("OCTOAI_TOKEN"),
+        api_base_url="https://text.octoai.run/v1",
+        model="meta-llama-3-70b-instruct",
+        generation_kwargs = {"max_tokens": 512}
+    )
+    document_store = InMemoryDocumentStore()
+    p = Pipeline()
+    p.add_component(instance=TextFileToDocument(), name="text_file_converter")
+    p.add_component(instance=DocumentCleaner(), name="cleaner")
+    p.add_component(instance=DocumentSplitter(split_by="passage", split_length=2), name="splitter")
+    p.add_component(instance=DocumentWriter(document_store=document_store), name="writer")
+    p.add_component("prompt_builder", prompt_builder)
+    p.add_component("llm", generator)
+    p.connect("text_file_converter.documents", "cleaner.documents")
+    p.connect("cleaner.documents", "splitter.documents")
+    p.connect("splitter.documents", "writer.documents")
+    p.connect("writer.documents", "prompt_builder.documents")
+    p.connect("prompt_builder", "llm")
+    file_savePath =  join(temp_path,file.filename)
+    with open(file_savePath,'wb') as f:
+        shutil.copyfileobj(file.file, f)
+    # convert PDF to image
+    images = convert_from_path(file_savePath)
+    text=""
+    first_page = ""
+    # Extract text from images
+    for image in images:
+        ocr_text = pytesseract.image_to_string(image,lang='vie')
+        if first_page=="":
+            first_page = truncate_text(ocr_text)
+        text=text+ocr_text+'\n'
+    path = file_savePath+".txt"
+    with open(path,'wb') as f:
+        f.write(text)
+    files = [path]
+    p.run({"text_file_converter": {"sources": files},
+            "prompt_builder": {"question": "Sử dụng tiếng Việt để trích thông tin từ hóa đơn sau đó trả ra dưới dạng JSON, Trong bảng chi tiết hóa đơn bỏ qua dòng có các ô [A,B,C,1,2,3=1x2]"}})
+    client = OctoAI()
+    completion = client.text_gen.create_chat_completion(
+        model="meta-llama-3-70b-instruct",
+        messages=[
+            ChatMessage(role="system", content="You are a helpful assistant."),
+            ChatMessage(role="user", content=first_page),
+        ],
+        presence_penalty=0,
+        temperature=0.1,
+        top_p=0.9,
+        response_format=ChatCompletionResponseFormat(
+            type="json_object",
+            schema=Invoice.model_json_schema(),
+        ),
+    )
+    return {'content':text,'metadate':completion.choices[0].message.content}
 def image2metadata(image):
     try:
         image = image.convert('RGB')