QDrantRAG9

Sleeping

App Files Files Community

dinhquangson commited on Jul 4

Commit

f47a6ae

•

1 Parent(s): 768def6

Update app.py

Browse files

Files changed (1) hide show

app.py +2 -101

app.py CHANGED Viewed

@@ -4,7 +4,6 @@ from datasets import load_dataset
 from fastapi.middleware.cors import CORSMiddleware
 import pdfplumber
 import pytesseract
-from transformers import AutoModel, AutoTokenizer
 from models import Invoice
@@ -27,23 +26,8 @@ app.add_middleware(
     allow_methods=["*"],
     allow_headers=["*"],
 )
-# Load model
-model_path = 'openbmb/MiniCPM-Llama3-V-2_5'
-if 'int4' in model_path:
-    if device == 'mps':
-        print('Error: running int4 model with bitsandbytes on Mac is not supported right now.')
-        exit()
-    model = AutoModel.from_pretrained(model_path, trust_remote_code=True)
-else:
-    model = AutoModel.from_pretrained(model_path, trust_remote_code=True).to(dtype=torch.float16)
-    model = model.to(device=device)
-tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
-model.eval()
-ERROR_MSG = "Error, please retry"
-model_name = 'MiniCPM-Llama3-V 2.5'
 NUM_PROC = os.cpu_count()
 parent_path  = dirname(getcwd())
@@ -358,89 +342,6 @@ async def convert_upload_file(file: UploadFile = File(...)):
     )
     return {'content':text,'metadate':completion.choices[0].message.content}
-@app.post("/large_pdf2text/")
-async def upload_large_file(file: UploadFile = File(...)):
-    import pytesseract
-    from pdf2image import convert_from_path
-    from octoai.client import OctoAI
-    from octoai.text_gen import ChatCompletionResponseFormat, ChatMessage
-    from pathlib import Path
-    from haystack.components.generators import OpenAIGenerator
-    from haystack.utils import Secret
-    from haystack.components.builders import PromptBuilder
-    from haystack import Document
-    from haystack import Pipeline
-    from haystack.document_stores.in_memory import InMemoryDocumentStore
-    from haystack.components.converters.txt import TextFileToDocument
-    from haystack.components.preprocessors import DocumentCleaner
-    from haystack.components.preprocessors import DocumentSplitter
-    from haystack.components.writers import DocumentWriter
-    prompt_builder = PromptBuilder(template=template)
-    generator = OpenAIGenerator(
-        api_key=Secret.from_env_var("OCTOAI_TOKEN"),
-        api_base_url="https://text.octoai.run/v1",
-        model="meta-llama-3-70b-instruct",
-        generation_kwargs = {"max_tokens": 512}
-    )
-    document_store = InMemoryDocumentStore()
-    p = Pipeline()
-    p.add_component(instance=TextFileToDocument(), name="text_file_converter")
-    p.add_component(instance=DocumentCleaner(), name="cleaner")
-    p.add_component(instance=DocumentSplitter(split_by="passage", split_length=2), name="splitter")
-    p.add_component(instance=DocumentWriter(document_store=document_store), name="writer")
-    p.add_component("prompt_builder", prompt_builder)
-    p.add_component("llm", generator)
-    p.connect("text_file_converter.documents", "cleaner.documents")
-    p.connect("cleaner.documents", "splitter.documents")
-    p.connect("splitter.documents", "writer.documents")
-    p.connect("writer.documents", "prompt_builder.documents")
-    p.connect("prompt_builder", "llm")
-    file_savePath =  join(temp_path,file.filename)
-    with open(file_savePath,'wb') as f:
-        shutil.copyfileobj(file.file, f)
-    # convert PDF to image
-    images = convert_from_path(file_savePath)
-    text=""
-    first_page = ""
-    # Extract text from images
-    for image in images:
-        ocr_text = pytesseract.image_to_string(image,lang='vie')
-        if first_page=="":
-            first_page = truncate_text(ocr_text)
-        text=text+ocr_text+'\n'
-    path = file_savePath+".txt"
-    with open(path,'wb') as f:
-        f.write(text)
-    files = [path]
-    p.run({"text_file_converter": {"sources": files},
-            "prompt_builder": {"question": "Sử dụng tiếng Việt để trích thông tin từ hóa đơn sau đó trả ra dưới dạng JSON, Trong bảng chi tiết hóa đơn bỏ qua dòng có các ô [A,B,C,1,2,3=1x2]"}})
-    client = OctoAI()
-    completion = client.text_gen.create_chat_completion(
-        model="meta-llama-3-70b-instruct",
-        messages=[
-            ChatMessage(role="system", content="You are a helpful assistant."),
-            ChatMessage(role="user", content=first_page),
-        ],
-        presence_penalty=0,
-        temperature=0.1,
-        top_p=0.9,
-        response_format=ChatCompletionResponseFormat(
-            type="json_object",
-            schema=Invoice.model_json_schema(),
-        ),
-    )
-    return {'content':text,'metadate':completion.choices[0].message.content}
 def image2metadata(image):
     try:

 from fastapi.middleware.cors import CORSMiddleware
 import pdfplumber
 import pytesseract
 from models import Invoice
     allow_methods=["*"],
     allow_headers=["*"],
 )
 NUM_PROC = os.cpu_count()
 parent_path  = dirname(getcwd())
     )
     return {'content':text,'metadate':completion.choices[0].message.content}
 def image2metadata(image):
     try: