Spaces:

vilarin
/

VL-Chatbox

Running on Zero

vilarin commited on Jun 6

Commit

e740e32

•

1 Parent(s): 6ec9fb0

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,7 +6,7 @@ from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStream
 import os
 from threading import Thread
-from langchain_community.document_loaders import PyMuPDFLoader
 import docx
 from pptx import Presentation
@@ -56,11 +56,11 @@ def extract_text(path):
     return open(path, 'r').read()
 def extract_pdf(path):
-    loader = PyMuPDFLoader(path)
-    data = loader.load()
-    data = [x.page_content for x in data]
-    content = '\n\n'.join(data)
-    return content
 def extract_docx(path):
     doc = docx.Document(path)
@@ -68,6 +68,7 @@ def extract_docx(path):
     for paragraph in doc.paragraphs:
         data.append(paragraph.text)
     content = '\n\n'.join(data)
 def extract_pptx(path):
     prs = Presentation(path)
@@ -91,8 +92,8 @@ def mode_load(path):
         else:
             content = extract_text(path)
         choice = "doc"
-        print(content)
-        return choice, content
     elif file_type in ["png", "jpg", "jpeg", "bmp", "tiff", "webp"]:
         content = Image.open(path).convert('RGB')
         choice = "image"

 import os
 from threading import Thread
+import fitz
 import docx
 from pptx import Presentation
     return open(path, 'r').read()
 def extract_pdf(path):
+    doc = fitz.open(path)
+    text = ""
+    for page in doc:
+        text += page.get_text()
+    return text
 def extract_docx(path):
     doc = docx.Document(path)
     for paragraph in doc.paragraphs:
         data.append(paragraph.text)
     content = '\n\n'.join(data)
+    return content
 def extract_pptx(path):
     prs = Presentation(path)
         else:
             content = extract_text(path)
         choice = "doc"
+        print(content[:100])
+        return choice, content[:5000]
     elif file_type in ["png", "jpg", "jpeg", "bmp", "tiff", "webp"]:
         content = Image.open(path).convert('RGB')
         choice = "image"