Spaces:

johannoriel
/

tuto-rag

Running

App Files Files Community

johannoriel commited on Sep 25

Commit

d8bdf2c

•

1 Parent(s): bf628d9

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -31

app.py CHANGED Viewed

@@ -2,15 +2,10 @@ import gradio as gr
 from huggingface_hub import InferenceClient
 from transformers import AutoTokenizer, AutoModel
 from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain.embeddings import HuggingFaceEmbeddings
-from langchain_community.embeddings import HuggingFaceEmbeddings
 import fitz  # PyMuPDF
-import os
-import hashlib
-# Directory to store cached files
-CACHE_DIR = "pdf_cache"
-os.makedirs(CACHE_DIR, exist_ok=True)
 def get_hf_models():
     return ["Qwen/Qwen2.5-3B-Instruct", "HuggingFaceH4/zephyr-7b-beta", "mistralai/Mistral-7B-Instruct-v0.1"]
@@ -42,46 +37,35 @@ def no_rag(query, client):
     response = client.text_generation(query, max_new_tokens=512)
     return response
-def cache_file(file):
-    if file is None:
-        return None
-    file_hash = hashlib.md5(file.read()).hexdigest()
-    cached_path = os.path.join(CACHE_DIR, f"{file_hash}.pdf")
-    if not os.path.exists(cached_path):
-        with open(cached_path, "wb") as f:
-            file.seek(0)
-            f.write(file.read())
-    return cached_path
-def get_cached_files():
-    return [f for f in os.listdir(CACHE_DIR) if f.endswith('.pdf')]
-def process_query(query, pdf_file, cached_file, llm_choice, embedder_choice):
     client = InferenceClient(llm_choice)
     no_rag_response = no_rag(query, client)
-    if pdf_file is not None:
-        pdf_path = cache_file(pdf_file)
-    elif cached_file:
-        pdf_path = os.path.join(CACHE_DIR, cached_file)
-    else:
         return no_rag_response, "RAG non utilisé (pas de fichier PDF)", "RAG non utilisé (pas de fichier PDF)", "Pas de fichier PDF fourni", "Pas de contexte extrait"
     full_text = extract_text_from_pdf(pdf_path)
-    manual_rag_response = manual_rag(query, full_text, client)
     classic_rag_response, classic_rag_context = classic_rag(query, pdf_path, client, embedder_choice)
     return no_rag_response, manual_rag_response, classic_rag_response, full_text, classic_rag_context
 iface = gr.Interface(
     fn=process_query,
     inputs=[
         gr.Textbox(label="Votre question"),
         gr.File(label="Chargez un nouveau PDF"),
-        gr.Dropdown(choices=get_cached_files, label="Ou choisissez un PDF déjà téléversé", interactive=True),
-        gr.Dropdown(choices=get_hf_models(), label="Choisissez le LLM", value="Qwen/Qwen2.5-3B-Instruct"),
         gr.Dropdown(choices=["sentence-transformers/all-MiniLM-L6-v2", "nomic-ai/nomic-embed-text-v1.5"],
-                    label="Choisissez l'Embedder", value="sentence-transformers/all-MiniLM-L6-v2")
     ],
     outputs=[
         gr.Textbox(label="Réponse sans RAG"),

 from huggingface_hub import InferenceClient
 from transformers import AutoTokenizer, AutoModel
 from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain_huggingface import HuggingFaceEmbeddings
+from langchain_community.vectorstores import FAISS
 import fitz  # PyMuPDF
 def get_hf_models():
     return ["Qwen/Qwen2.5-3B-Instruct", "HuggingFaceH4/zephyr-7b-beta", "mistralai/Mistral-7B-Instruct-v0.1"]
     response = client.text_generation(query, max_new_tokens=512)
     return response
+def process_query(query, pdf_path, llm_choice, embedder_choice, use_manual_rag):
     client = InferenceClient(llm_choice)
     no_rag_response = no_rag(query, client)
+    if pdf_path is None:
         return no_rag_response, "RAG non utilisé (pas de fichier PDF)", "RAG non utilisé (pas de fichier PDF)", "Pas de fichier PDF fourni", "Pas de contexte extrait"
     full_text = extract_text_from_pdf(pdf_path)
+    # RAG manuel seulement si choisi
+    if use_manual_rag == "Oui":
+        manual_rag_response = manual_rag(query, full_text, client)
+    else:
+        manual_rag_response = "RAG manuel non utilisé"
     classic_rag_response, classic_rag_context = classic_rag(query, pdf_path, client, embedder_choice)
     return no_rag_response, manual_rag_response, classic_rag_response, full_text, classic_rag_context
 iface = gr.Interface(
     fn=process_query,
     inputs=[
         gr.Textbox(label="Votre question"),
         gr.File(label="Chargez un nouveau PDF"),
+        gr.Dropdown(choices=get_hf_models(), label="Choisissez le LLM", value="HuggingFaceH4/zephyr-7b-beta"),
         gr.Dropdown(choices=["sentence-transformers/all-MiniLM-L6-v2", "nomic-ai/nomic-embed-text-v1.5"],
+                    label="Choisissez l'Embedder", value="sentence-transformers/all-MiniLM-L6-v2"),
+        gr.Dropdown(choices=["Oui", "Non"], label="Utiliser RAG manuel ?", value="Non")  # Ajout de la combobox pour choisir RAG manuel
     ],
     outputs=[
         gr.Textbox(label="Réponse sans RAG"),