Spaces:

SiraH
/

DQA-Llama2-4bit

Sleeping

SiraH commited on Jan 20

Commit

329434b

•

1 Parent(s): f934bd8

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -42,20 +42,20 @@ def split_docs(documents,chunk_size=1000):
     sp_docs = text_splitter.split_documents(documents)
     return sp_docs
-@st.cache_resource
-def load_llama2_llamaCpp():
-    core_model_name = "phi-2.Q4_K_M.gguf"
-    #n_gpu_layers = 32
-    n_batch = 512
-    callback_manager = CallbackManager([StreamingStdOutCallbackHandler()])
-    llm = LlamaCpp(
-        model_path=core_model_name,
-        #n_gpu_layers=n_gpu_layers,
-        n_batch=n_batch,
-        callback_manager=callback_manager,
-        verbose=True,n_ctx = 4096, temperature = 0.1, max_tokens = 128
-    )
-    return llm
 def set_custom_prompt():
     custom_prompt_template = """ Use the following pieces of information from context to answer the user's question.
@@ -91,7 +91,19 @@ def main():
     # llm = HuggingFaceHub(
     # repo_id=repo_id, model_kwargs={"temperature": 0.1, "max_length": 128})
-    llm = load_llama2_llamaCpp()
     qa_prompt = set_custom_prompt()
     embeddings = load_embeddings()

     sp_docs = text_splitter.split_documents(documents)
     return sp_docs
+# @st.cache_resource
+# def load_llama2_llamaCpp():
+#     core_model_name = "llama-2-7b-chat.Q4_0.gguf"
+#     #n_gpu_layers = 32
+#     n_batch = 512
+#     callback_manager = CallbackManager([StreamingStdOutCallbackHandler()])
+#     llm = LlamaCpp(
+#         model_path=core_model_name,
+#         #n_gpu_layers=n_gpu_layers,
+#         n_batch=n_batch,
+#         callback_manager=callback_manager,
+#         verbose=True,n_ctx = 4096, temperature = 0.1, max_tokens = 128
+#     )
+#     return llm
 def set_custom_prompt():
     custom_prompt_template = """ Use the following pieces of information from context to answer the user's question.
     # llm = HuggingFaceHub(
     # repo_id=repo_id, model_kwargs={"temperature": 0.1, "max_length": 128})
+    core_model_name = "llama-2-7b-chat.Q4_0.gguf"
+    #n_gpu_layers = 32
+    n_batch = 512
+    callback_manager = CallbackManager([StreamingStdOutCallbackHandler()])
+    llm = LlamaCpp(
+        model_path=core_model_name,
+        #n_gpu_layers=n_gpu_layers,
+        n_batch=n_batch,
+        callback_manager=callback_manager,
+        verbose=True,n_ctx = 4096, temperature = 0.1, max_tokens = 128
+    )
+    # llm = load_llama2_llamaCpp()
     qa_prompt = set_custom_prompt()
     embeddings = load_embeddings()