Spaces:

BeveledCube
/

bevelapi

Sleeping

BeveledCube commited on Apr 17

Commit

5516522

•

1 Parent(s): dda9b20

idk

Files changed (3) hide show

.gitignore CHANGED Viewed

main.py CHANGED Viewed

@@ -16,14 +16,14 @@ def test_route():
 @app.route("/api", methods=["POST"])
 def receive_data():
   data = request.get_json()
   print("Prompt:", data["prompt"])
-  print("System:", data["prompt"])
-  generated_text = mixtral.generate("helo", "You are friendly", ["helo"], False, False)
-  answer_data = { "answer": generated_text }
   print("Response:", generated_text)
-  return jsonify(answer_data)
 app.run(host="0.0.0.0", port=7860, debug=False)

 @app.route("/api", methods=["POST"])
 def receive_data():
   data = request.get_json()
   print("Prompt:", data["prompt"])
+  print("System:", data["system"])
+  generated_text = mixtral.generate(data["prompt"], data["system"], data["history"], False, None)
   print("Response:", generated_text)
+  return { "answer": generated_text }
 app.run(host="0.0.0.0", port=7860, debug=False)

models/mixtral.py CHANGED Viewed

@@ -9,20 +9,20 @@ def split_list(lst, chunk_size):
 def format_prompt(message, history, system_prompt):
   prompt = f"<s>[INST] <<SYS>>{system_prompt}<</SYS>> [/INST] </s>" if system_prompt else "<s>"
-  for user_prompt, bot_response in history:
     prompt += f"[INST] {user_prompt} [/INST]"
-    prompt += f" {bot_response}</s> "
   prompt += f"[INST] {message} [/INST]"
   return prompt
 def generate(
   prompt, system_prompt, history, shouldoverridehistory, historyoverride, max_new_tokens=1024, temperature=1.2, top_p=0.95, repetition_penalty=1.0,
 ):
-  print(history)
-  print(historyoverride)
   temperature = float(temperature)
   if temperature < 1e-2:
-      temperature = 1e-2
   top_p = float(top_p)
   generate_kwargs = dict(
@@ -37,15 +37,9 @@ def generate(
   if shouldoverridehistory:
     history = split_list(historyoverride[0], 2)
-  print(history)
   formatted_prompt = format_prompt(prompt, history, system_prompt)
-  stream = client.text_generation(formatted_prompt, **generate_kwargs, stream=True, details=True, return_full_text=False)
-  output = ""
-  for response in stream:
-    output += response.token.text
-    yield output
-  return output

 def format_prompt(message, history, system_prompt):
   prompt = f"<s>[INST] <<SYS>>{system_prompt}<</SYS>> [/INST] </s>" if system_prompt else "<s>"
+  for user_prompt in history:
     prompt += f"[INST] {user_prompt} [/INST]"
   prompt += f"[INST] {message} [/INST]"
   return prompt
 def generate(
   prompt, system_prompt, history, shouldoverridehistory, historyoverride, max_new_tokens=1024, temperature=1.2, top_p=0.95, repetition_penalty=1.0,
 ):
   temperature = float(temperature)
   if temperature < 1e-2:
+    temperature = 1e-2
   top_p = float(top_p)
   generate_kwargs = dict(
   if shouldoverridehistory:
     history = split_list(historyoverride[0], 2)
   formatted_prompt = format_prompt(prompt, history, system_prompt)
+  print(formatted_prompt)
+  stream = client.text_generation(formatted_prompt, **generate_kwargs, stream=False, details=True, return_full_text=False)
+  return stream