Llama-3.1-70B-Instruct

Sleeping

File size: 1,629 Bytes

0df6dbb
79cb6aa
bc25e39
 
0df6dbb
79cb6aa
0df6dbb
79cb6aa
 
0aee4ec
79cb6aa
0df6dbb
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
79cb6aa
 
a8a3bf6
0df6dbb
 
 
 
efaf8aa
0df6dbb
 
 
 
 
 
6221a34
 
 
3ca7e26
0df6dbb
 
3ca7e26
6221a34
 
0df6dbb
a4084eb
0df6dbb

import gradio as gr
from openai import OpenAI
import os


TOKEN = os.getenv("HF_TOKEN")

client = OpenAI(
    base_url="https://api-inference.huggingface.co/v1/",
    api_key=TOKEN,
)

def respond(
    message,
    history: list[tuple[str, str]],
    system_message,
    max_tokens,
    temperature,
    top_p,
):
    messages = [{"role": "system", "content": system_message}]

    for val in history:
        if val[0]:
            messages.append({"role": "user", "content": val[0]})
        if val[1]:
            messages.append({"role": "assistant", "content": val[1]})

    messages.append({"role": "user", "content": message})

    response = ""
    
    for message in  client.chat.completions.create(
        model="meta-llama/Llama-3.1-70B-Instruct",
        max_tokens=max_tokens,
        stream=True,
        temperature=temperature,
        top_p=top_p,
        messages=messages,
    ):
        token = message.choices[0].delta.content

        response += token
        yield response

theme="Nymbo/Alyx_Theme"

chatbot = gr.Chatbot(height=600)

demo = gr.ChatInterface(
    respond,
    theme=theme,
    fill_height=True,
    chatbot=chatbot,
    additional_inputs=[
        gr.Textbox(label="System message"),
        gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
        gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
        gr.Slider(
            minimum=0.1,
            maximum=1.0,
            value=0.95,
            step=0.05,
            label="Top-p (nucleus sampling)",
        ),
    ],
)


if __name__ == "__main__":
    demo.launch()