Spaces:

lpetrl
/

LLM-API

Build error

App Files Files Community

lpetrl commited on Feb 29

Commit

7626706

•

1 Parent(s): 37fd751

feat(API): Implemented basic API functionality.

Browse files

Files changed (9) hide show

.dockerignore +0 -0
.gitattributes +2 -0
.gitignore +2 -1
Dockerfile +14 -0
requirements.txt +4 -0
src/api_run.py +13 -0
src/handlers.py +39 -0
src/modules/data_models.py +9 -0
src/modules/dialog_system.py +46 -0

.dockerignore ADDED Viewed

File without changes

.gitattributes ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ models/zephyr-7b-beta.Q4_K_S.gguf filter=lfs diff=lfs merge=lfs -text
2	+ file-path filter=lfs diff=lfs merge=lfs -text

.gitignore CHANGED Viewed

@@ -14,6 +14,7 @@ dist/
 downloads/
 eggs/
 .eggs/
 lib/
 lib64/
 parts/
@@ -120,7 +121,7 @@ celerybeat.pid
 *.sage.py
 # Environments
-.env
 .venv
 env/
 venv/

 downloads/
 eggs/
 .eggs/
+.idea/
 lib/
 lib64/
 parts/
 *.sage.py
 # Environments
+config.yaml
 .venv
 env/
 venv/

Dockerfile ADDED Viewed

	@@ -0,0 +1,14 @@

+FROM python:3.9
+COPY requirements.txt ./requirements.txt
+RUN python -m pip install -U pip && \
+    python -m pip install -r requirements.txt && \
+    python -m pip cache purge
+COPY ./src /app/src
+COPY ./models /app/models
+WORKDIR /app
+CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "7860"]

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+fastapi==0.85.2
+uvicorn==0.20.0
+llama-cpp-python==0.2.53
+PyYAML==6.0.1

src/api_run.py ADDED Viewed

	@@ -0,0 +1,13 @@

+from fastapi import FastAPI
+from src.handlers import router
+def get_application() -> FastAPI:
+    application = FastAPI()
+    application.include_router(router)
+    return application
+app = get_application()

src/handlers.py ADDED Viewed

	@@ -0,0 +1,39 @@

+import yaml
+from llama_cpp import Llama
+from fastapi import APIRouter, status
+from fastapi.responses import JSONResponse
+from src.modules.dialog_system import ConversationHandler, MessageRole
+from src.modules.data_models import UserMessage, AnswerMessage
+router = APIRouter()
+with open('config.yml', 'r') as file:
+    router.config = yaml.safe_load(file)
+router.llm = Llama(
+    model_path=router.config['model_path'],
+    n_ctx=int(router.config['context_tokens']),
+    max_answer_len=int(router.config['max_answer_tokens'])
+)
+router.conversation = ConversationHandler(
+    model=router.llm,
+    message_role=MessageRole
+)
+@router.get("v1/service/status", status_code=status.HTTP_200_OK)
+async def health() -> AnswerMessage:
+    return AnswerMessage(message="OK")
+@router.get("v1/chat/completions", response_model=AnswerMessage)
+async def chat_completions(user_message: UserMessage) -> AnswerMessage:
+    try:
+        router.conversation.send_message(user_message.prompt)
+        response = router.conversation.generate_reply()
+        return AnswerMessage(message=response)
+    except Exception as e:
+        return JSONResponse(status_code=500, content={"message": str(e)})

src/modules/data_models.py ADDED Viewed

	@@ -0,0 +1,9 @@

+from pydantic import BaseModel
+class UserMessage(BaseModel):
+    prompt: str
+class AnswerMessage(BaseModel):
+    message: str

src/modules/dialog_system.py ADDED Viewed

	@@ -0,0 +1,46 @@

+from dataclasses import dataclass
+from llama_cpp import Llama
+from llama_cpp import ChatCompletionRequestMessage as Message
+from llama_cpp import ChatCompletionRequestSystemMessage as SystemMessage
+from llama_cpp import ChatCompletionRequestAssistantMessage as AssistantMessage
+from llama_cpp import ChatCompletionRequestUserMessage as UserMessage
+@dataclass
+class MessageRole:
+    ASSISTANT: str = "assistant"
+    SYSTEM: str = "system"
+    USER: str = "user"
+    EXIT: str = "exit"
+class ConversationHandler:
+    def __init__(self, model: Llama, message_role: MessageRole) -> None:
+        self.model: Llama = model
+        self.message_role = message_role
+        self.messages: list[Message] = [
+            SystemMessage(
+                role=self.message_role.SYSTEM,
+                content='You are a helpful developer assistant, answer all the questions correctly and concisely.'
+            ),
+            AssistantMessage(role=self.message_role.ASSISTANT, content='Hello, do you have any question?'),
+        ]
+    def send_message(self, content: str):
+        new_message = UserMessage(role=self.message_role.USER, content=content)
+        self.messages.append(new_message)
+    def generate_reply(self) -> str:
+        response = self.model.create_chat_completion(
+            messages=self.messages,
+            temperature=0.7,
+            top_p=0.9,
+            top_k=20,
+            max_tokens=128
+        )
+        response_content = response['choices'][0]['message']
+        self.messages.append(AssistantMessage(role=self.message_role.ASSISTANT, content=response_content))
+        return response_content