Spaces:

Bofeee5675
/

FIRE

Running

App Files Files Community

zhangbofei commited on Jul 1

Commit

2238fe2

•

1 Parent(s): 8d7d353

fix: src

Browse files

Files changed (14) hide show

src/serve/api_provider.py +1 -1
src/serve/base_model_worker.py +3 -3
src/serve/cli.py +7 -7
src/serve/controller.py +2 -2
src/serve/gradio_block_arena_named.py +5 -5
src/serve/gradio_block_arena_vision_anony.py +8 -8
src/serve/huggingface_api.py +1 -1
src/serve/huggingface_api_worker.py +3 -3
src/serve/inference.py +7 -7
src/serve/lightllm_worker.py +2 -2
src/serve/mlx_worker.py +3 -3
src/serve/model_worker.py +8 -8
src/serve/multi_model_worker.py +11 -11
src/serve/openai_api_server.py +6 -6

src/serve/api_provider.py CHANGED Viewed

@@ -9,7 +9,7 @@ import time
 import requests
-from fastchat.utils import build_logger
 logger = build_logger("gradio_web_server", "gradio_web_server.log")

 import requests
+from src.utils import build_logger
 logger = build_logger("gradio_web_server", "gradio_web_server.log")

src/serve/base_model_worker.py CHANGED Viewed

@@ -7,9 +7,9 @@ from fastapi import FastAPI, Request, BackgroundTasks
 from fastapi.responses import StreamingResponse, JSONResponse
 import requests
-from fastchat.constants import WORKER_HEART_BEAT_INTERVAL
-from fastchat.conversation import Conversation
-from fastchat.utils import pretty_print_semaphore, build_logger
 worker = None

 from fastapi.responses import StreamingResponse, JSONResponse
 import requests
+from src.constants import WORKER_HEART_BEAT_INTERVAL
+from src.conversation import Conversation
+from src.utils import pretty_print_semaphore, build_logger
 worker = None

src/serve/cli.py CHANGED Viewed

@@ -28,13 +28,13 @@ from rich.live import Live
 from rich.markdown import Markdown
 import torch
-from fastchat.model.model_adapter import add_model_args
-from fastchat.modules.awq import AWQConfig
-from fastchat.modules.exllama import ExllamaConfig
-from fastchat.modules.xfastertransformer import XftConfig
-from fastchat.modules.gptq import GptqConfig
-from fastchat.serve.inference import ChatIO, chat_loop
-from fastchat.utils import str_to_torch_dtype
 class SimpleChatIO(ChatIO):

 from rich.markdown import Markdown
 import torch
+from src.model.model_adapter import add_model_args
+from src.modules.awq import AWQConfig
+from src.modules.exllama import ExllamaConfig
+from src.modules.xfastertransformer import XftConfig
+from src.modules.gptq import GptqConfig
+from src.serve.inference import ChatIO, chat_loop
+from src.utils import str_to_torch_dtype
 class SimpleChatIO(ChatIO):

src/serve/controller.py CHANGED Viewed

@@ -19,13 +19,13 @@ import numpy as np
 import requests
 import uvicorn
-from fastchat.constants import (
     CONTROLLER_HEART_BEAT_EXPIRATION,
     WORKER_API_TIMEOUT,
     ErrorCode,
     SERVER_ERROR_MSG,
 )
-from fastchat.utils import build_logger
 logger = build_logger("controller", "controller.log")

 import requests
 import uvicorn
+from src.constants import (
     CONTROLLER_HEART_BEAT_EXPIRATION,
     WORKER_API_TIMEOUT,
     ErrorCode,
     SERVER_ERROR_MSG,
 )
+from src.utils import build_logger
 logger = build_logger("controller", "controller.log")

src/serve/gradio_block_arena_named.py CHANGED Viewed

@@ -9,14 +9,14 @@ import time
 import gradio as gr
 import numpy as np
-from fastchat.constants import (
     MODERATION_MSG,
     CONVERSATION_LIMIT_MSG,
     INPUT_CHAR_LEN_LIMIT,
     CONVERSATION_TURN_LIMIT,
 )
-from fastchat.model.model_adapter import get_conversation_template
-from fastchat.serve.gradio_web_server import (
     State,
     bot_response,
     get_conv_log_filename,
@@ -29,8 +29,8 @@ from fastchat.serve.gradio_web_server import (
     _prepare_text_with_image,
     get_model_description_md,
 )
-from fastchat.serve.remote_logger import get_remote_logger
-from fastchat.utils import (
     build_logger,
     moderation_filter,
 )

 import gradio as gr
 import numpy as np
+from src.constants import (
     MODERATION_MSG,
     CONVERSATION_LIMIT_MSG,
     INPUT_CHAR_LEN_LIMIT,
     CONVERSATION_TURN_LIMIT,
 )
+from src.model.model_adapter import get_conversation_template
+from src.serve.gradio_web_server import (
     State,
     bot_response,
     get_conv_log_filename,
     _prepare_text_with_image,
     get_model_description_md,
 )
+from src.serve.remote_logger import get_remote_logger
+from src.utils import (
     build_logger,
     moderation_filter,
 )

src/serve/gradio_block_arena_vision_anony.py CHANGED Viewed

@@ -9,7 +9,7 @@ import time
 import gradio as gr
 import numpy as np
-from fastchat.constants import (
     TEXT_MODERATION_MSG,
     IMAGE_MODERATION_MSG,
     MODERATION_MSG,
@@ -18,9 +18,9 @@ from fastchat.constants import (
     INPUT_CHAR_LEN_LIMIT,
     CONVERSATION_TURN_LIMIT,
 )
-from fastchat.model.model_adapter import get_conversation_template
-from fastchat.serve.gradio_block_arena_named import flash_buttons
-from fastchat.serve.gradio_web_server import (
     State,
     bot_response,
     get_conv_log_filename,
@@ -33,7 +33,7 @@ from fastchat.serve.gradio_web_server import (
     get_model_description_md,
     _prepare_text_with_image,
 )
-from fastchat.serve.gradio_block_arena_anony import (
     flash_buttons,
     vote_last_response,
     leftvote_last_response,
@@ -50,15 +50,15 @@ from fastchat.serve.gradio_block_arena_anony import (
     get_sample_weight,
     get_battle_pair,
 )
-from fastchat.serve.gradio_block_arena_vision import (
     get_vqa_sample,
     set_invisible_image,
     set_visible_image,
     add_image,
     moderate_input,
 )
-from fastchat.serve.remote_logger import get_remote_logger
-from fastchat.utils import (
     build_logger,
     moderation_filter,
     image_moderation_filter,

 import gradio as gr
 import numpy as np
+from src.constants import (
     TEXT_MODERATION_MSG,
     IMAGE_MODERATION_MSG,
     MODERATION_MSG,
     INPUT_CHAR_LEN_LIMIT,
     CONVERSATION_TURN_LIMIT,
 )
+from src.model.model_adapter import get_conversation_template
+from src.serve.gradio_block_arena_named import flash_buttons
+from src.serve.gradio_web_server import (
     State,
     bot_response,
     get_conv_log_filename,
     get_model_description_md,
     _prepare_text_with_image,
 )
+from src.serve.gradio_block_arena_anony import (
     flash_buttons,
     vote_last_response,
     leftvote_last_response,
     get_sample_weight,
     get_battle_pair,
 )
+from src.serve.gradio_block_arena_vision import (
     get_vqa_sample,
     set_invisible_image,
     set_visible_image,
     add_image,
     moderate_input,
 )
+from src.serve.remote_logger import get_remote_logger
+from src.utils import (
     build_logger,
     moderation_filter,
     image_moderation_filter,

src/serve/huggingface_api.py CHANGED Viewed

@@ -9,7 +9,7 @@ import argparse
 import torch
-from fastchat.model import load_model, get_conversation_template, add_model_args
 @torch.inference_mode()

 import torch
+from src.model import load_model, get_conversation_template, add_model_args
 @torch.inference_mode()

src/serve/huggingface_api_worker.py CHANGED Viewed

@@ -34,9 +34,9 @@ from fastapi import BackgroundTasks, FastAPI, Request
 from fastapi.responses import JSONResponse, StreamingResponse
 from huggingface_hub import InferenceClient
-from fastchat.constants import SERVER_ERROR_MSG, ErrorCode
-from fastchat.serve.base_model_worker import BaseModelWorker
-from fastchat.utils import build_logger
 worker_id = str(uuid.uuid4())[:8]
 logger = build_logger("model_worker", f"model_worker_{worker_id}.log")

 from fastapi.responses import JSONResponse, StreamingResponse
 from huggingface_hub import InferenceClient
+from src.constants import SERVER_ERROR_MSG, ErrorCode
+from src.serve.base_model_worker import BaseModelWorker
+from src.utils import build_logger
 worker_id = str(uuid.uuid4())[:8]
 logger = build_logger("model_worker", f"model_worker_{worker_id}.log")

src/serve/inference.py CHANGED Viewed

@@ -29,17 +29,17 @@ from transformers.generation.logits_process import (
     TopPLogitsWarper,
 )
-from fastchat.conversation import get_conv_template, SeparatorStyle
-from fastchat.model.model_adapter import (
     load_model,
     get_conversation_template,
     get_generate_stream_function,
 )
-from fastchat.modules.awq import AWQConfig
-from fastchat.modules.gptq import GptqConfig
-from fastchat.modules.exllama import ExllamaConfig
-from fastchat.modules.xfastertransformer import XftConfig
-from fastchat.utils import is_partial_stop, is_sentence_complete, get_context_length
 def prepare_logits_processor(

     TopPLogitsWarper,
 )
+from src.conversation import get_conv_template, SeparatorStyle
+from src.model.model_adapter import (
     load_model,
     get_conversation_template,
     get_generate_stream_function,
 )
+from src.modules.awq import AWQConfig
+from src.modules.gptq import GptqConfig
+from src.modules.exllama import ExllamaConfig
+from src.modules.xfastertransformer import XftConfig
+from src.utils import is_partial_stop, is_sentence_complete, get_context_length
 def prepare_logits_processor(

src/serve/lightllm_worker.py CHANGED Viewed

@@ -18,8 +18,8 @@ from typing import List
 from fastapi import FastAPI, Request, BackgroundTasks
 from fastapi.responses import StreamingResponse, JSONResponse
-from fastchat.serve.base_model_worker import BaseModelWorker
-from fastchat.serve.model_worker import (
     logger,
     worker_id,
 )

 from fastapi import FastAPI, Request, BackgroundTasks
 from fastapi.responses import StreamingResponse, JSONResponse
+from src.serve.base_model_worker import BaseModelWorker
+from src.serve.model_worker import (
     logger,
     worker_id,
 )

src/serve/mlx_worker.py CHANGED Viewed

@@ -22,12 +22,12 @@ from fastapi.concurrency import run_in_threadpool
 from fastapi.responses import StreamingResponse, JSONResponse
 import uvicorn
-from fastchat.serve.base_model_worker import BaseModelWorker
-from fastchat.serve.model_worker import (
     logger,
     worker_id,
 )
-from fastchat.utils import get_context_length, is_partial_stop
 import mlx.core as mx
 from mlx_lm import load, generate

 from fastapi.responses import StreamingResponse, JSONResponse
 import uvicorn
+from src.serve.base_model_worker import BaseModelWorker
+from src.serve.model_worker import (
     logger,
     worker_id,
 )
+from src.utils import get_context_length, is_partial_stop
 import mlx.core as mx
 from mlx_lm import load, generate

src/serve/model_worker.py CHANGED Viewed

@@ -14,18 +14,18 @@ import torch.nn.functional as F
 from transformers import set_seed
 import uvicorn
-from fastchat.constants import ErrorCode, SERVER_ERROR_MSG
-from fastchat.model.model_adapter import (
     load_model,
     add_model_args,
     get_generate_stream_function,
 )
-from fastchat.modules.awq import AWQConfig
-from fastchat.modules.exllama import ExllamaConfig
-from fastchat.modules.xfastertransformer import XftConfig
-from fastchat.modules.gptq import GptqConfig
-from fastchat.serve.base_model_worker import BaseModelWorker, app
-from fastchat.utils import (
     build_logger,
     get_context_length,
     str_to_torch_dtype,

 from transformers import set_seed
 import uvicorn
+from src.constants import ErrorCode, SERVER_ERROR_MSG
+from src.model.model_adapter import (
     load_model,
     add_model_args,
     get_generate_stream_function,
 )
+from src.modules.awq import AWQConfig
+from src.modules.exllama import ExllamaConfig
+from src.modules.xfastertransformer import XftConfig
+from src.modules.gptq import GptqConfig
+from src.serve.base_model_worker import BaseModelWorker, app
+from src.utils import (
     build_logger,
     get_context_length,
     str_to_torch_dtype,

src/serve/multi_model_worker.py CHANGED Viewed

@@ -44,21 +44,21 @@ import torch
 import torch.nn.functional as F
 import uvicorn
-from fastchat.constants import WORKER_HEART_BEAT_INTERVAL, ErrorCode, SERVER_ERROR_MSG
-from fastchat.model.model_adapter import (
     load_model,
     add_model_args,
     get_conversation_template,
 )
-from fastchat.model.model_chatglm import generate_stream_chatglm
-from fastchat.model.model_falcon import generate_stream_falcon
-from fastchat.model.model_codet5p import generate_stream_codet5p
-from fastchat.modules.gptq import GptqConfig
-from fastchat.modules.exllama import ExllamaConfig
-from fastchat.modules.xfastertransformer import XftConfig
-from fastchat.serve.inference import generate_stream
-from fastchat.serve.model_worker import ModelWorker, worker_id, logger
-from fastchat.utils import build_logger, pretty_print_semaphore, get_context_length
 # We store both the underlying workers and a mapping from their model names to

 import torch.nn.functional as F
 import uvicorn
+from src.constants import WORKER_HEART_BEAT_INTERVAL, ErrorCode, SERVER_ERROR_MSG
+from src.model.model_adapter import (
     load_model,
     add_model_args,
     get_conversation_template,
 )
+from src.model.model_chatglm import generate_stream_chatglm
+from src.model.model_falcon import generate_stream_falcon
+from src.model.model_codet5p import generate_stream_codet5p
+from src.modules.gptq import GptqConfig
+from src.modules.exllama import ExllamaConfig
+from src.modules.xfastertransformer import XftConfig
+from src.serve.inference import generate_stream
+from src.serve.model_worker import ModelWorker, worker_id, logger
+from src.utils import build_logger, pretty_print_semaphore, get_context_length
 # We store both the underlying workers and a mapping from their model names to

src/serve/openai_api_server.py CHANGED Viewed

@@ -5,7 +5,7 @@
 - Embeddings. (Reference: https://platform.openai.com/docs/api-reference/embeddings)
 Usage:
-python3 -m fastchat.serve.openai_api_server
 """
 import asyncio
 import argparse
@@ -27,13 +27,13 @@ import shortuuid
 import tiktoken
 import uvicorn
-from fastchat.constants import (
     WORKER_API_TIMEOUT,
     WORKER_API_EMBEDDING_BATCH_SIZE,
     ErrorCode,
 )
-from fastchat.conversation import Conversation, SeparatorStyle
-from fastchat.protocol.openai_api_protocol import (
     ChatCompletionRequest,
     ChatCompletionResponse,
     ChatCompletionResponseStreamChoice,
@@ -55,13 +55,13 @@ from fastchat.protocol.openai_api_protocol import (
     ModelPermission,
     UsageInfo,
 )
-from fastchat.protocol.api_protocol import (
     APIChatCompletionRequest,
     APITokenCheckRequest,
     APITokenCheckResponse,
     APITokenCheckResponseItem,
 )
-from fastchat.utils import build_logger
 logger = build_logger("openai_api_server", "openai_api_server.log")

 - Embeddings. (Reference: https://platform.openai.com/docs/api-reference/embeddings)
 Usage:
+python3 -m src.serve.openai_api_server
 """
 import asyncio
 import argparse
 import tiktoken
 import uvicorn
+from src.constants import (
     WORKER_API_TIMEOUT,
     WORKER_API_EMBEDDING_BATCH_SIZE,
     ErrorCode,
 )
+from src.conversation import Conversation, SeparatorStyle
+from src.protocol.openai_api_protocol import (
     ChatCompletionRequest,
     ChatCompletionResponse,
     ChatCompletionResponseStreamChoice,
     ModelPermission,
     UsageInfo,
 )
+from src.protocol.api_protocol import (
     APIChatCompletionRequest,
     APITokenCheckRequest,
     APITokenCheckResponse,
     APITokenCheckResponseItem,
 )
+from src.utils import build_logger
 logger = build_logger("openai_api_server", "openai_api_server.log")