import os import torch from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline from langchain_huggingface.llms import HuggingFacePipeline from unsloth import FastLanguageModel import dotenv dotenv() ''' FastLanguageModel 사용하여 모델 불러오기 Fine-tuning을 도와주는 Unsloth 패키지를 사용하여 모델 불러오기 불러오는 모델 repo안에 adapter_config가 존재하면 안된다. 빠른 추론 할 수 있도록 도와준다. ''' def load_Fast(): max_seq_length = 2048 hf_token = os.getenv('hf_token') model, tokenizer = FastLanguageModel.from_pretrained( model_name="Dongwookss/last_small_pre", # adapter_config가 존재하지 않는 모델명으로 불러와야한다. max_seq_length=max_seq_length, dtype=None, load_in_4bit=False, token = hf_token, ) pipe = pipeline( "text-generation", model=model, tokenizer=tokenizer, max_new_tokens=2048, ) llm = HuggingFacePipeline( pipeline=pipe, model_kwargs={"temperature": 0.7}, ) return llm