Spaces:

fakeym
/

travel

Sleeping

App Files Files Community

fakeym commited on Aug 18

Commit

fd22a9b

•

1 Parent(s): d661683

Upload 8 files

Browse files

Files changed (8) hide show

travel/RAGGraph.py +202 -0
travel/__pycache__/RAGGraph.cpython-39.pyc +0 -0
travel/__pycache__/self_rag_tool.cpython-39.pyc +0 -0
travel/database_generate.py +183 -0
travel/rag_tool.py +115 -0
travel/self_rag_tool.py +158 -0
travel/travel.py +237 -0
travel/travel_new.py +236 -0

travel/RAGGraph.py ADDED Viewed

	@@ -0,0 +1,202 @@

+import time
+from typing import List, TypedDict, Type, Any, Annotated
+from langchain_core.messages import SystemMessage, HumanMessage, AIMessage, AnyMessage
+from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
+from langchain_core.tools import BaseTool
+from langchain_openai import ChatOpenAI
+from langchain.agents import create_openai_tools_agent,AgentExecutor
+from langgraph.constants import END
+from langgraph.graph import StateGraph,MessagesState
+from pydantic.v1 import BaseModel, Field
+import concurrent.futures
+from self_rag_tool import GradeAndGenerateTool
+class CreateLangGraphState(TypedDict):
+    question: str
+    generation: str
+    documents: List[str]  # 检索后的信息，或者通过筛选后的信息
+class self_RAGTool(object):
+    def __init__(self) -> None:
+        self.tools = GradeAndGenerateTool()
+        self.workflow = StateGraph(CreateLangGraphState)
+        self.workflow.add_node("retrieve", self.retrieve)
+        self.workflow.add_node("grade_documents", self.grade_documents)
+        self.workflow.add_node("generate_llm", self.generate_llm)
+        self.workflow.add_node("rewrite_question", self.rewrite_question)
+        self.workflow.set_entry_point("retrieve")
+        self.workflow.add_edge("retrieve", "grade_documents")
+        self.workflow.add_edge("grade_documents", "generate_llm")
+        self.workflow.add_conditional_edges("generate_llm", self.hallucinations_generate,
+                                    {"generate_llm": "generate_llm", "rewrite_question": "rewrite_question", "useful": END})
+        self.workflow.add_edge("rewrite_question", "retrieve")
+        self.graph = self.workflow.compile()
+    def retrieve(self,state):
+        question = state["question"]
+        a=time.time()
+        documents = self.tools.search_vector(question)
+        print("retrieve:",time.time()-a)
+        # result_documents = []
+        # for info in documents[0]:
+        #     result_documents.append(info["entity"]["text"])
+        return {
+            "documents": documents,
+            "question": question,
+        }
+    def grade_documents(self,state):
+        question = state["question"]
+        documents = state["documents"]
+        result_documents = []
+        a=time.time()
+        for info in documents:
+            # 传入问题，并通过大模型判断当前文档是否与问题相关
+            # 如果是yes，则加入result_documents，否则丢弃
+            result = self.tools.grade(question=question, text=info)
+            if result == "yes":
+                result_documents.append(info)
+            else:
+                continue
+        print("grade_documents:",time.time()-a)
+        return {"question": question, "documents": result_documents}
+    def generate_llm(self,state):
+        question = state["question"]
+        documents = state["documents"]
+        documents_str = "\n".join(documents).replace("{", "").replace("}", "")
+        a=time.time()
+        result = self.tools.generate(question=question, text=documents_str)
+        print("generate_llm:",time.time()-a)
+        return {"question": question, "generation": result, "documents": documents}
+    def hallucinations_generate(self,state):
+        print("调用幻觉判断的方法")
+        question = state["question"]
+        generation = state["generation"]
+        documents = state["documents"]
+        documents_str = "\n".join(documents)
+        a=time.time()
+        result = self.tools.hallucinations(documents=documents_str, answer=generation)
+        print("hallucinations_generate:",time.time()-a)
+        if result == "yes":
+            return "generate_llm"
+        else:
+            generation = self.tools.answer_question(question=question, answer=generation)
+            if generation == "yes":
+                return "useful"
+            else:
+                return "rewrite_question"
+    def rewrite_question(self,state):
+        question = state["question"]
+        a=time.time()
+        result = self.tools.rewrite_question(question=question)
+        print("rewrite_question:",time.time()-a)
+        return {"question": result}
+    def get_answer(self,question):
+        res = self.graph.invoke({"question":question})
+        return res['generation']
+class RAGTool(object):
+    def __init__(self) -> None:
+        self.tools = GradeAndGenerateTool()
+        self.workflow = StateGraph(CreateLangGraphState)
+        self.workflow.add_node("retrieve", self.retrieve)
+        self.workflow.add_node("generate_llm", self.generate_llm)
+        self.workflow.set_entry_point("retrieve")
+        self.workflow.add_edge("retrieve", "generate_llm")
+        self.workflow.add_edge("generate_llm", END)
+        self.graph = self.workflow.compile()
+    def retrieve(self,state):
+        question = state["question"]
+        a=time.time()
+        documents = self.tools.search_vector(question)
+        print("retrieve:",time.time()-a)
+        # result_documents = []
+        # for info in documents[0]:
+        #     result_documents.append(info["entity"]["text"])
+        return {
+            "documents": documents,
+            "question": question,
+        }
+    def grade_documents(self,state):
+        question = state["question"]
+        documents = state["documents"]
+        result_documents = []
+        a=time.time()
+        for info in documents:
+            # 传入问题，并通过大模型判断当前文档是否与问题相关
+            # 如果是yes，则加入result_documents，否则丢弃
+            result = self.tools.grade(question=question, text=info)
+            if result == "yes":
+                result_documents.append(info)
+            else:
+                continue
+        print("grade_documents:",time.time()-a)
+        return {"question": question, "documents": result_documents}
+    def generate_llm(self,state):
+        question = state["question"]
+        documents = state["documents"]
+        documents_str = "\n".join(documents)
+        a=time.time()
+        result = self.tools.generate(question=question, text=documents_str)
+        print("generate_llm:",time.time()-a)
+        return {"question": question, "generation": result, "documents": documents}
+    def hallucinations_generate(self,state):
+        print("调用幻觉判断的方法")
+        question = state["question"]
+        generation = state["generation"]
+        documents = state["documents"]
+        documents_str = "\n".join(documents)
+        a=time.time()
+        result = self.tools.hallucinations(documents=documents_str, answer=generation)
+        print("hallucinations_generate:",time.time()-a)
+        if result == "yes":
+            return "generate_llm"
+        else:
+            generation = self.tools.answer_question(question=question, answer=generation)
+            if generation == "yes":
+                return "useful"
+            else:
+                return "rewrite_question"
+    def rewrite_question(self,state):
+        question = state["question"]
+        a=time.time()
+        result = self.tools.rewrite_question(question=question)
+        print("rewrite_question:",time.time()-a)
+        return {"question": result}
+    def get_answer(self,question):
+        res = self.graph.invoke({"question":question})
+        return res['generation']
+# messages = []
+# while True:
+#     question = input("请输入问题：")
+#     messages.append(HumanMessage(content=question))
+#     res = graph.invoke({"question":messages.content})
+#     messages.append(AIMessage(content=res["output"]))
+#     print(res["output"])

travel/__pycache__/RAGGraph.cpython-39.pyc ADDED Viewed

Binary file (5.53 kB). View file

travel/__pycache__/self_rag_tool.cpython-39.pyc ADDED Viewed

Binary file (9.13 kB). View file

travel/database_generate.py ADDED Viewed

	@@ -0,0 +1,183 @@

+import json
+import os
+from dotenv import load_dotenv
+from langchain_community.document_loaders import PyPDFLoader, Docx2txtLoader, UnstructuredMarkdownLoader, CSVLoader
+from langchain_core.documents import Document
+from langchain_core.messages import SystemMessage, HumanMessage
+from pydantic.v1 import Field, BaseModel
+from langchain_openai import OpenAIEmbeddings, ChatOpenAI
+from langchain_text_splitters import CharacterTextSplitter, RecursiveJsonSplitter
+from pymilvus import MilvusClient
+from tqdm import tqdm
+from transformers import AutoModel, AutoTokenizer
+import torch
+from pdfminer.high_level import extract_pages
+from pdfminer.layout import LTTextContainer
+from pypinyin import lazy_pinyin
+import chromadb
+from chromadb.config import Settings
+from typing import Literal, TypedDict
+# from project.config import base_url
+# _ = load_dotenv("/Users/zhulang/work/llm/self_rag/.env")
+class KnowledgeType(BaseModel):
+    """
+    将用户查询路由到最相关的数据源
+    """
+    route: Literal['澳门', '青海', '周庄', '上海', '天津', '黄果树', '黔东南', '九寨沟', '广西', '贵阳', '扬州', '济南', '香格里拉', '香港', '昆明', '宁波', '林芝', '台北', '三清山', '呼伦贝尔', '鼓浪屿', '婺源', '厦门', '张家界', '故宫', '北戴河', '西藏', '杭州', '大同', '泰山', '秦皇岛', '成都', '凤凰', '兰州', '华山', '浙江', '哈尔滨', '沈阳', '云台山', '福州', '甘南', '三亚', '长沙', '敦煌', '苏州', '青城山', '束河', '南宁', '乌镇', '镇江', '丽江', '西塘', '黄山', '平遥', '五台山', '连云港', '拉萨', '西双版纳', '峨眉山', '武夷山', '宏村', '衡山', '横店', '北海', '桂林', '山海关', '长岛', '太原', '大连', '高雄', '青海湖', '荔波', '野三坡', '蓬莱', '合肥', '绍兴', '云南', '同里', '南京', '青岛', '北疆', '千岛湖', '南昌', '武汉', '珠海', '镇远', '武当山', '重庆', '庐山', '大理', '海口', '康定', '长白山', '曲阜', '蜀南竹海', '常州', '新疆', '海螺沟', '都江堰', '北京', '无锡', '白洋淀', '纳木错', '西溪湿地', '普陀山', '川藏', '日照', '雁荡山', '威海', '深圳', '广州', '泸沽湖', '乌鲁木齐', '西安', '稻城亚丁', '惠州', '烟台', '洛阳', '四姑娘山', '舟山'] = Field(...,description="用户给定一个问题，选择最相关一个进行输出")
+# 灌库
+class ChatDoc(object):
+    def __init__(self):
+        self.loader = {
+            ".pdf": PyPDFLoader,
+            ".txt": Docx2txtLoader,
+            ".docx": Docx2txtLoader,
+            ".md": UnstructuredMarkdownLoader,
+            ".csv": CSVLoader,
+            ".json": self.handle_json,
+        }
+        self.txt_splitter = CharacterTextSplitter(chunk_size=240, chunk_overlap=30, length_function=len,
+                                                  add_start_index=True)
+        self.json_splitter = RecursiveJsonSplitter(max_chunk_size=240)
+        self.embeding = embedding()
+        self.client = chromadb.PersistentClient(path="database/travel")
+        self.database_info = json.load(open("database/travel/info.json", "r", encoding="utf-8"))
+        self.llm = ChatOpenAI(temperature=0, model="gpt-3.5-turbo")
+    def get_knowledge_type(self, query):
+        names = self.database_info["names"]
+        system_prompt = f"""
+            你是一名地区分类专家，主要分别判断以下类别的地区，有且仅有{','.join(names)}这{len(names)}类地区。识别准确后，返回给用户。
+            识别到澳门，返回'澳门'，以此类推。
+            """
+        grade_messages = [SystemMessage(content=system_prompt)]
+        grade_messages.append(HumanMessage(content=f"{query}"))
+        collection_name = self.llm.with_structured_output(KnowledgeType).invoke(grade_messages)
+        return ''.join(lazy_pinyin(collection_name.route))
+    def get_file(self, filename):
+        file_extension = os.path.splitext(filename)[-1]
+        loader = self.loader.get(file_extension, None)
+        if loader:
+            if file_extension == ".json":
+                return loader(filename)
+            else:
+                load_info = loader(filename).load()
+                return load_info
+        else:
+            return None
+    def handle_json(self, filename):
+        with open(filename, "r", encoding="utf-8") as f:
+            data = f.read()
+        return data
+    def is_json(self, data):
+        try:
+            json.loads(data)
+            return True
+        except:
+            return False
+    def split_text(self, filename):
+        load_info = self.get_file(filename)
+        if load_info:
+            if self.is_json(load_info):
+                self.end_splitter = self.json_splitter.split_text(json.loads(load_info), ensure_ascii=False)
+            else:
+                self.end_splitter = self.txt_splitter.split_documents(load_info)
+            return self.end_splitter
+        else:
+            return "文件格式不支持"
+    def emb_text(self, text):
+        return self.embeding.embed_query(text)
+    def vector_storage(self, filename):
+        data_name = self.pdf_to_pinyin(filename)
+        data = []
+        for idx, text in enumerate(tqdm(self.end_splitter, desc="向量化")):
+            if isinstance(text, Document):
+                text = text.page_content
+            data.append({"id": idx, "vector": self.emb_text(text), "text": text})
+        print(f"Collection name: {data_name}")
+        collection = self.client.get_or_create_collection(data_name)
+        collection.add(
+            ids=[str(item["id"]) for item in data],
+            embeddings=[item["vector"][0] for item in data],
+            documents=[item["text"] for item in data]
+        )
+        # self.milvus_client.create_collection(
+        #     collection_name=data_name,
+        #     dimension=768,
+        #     metric_type="IP",  # Inner product distance
+        #     consistency_level="Strong",  # Strong consistency level
+        # )
+        # self.milvus_client.insert(collection_name=data_name, data=data)
+        return "向量存储成功"
+    def pdf_to_pinyin(self,file):
+        name = os.path.basename(file).split('.')[0]
+        return ''.join(lazy_pinyin(name))
+    def combine(self,path):
+        data_name = 'travel'
+        data = []
+        for i in os.listdir(path):
+            self.split_text(os.path.join(path,i))
+            for idx, text in enumerate(tqdm(self.end_splitter, desc="向量化")):
+                if isinstance(text, Document):
+                    text = text.page_content
+                data.append({"id": len(data), "vector": self.emb_text(text), "text": text})
+        print(f"Collection name: {data_name}")
+        collection = self.client.get_or_create_collection(data_name)
+        collection.add(
+            ids=[str(item["id"]) for item in data],
+            embeddings=[item["vector"][0] for item in data],
+            documents=[item["text"] for item in data]
+        )
+    def delete(self):
+        li = ['澳门', '青海', '周庄', '上海', '天津', '黄果树', '黔东南', '九寨沟', '广西', '贵阳', '扬州', '济南', '香格里拉', '香港', '昆明', '宁波', '林芝', '台北', '三清山', '呼伦贝尔', '鼓浪屿', '婺源', '厦门', '张家界', '故宫', '北戴河', '西藏', '杭州', '大同', '泰山', '秦皇岛', '成都', '凤凰', '兰州', '华山', '浙江', '哈尔滨', '沈阳', '云台山', '福州', '甘南', '三亚', '长沙', '敦煌', '苏州', '青城山', '束河', '南宁', '乌镇', '镇江', '丽江', '西塘', '黄山', '平遥', '五台山', '连云港', '拉萨', '西双版纳', '峨眉山', '武夷山', '宏村', '衡山', '横店', '北海', '桂林', '山海关', '长岛', '太原', '大连', '高雄', '青海湖', '荔波', '野三坡', '蓬莱', '合肥', '绍兴', '云南', '同里', '南京', '青岛', '北疆', '千岛湖', '南昌', '武汉', '珠海', '镇远', '武当山', '重庆', '庐山', '大理', '海口', '康定', '长白山', '曲阜', '蜀南竹海', '常州', '新疆', '海螺沟', '都江堰', '北京', '无锡', '白洋淀', '纳木错', '西溪湿地', '普陀山', '川藏', '日照', '雁荡山', '威海', '深圳', '广州', '泸沽湖', '乌鲁木齐', '西安', '稻城亚丁', '惠州', '烟台', '洛阳', '四姑娘山', '舟山']
+        for data_name in li:
+            data_name = ''.join(lazy_pinyin(data_name))
+            collection = self.client.delete_collection(data_name)
+            # collection.delete()
+        return "删除成功"
+class embedding(object):
+    def __init__(self):
+        # init model and tokenizer
+        self.tokenizer = AutoTokenizer.from_pretrained('maidalun1020/bce-embedding-base_v1')
+        self.model = AutoModel.from_pretrained('maidalun1020/bce-embedding-base_v1')
+        self.device = 'cuda'  # if no GPU, set "cpu"
+        self.model.to(self.device)
+    def embed_query(self, text):
+        # get inputs
+        inputs = self.tokenizer([text], padding=True, truncation=True, max_length=512, return_tensors="pt")
+        inputs_on_device = {k: v.to(self.device) for k, v in inputs.items()}
+        # get embeddings
+        outputs = self.model(**inputs_on_device, return_dict=True)
+        embeddings = outputs.last_hidden_state[:, 0]  # cls pooler
+        embeddings = embeddings / embeddings.norm(dim=1, keepdim=True)  # normalize
+        return embeddings.tolist()
+a=ChatDoc()
+path = "database/travel/pdf"
+# for i in os.listdir(path):
+#     if i.endswith(".pdf"):
+#         a.split_text(os.path.join(path,i))
+#         a.vector_storage(os.path.join(path,i))
+print(a.client.list_collections())

travel/rag_tool.py ADDED Viewed

	@@ -0,0 +1,115 @@

+import os.path
+from dotenv import load_dotenv
+from langchain_core.messages import HumanMessage, SystemMessage, AIMessage
+from langchain_openai import ChatOpenAI
+from tqdm import tqdm
+from langchain_community.document_loaders import Docx2txtLoader, CSVLoader
+from langchain.text_splitter import CharacterTextSplitter
+from pymilvus import MilvusClient
+class RAGTool(object):
+    def __init__(self):
+        self.loader = {
+            ".txt": Docx2txtLoader,
+            ".docx": Docx2txtLoader,
+            ".csv": CSVLoader,
+        }
+        self.milvus_client = MilvusClient(host="127.0.0.1", port="19530")
+        self.llm = ChatOpenAI(model="gpt-4o")
+        self.messages = [SystemMessage(
+            content="你是一个助手，请根据上下文回答问题，如果无法回答，请说“我不理解”，请尽量简要回答，与问题不相关的内容不用作为分析的内容。")]
+    def get_file(self, filename):
+        """
+        获取文件
+        :param filename: 文件名
+        :return:
+        """
+        file_type = os.path.splitext(filename)[-1]
+        if file_type in self.loader:
+            loader = self.loader[file_type]
+            loader = loader(filename)
+            return loader.load()
+        else:
+            return None
+    def split_sentences(self, filename):
+        """
+        将文件分割成句子
+        :param filename: 文件名
+        :return:
+        """
+        full_text = self.get_file(filename)
+        if full_text:
+            text_splitter = CharacterTextSplitter(chunk_size=240, chunk_overlap=30, add_start_index=True,
+                                                  length_function=len)
+            text_split = text_splitter.split_documents(full_text)
+            return text_split
+        else:
+            return "文档格式不支持"
+    def emb_text(self, text):
+        """
+        将文本向量化
+        :param text: 文本
+        :return:
+        """
+        from langchain_openai import OpenAIEmbeddings
+        embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
+        return embeddings.embed_query(text)
+    def vector_storage(self, filename):
+        text_split = self.split_sentences(filename)
+        data_vector = []
+        for idx, text in enumerate(tqdm(text_split, desc="Embedding")):
+            data_vector.append({
+                "id": idx,
+                "text": text.page_content,
+                "vector": self.emb_text(text.page_content)
+            })
+        self.milvus_client.create_collection(
+            collection_name="test_collection",
+            dimension=1536,
+            metric_type="IP",
+            consistency_level="Strong"
+        )
+        self.milvus_client.insert(collection_name="test_collection", data=data_vector)
+        return "success"
+    def query_data(self, query):
+        query_vector = self.emb_text(query)
+        result = self.milvus_client.search(
+            collection_name="test_collection",
+            data=[query_vector],
+            limit=3,
+            output_fields=["text"],
+            params={"metric_type": "IP"},
+        )
+        result_info = ""
+        for info in result[0]:
+            result_info += info["entity"]["text"]
+        return result_info
+    def get_answer(self, question):
+        """
+        获取答案
+        :param question: 问题
+        :return:
+        """
+        result = self.query_data(question)
+        self.messages.append(HumanMessage(content=f"问题:{question},检索内容:{result}"))
+        res = self.llm.invoke(self.messages)
+        self.messages.append(AIMessage(content=res.content))
+        return res.content

travel/self_rag_tool.py ADDED Viewed

	@@ -0,0 +1,158 @@

+import os
+import time
+import chromadb
+from dotenv import load_dotenv
+from langchain.prompts import ChatPromptTemplate
+from langchain_core.messages import SystemMessage, HumanMessage, AIMessage
+from langchain_openai import OpenAIEmbeddings, ChatOpenAI
+from pydantic.v1 import BaseModel, Field
+from pymilvus import MilvusClient
+from typing import Literal
+from transformers import AutoModel, AutoTokenizer
+from pypinyin import lazy_pinyin
+import json
+class LocationType(BaseModel):
+    """
+    将用户查询路由到最相关的数据源
+    """
+    route: Literal['澳门', '青海', '周庄', '上海', '天津', '黄果树', '黔东南', '九寨沟', '广西', '贵阳', '扬州', '济南', '香格里拉', '香港', '昆明', '宁波', '林芝', '台北', '三清山', '呼伦贝尔', '鼓浪屿', '婺源', '厦门', '张家界', '故宫', '北戴河', '西藏', '杭州', '大同', '泰山', '秦皇岛', '成都', '凤凰', '兰州', '华山', '浙江', '哈尔滨', '沈阳', '云台山', '福州', '甘南', '三亚', '长沙', '敦煌', '苏州', '青城山', '束河', '南宁', '乌镇', '镇江', '丽江', '西塘', '黄山', '平遥', '五台山', '连云港', '拉萨', '西双版纳', '峨眉山', '武夷山', '宏村', '衡山', '横店', '北海', '桂林', '山海关', '长岛', '太原', '大连', '高雄', '青海湖', '荔波', '野三坡', '蓬莱', '合肥', '绍兴', '云南', '同里', '南京', '青岛', '北疆', '千岛湖', '南昌', '武汉', '珠海', '镇远', '武当山', '重庆', '庐山', '大理', '海口', '康定', '长白山', '曲阜', '蜀南竹海', '常州', '新疆', '海螺沟', '都江堰', '北京', '无锡', '白洋淀', '纳木错', '西溪湿地', '普陀山', '川藏', '日照', '雁荡山', '威海', '深圳', '广州', '泸沽湖', '乌鲁木齐', '西安', '稻城亚丁', '惠州', '烟台', '洛阳', '四姑娘山', '舟山'] = Field(...,description="用户给定一个问题，选择最相关一个进行输出")
+class GradedRagTool(BaseModel):
+    """
+    对检索到到文档进行相关性的检查，相关返回yes，不相关返回no
+    """
+    binary_score: Literal['yes', 'no'] = Field(description="文档与问题的相关性，'yes' or 'no'")
+class GradeHallucinations(BaseModel):
+    """
+    对最终对回答进行一个判断，判断回答中是否存在幻觉，存在则输出yes，不存在这输出no
+    """
+    binary_score: Literal['yes', 'no'] = Field(description="问题与回答的相关性，'yes' or 'no'")
+class GradeAnswer(BaseModel):
+    """对最终的回答于问题进行比对，判断回答和问题是相关的，是相关的则输出yes，不相关则输出no"""
+    binary_score: Literal['yes', 'no'] = Field(
+        description="问题与回答的相关性， 'yes' or 'no'"
+    )
+class GradeAndGenerateTool(object):
+    def __init__(self, database_path="database/travel"):
+        self.llm = ChatOpenAI(temperature=0, model="gpt-3.5-turbo")
+        # self.llm = ChatOpenAI(temperature=0, model="qwen2-14b",api_key="empty",base_url = "http://61.136.221.118:15001/v1")
+        self.struct_llm_grader = self.llm.with_structured_output(GradedRagTool)
+        self.struct_llm_hallucinations = self.llm.with_structured_output(GradeHallucinations)
+        self.struct_llm_answer = self.llm.with_structured_output(GradeAnswer)
+        self.embeding = embedding()
+        self.database_info = json.load(open(os.path.join(database_path,"info.json"), "r", encoding="utf-8"))
+        self.client = chromadb.PersistentClient(path=database_path)
+    # 评分
+    def grade(self, question, text):
+        system_prompt = """
+                你是一名评估检索到到文档与用户到问题相关性到评分员，不需要一个严格的测试，目标是过滤掉错误的检索。如果文档包含与用户问题相关的关键字或者语义，请评为相关，否则请评为不相关。你的回答只能是yes或者no
+                """
+        grade_messages = [SystemMessage(content=system_prompt)]
+        grade_messages.append(HumanMessage(content=f"问题：{question}\n文档：{text}"))
+        result = self.struct_llm_grader.invoke(grade_messages)
+        return result.binary_score
+    # 生成答案
+    def generate(self, question, text):
+        grade_human_prompt = f"""您是问答任务的助理。使用以下检索到的上下文来回答问题。如果你不知道答案，就说你不知道。尽量将回答长度控制在三句话内，保持答案简洁。\n问题：{question}\n上下文：{text}\n答案："""
+        human_prompt = ChatPromptTemplate.from_template(grade_human_prompt)
+        grade_human_prompt_end = human_prompt.format_messages(question=question, text=text)
+        result = self.llm.invoke(grade_human_prompt_end)
+        return result.content
+    # 判断是否有幻觉
+    def hallucinations(self, documents, answer):
+        hallucinations_prompt = "您是一名评估LLM生成是否基于一组检索到的事实的评分员。如果是基于���索到的事实回答则返回no，否则返回yes"
+        hallucinations_messages = [SystemMessage(content=hallucinations_prompt)]
+        hallucinations_messages.append(HumanMessage(content=f"：回答:{answer}\n文档：{documents}"))
+        result = self.struct_llm_hallucinations.invoke(hallucinations_messages)
+        return result.binary_score
+    # 判断答案是否和问题相关
+    def answer_question(self, question, answer):
+        answer_question_prompt = """
+                你是一名评分员，评估答案是否解决了问题，如果解决了则返回yes，否则返回no
+                """
+        answer_question_messages = [SystemMessage(content=answer_question_prompt)]
+        answer_question_messages.append(HumanMessage(content=f"问题：{question}\n回答：{answer}"))
+        result = self.struct_llm_answer.invoke(answer_question_messages)
+        return result.binary_score
+    # 复写问题
+    def rewrite_question(self, question):
+        rewrite_promtp = "您是一个将输入问题转换为优化的更好版本的问题重写器\n用于矢量库检索。查看输入并尝试推理潜在的语义意图/含义。"
+        rewrite_promtp_messages = [SystemMessage(content=rewrite_promtp)]
+        rewrite_promtp_messages.append(HumanMessage(content=f"问题：{question}"))
+        result = self.llm.invoke(rewrite_promtp_messages)
+        return result.content
+    def embed_dim(self, text):
+        return self.embeding.embed_query(text)
+    def get_knowledge_type(self, query):
+        names = self.database_info["names"]
+        system_prompt = f"""
+            你是一名地区分类专家，主要分别判断以下类别的地区，有且仅有{','.join(names)}这{len(names)}类地区。识别准确后，返回给用户。
+            识别到澳门，返回'澳门'，以此类推。
+            """
+        grade_messages = [SystemMessage(content=system_prompt)]
+        grade_messages.append(HumanMessage(content=f"{query}"))
+        collection_name = self.llm.with_structured_output(LocationType).invoke(grade_messages)
+        return ''.join(lazy_pinyin(collection_name.route))
+    # 检索
+    def search_vector(self, question):
+        a=time.time()
+        collection_name = 'travel'
+        result = self.client.get_collection(collection_name).query(
+            query_embeddings=[self.embed_dim(question)[0]],
+            n_results=3,
+        )
+        # result = self.milvus_client.search(collection_name="RAG_vector", data=[self.embed_dim(question)],
+        #                                    output_fields=["text"])
+        return result['documents'][0]
+class embedding(object):
+    def __init__(self):
+        # init model and tokenizer
+        self.tokenizer = AutoTokenizer.from_pretrained('maidalun1020/bce-embedding-base_v1')
+        self.model = AutoModel.from_pretrained('maidalun1020/bce-embedding-base_v1')
+        self.device = 'cuda'  # if no GPU, set "cpu"
+        self.model.to(self.device)
+    def embed_query(self, text):
+        # get inputs
+        inputs = self.tokenizer([text], padding=True, truncation=True, max_length=512, return_tensors="pt")
+        inputs_on_device = {k: v.to(self.device) for k, v in inputs.items()}
+        # get embeddings
+        outputs = self.model(**inputs_on_device, return_dict=True)
+        embeddings = outputs.last_hidden_state[:, 0]  # cls pooler
+        embeddings = embeddings / embeddings.norm(dim=1, keepdim=True)  # normalize
+        return embeddings.tolist()
+# a=GradeAndGenerateTool()
+# a.search_vector("澳门旅游指南")

travel/travel.py ADDED Viewed

	@@ -0,0 +1,237 @@

+"""
+举例：1、高德搜索附近的店  2、高德获取地点的经纬度。  3、RAG功能
+"""
+import functools
+import operator
+import os
+import time
+from typing import Type, TypedDict, Annotated, Sequence
+from langchain_openai import ChatOpenAI
+import aiohttp
+import requests
+from dotenv import load_dotenv
+from langchain_community.output_parsers.ernie_functions import JsonOutputFunctionsParser
+from langchain_core.messages import HumanMessage, BaseMessage, SystemMessage, AIMessage
+from langchain_core.prompts import MessagesPlaceholder, ChatPromptTemplate
+from langchain_core.tools import BaseTool
+from langgraph.constants import END
+from langgraph.graph import StateGraph
+from pydantic.v1 import BaseModel, Field
+import gradio as gr
+from RAGGraph import RAGTool
+from langchain.agents import create_openai_tools_agent, AgentExecutor
+_ = load_dotenv()
+rag_tool = RAGTool()
+class searchAroundInput(BaseModel):
+    keyword: str = Field(..., description="搜索关键词")
+    location: str = Field(..., description="地点的经纬度")
+class searchAround(BaseTool):
+    args_schema: Type[BaseModel] = searchAroundInput
+    description = "这是一个搜索周边信息的方法，需要用户提供关键词和地点的经纬度，才能进行周边信息的搜索。如果用户没有提供关键词或者地点的经纬度，则提示用户给出关键词和地点的经纬度并再进行周边信息的搜索。"
+    name = "searchAround"
+    def _run(self, keyword, location):
+        around_url = "https://restapi.amap.com/v5/place/around"
+        params = {
+            "key": "df8ff851968143fb413203f195fcd7d7",
+            "keywords": keyword,
+            "location": location
+        }
+        print("同步调用获取地点周边的方法")
+        res = requests.get(url=around_url, params=params)
+        # prompt = "请帮我整理以下内容中的名称，地址和距离，并按照地址与名称对应输出，且告诉距离多少米，内容:{}".format(
+        #     res.json())
+        # result = llm.invoke(prompt)
+        return res.text
+    async def _arun(self, keyword, location):
+        async with aiohttp.ClientSession() as session:
+            around_url = "https://restapi.amap.com/v5/place/around"
+            params = {
+                "key": "df8ff851968143fb413203f195fcd7d7",
+                "keywords": keyword,
+                "location": location
+            }
+            print("异步调用获取地点周边的方法")
+            async with session.get(url=around_url, params=params) as response:
+                return await response.json()
+class getLocationInput(BaseModel):
+    keyword: str = Field(..., description="搜索关键词")
+class getLocation(BaseTool):
+    args_schema: Type[BaseModel] = getLocationInput
+    description = "这是一个获取地点的经纬度的方法，需要用户提供关键词，才能进行地点的经纬度的获取。如果用户没有提供关键词，则提示用户给出关键词并再进行地点的经纬度的获取。"
+    name = "getLocation"
+    def _run(self, keyword):
+        url = "https://restapi.amap.com/v5/place/text"
+        params = {
+            "key": "df8ff851968143fb413203f195fcd7d7",
+            "keywords": keyword,
+        }
+        res = requests.get(url=url, params=params)
+        print("同步调用获取地点的经纬度方法")
+        return '{}的经纬度是：'.format(keyword) + res.json()["pois"][0]["location"]
+    async def _arun(self, keyword):
+        async with aiohttp.ClientSession() as session:
+            url = "https://restapi.amap.com/v5/place/text"
+            params = {
+                "key": "df8ff851968143fb413203f195fcd7d7",
+                "keywords": keyword,
+            }
+            print("异步调用获取地点的经纬度方法")
+            async with session.get(url=url, params=params) as response:
+                res = await response.json()
+                return '{}的经纬度是：'.format(keyword) + res["pois"][0]["location"]
+class ragToolInput(BaseModel):
+    question: str = Field(..., description="用户的问题")
+class ragTool(BaseTool):
+    args_schema: Type[BaseModel] = ragToolInput
+    description = "这是一个RAG工具，可以提供中国国内旅游的相关指南攻略等信息。"
+    name = "ragTool"
+    def _run(self, question):
+        a=time.time()
+        return rag_tool.get_answer(question)
+def create_agent(llm, tools, system_prompt):
+    prompt = ChatPromptTemplate.from_messages([
+        ("system", system_prompt), MessagesPlaceholder(variable_name="messages"),
+        MessagesPlaceholder(variable_name="agent_scratchpad"),
+    ])
+    agent = create_openai_tools_agent(llm, tools, prompt)
+    executor = AgentExecutor(agent=agent, tools=tools, verbose=True)
+    return executor
+def agent_node(state, agent, name):
+    result = agent.invoke(state)
+    return {
+        "messages": [HumanMessage(content=result["output"], name=name)]
+    }
+def chat(message, history=[]):
+    history_message.append(HumanMessage(content=message))
+    a=time.time()
+    res = graph.invoke({"messages":history_message})
+    res = res['messages'][-1].content
+    history_message.append(AIMessage(content=res))
+    print(time.time()-a)
+    print(res)
+    return res
+# 1.封装agent，其中包含特有的工具，系统提示，agent的执行器
+# 2.封装node，node是一个函数，在函数中会对agent进行调用
+llm = ChatOpenAI(model="gpt-3.5-turbo")
+supervisor_llm = ChatOpenAI(model="gpt-4o", api_key=os.getenv("OPENAI_API_KEY4"))
+get_location_agent = create_agent(llm=llm, tools=[getLocation()],
+                                  system_prompt="你是一个获取地点经纬度的助手，当用户需要获取经纬度时，你需要准确提供经纬度信息")
+get_location_node = functools.partial(agent_node, agent=get_location_agent, name="get_location_agent")
+search_around_agent = create_agent(llm=llm, tools=[searchAround()],
+                                   system_prompt="你是一个地图通，你能够根据提供的经纬度去搜索周边店面信息。并返回给用户")
+search_around_node = functools.partial(agent_node, agent=search_around_agent, name="search_around_agent")
+rag_agent = create_agent(llm=llm, tools=[ragTool()],
+                         system_prompt="你是一个RAG工具，主要是对于旅游相关内容的指南攻略等信息。")
+rag_node = functools.partial(agent_node, agent=rag_agent, name="rag_agent")
+member = ["search_around_agent", "get_location_agent", 'rag_agent']
+system_prompt = f"""
+            你是一名任务管理者，负责管理任务的调度，下面是你的工作者{member},给定以下请求，与工作者一起响应，并采取下一步行动。
+            每个工作者将执行一个任务并回复执行后的结果和状态，若已经完成后，用FINISH回应。
+            """
+options = member + ["FINISH"]
+function_def = {
+    "name": "route",
+    "description": "选择下一个工作者",
+    "parameters": {
+        "title": "routeSchema",
+        "type": "object",
+        "properties": {
+            "next": {
+                "title": "Next",
+                "anyOf": [
+                    {
+                        "enum": options
+                    }
+                ],
+            }
+        },
+        "required": ["next"]
+    }
+}
+prompt = ChatPromptTemplate.from_messages(
+    [("system",system_prompt),MessagesPlaceholder(variable_name="messages"),
+     ("system",f"基于上述的对话接下来应该是谁来采取行动？请在以下选项中进行选择{options}，"
+    "如果你认为最后一句能够对以上对话形成较好回复比如完成了打招呼，请尽量选择'FINISH'，"
+    "如果问题仍未解决且问题与旅游相关请选择'rag_agent'，"
+    "如果问题仍未解决且问题与获取地点经纬度相关请选择'get_location_agent'，"
+    "如果问题仍未解决且问题与地点周边信息相关请选择'search_around_agent'，")]
+    # "如果问题仍未解决且问题是一般性问题请选择'normal_chat'。")]
+).partial(options=str(options),member=",".join(member))
+supervisor_chain = prompt | supervisor_llm.bind_functions(functions=[function_def],function_call="route") | JsonOutputFunctionsParser()
+class AgentState(TypedDict):
+    messages : Annotated[Sequence[BaseMessage],operator.add]
+    next : str
+work_flow = StateGraph(AgentState)
+work_flow.add_node("get_location_agent",get_location_node)
+work_flow.add_node("search_around_agent",search_around_node)
+work_flow.add_node("rag_agent",rag_node)
+work_flow.add_node("supervisor",supervisor_chain)
+for name in member:
+    work_flow.add_edge(name,"supervisor")
+conditional_map = {
+    "get_location_agent":"get_location_agent",
+    "search_around_agent":"search_around_agent",
+    "rag_agent":"rag_agent",
+    "FINISH":END,
+}
+work_flow.add_conditional_edges("supervisor",lambda x : x["next"],conditional_map)
+work_flow.set_entry_point("supervisor")
+graph = work_flow.compile()
+history_message = []
+chat("北京的旅游攻略")
+# iface_chat_file = gr.ChatInterface(
+#     fn=chat,
+#     examples=['北京的经纬度是多少', '天安门附近的餐馆有哪些','北京的旅游攻略'],
+#     title="Chat File Interface",
+#     )
+# iface_chat_file.launch(share=True, server_name='0.0.0.0', server_port=5001)
+# a=time.time()
+# res = graph.invoke({"messages":[HumanMessage(content="天安门附近的餐馆有哪些")]})
+# print(time.time()-a)
+# print(res)

travel/travel_new.py ADDED Viewed

	@@ -0,0 +1,236 @@

+"""
+举例：1、高德搜索附近的店  2、高德获取地点的经纬度。  3、RAG功能
+"""
+import functools
+import operator
+import os
+import time
+from typing import Type, TypedDict, Annotated, Sequence
+import aiohttp
+import requests
+from dotenv import load_dotenv
+from langchain_community.output_parsers.ernie_functions import JsonOutputFunctionsParser
+from langchain_core.messages import HumanMessage, BaseMessage, SystemMessage, AIMessage
+from langchain_core.prompts import MessagesPlaceholder, ChatPromptTemplate
+from langchain_core.tools import BaseTool
+from langgraph.constants import END
+from langgraph.graph import StateGraph
+from pydantic.v1 import BaseModel, Field
+from typing import Literal
+from RAGGraph import RAGTool
+from langchain.agents import create_openai_tools_agent, AgentExecutor
+import gradio as gr
+from langchain_openai import ChatOpenAI
+# 1.封装agent，其中包含特有的工具，系统提示，agent的执行器
+# 2.封装node，node是一个函数，在函数中会对agent进行调用
+load_dotenv()
+rag_tool = RAGTool()
+class AgentType(BaseModel):
+    """
+    将用户查询路由到最相关的数据源
+    """
+    route: Literal["search_around_agent", "get_location_agent", 'rag_agent', 'FINISH', 'normal_chat'] = Field(...,description="用户给定一个问题，选择最相关一个进行输出")
+    arguments: dict | None = Field(None, description="给选定的代理的参数")
+class AgentState(TypedDict):
+    messages : Annotated[Sequence[BaseMessage],operator.add]
+    next : str
+class searchAroundInput(BaseModel):
+    keyword: str = Field(..., description="搜索关键词")
+    location: str = Field(..., description="地点的经纬度")
+class searchAround(BaseTool):
+    args_schema: Type[BaseModel] = searchAroundInput
+    description = "这是一个搜索周边信息的方法，需要用户提供关键词和地点的经纬度，才能进行周边信息的搜索。如果用户没有提供关键词或者地点的经纬度，则提示用户给出关键词和地点的经纬度并再进行周边信息的搜索。"
+    name = "searchAround"
+    def _run(self, keyword, location):
+        around_url = "https://restapi.amap.com/v5/place/around"
+        params = {
+            "key": "df8ff851968143fb413203f195fcd7d7",
+            "keywords": keyword,
+            "location": location
+        }
+        print("同步调用获取地点周边的方法")
+        res = requests.get(url=around_url, params=params)
+        # prompt = "请帮我整理以下内容中的名称，地址和距离，并按照地址与名称对应输出，且告诉距离多少米，内容:{}".format(
+        #     res.json())
+        # result = llm.invoke(prompt)
+        return res.text
+    async def _arun(self, keyword, location):
+        async with aiohttp.ClientSession() as session:
+            around_url = "https://restapi.amap.com/v5/place/around"
+            params = {
+                "key": "df8ff851968143fb413203f195fcd7d7",
+                "keywords": keyword,
+                "location": location
+            }
+            print("异步调用获取地点周边的方法")
+            async with session.get(url=around_url, params=params) as response:
+                return await response.json()
+class getLocationInput(BaseModel):
+    keyword: str = Field(..., description="搜索关键词")
+class getLocation(BaseTool):
+    args_schema: Type[BaseModel] = getLocationInput
+    description = "这是一个获取地点的经纬度的方法，需要用户提供关键词，才能进行地点的经纬度的获取。如果用户没有提供关键词，则提示用户给出关键词并再进行地点的经纬度的获取。"
+    name = "getLocation"
+    def _run(self, keyword):
+        url = "https://restapi.amap.com/v5/place/text"
+        params = {
+            "key": "df8ff851968143fb413203f195fcd7d7",
+            "keywords": keyword,
+        }
+        res = requests.get(url=url, params=params)
+        print("同步调用获取地点的经纬度方法")
+        return '{}的经纬度是：'.format(keyword) + res.json()["pois"][0]["location"]
+    async def _arun(self, keyword):
+        async with aiohttp.ClientSession() as session:
+            url = "https://restapi.amap.com/v5/place/text"
+            params = {
+                "key": "df8ff851968143fb413203f195fcd7d7",
+                "keywords": keyword,
+            }
+            print("异步调用获取地点的经纬度方法")
+            async with session.get(url=url, params=params) as response:
+                res = await response.json()
+                return '{}的经纬度是：'.format(keyword) + res["pois"][0]["location"]
+class ragToolInput(BaseModel):
+    question: str = Field(..., description="用户的问题")
+class ragTool(BaseTool):
+    args_schema: Type[BaseModel] = ragToolInput
+    description = "这是一个RAG工具，可以提供中国国内旅游的相关指南攻略等信息。"
+    name = "ragTool"
+    def _run(self, question):
+        a=time.time()
+        res = rag_tool.get_answer(question)
+        print('ragTool',time.time()-a)
+        return res
+def create_agent(llm, tools, system_prompt):
+    prompt = ChatPromptTemplate.from_messages([
+        ("system", system_prompt), MessagesPlaceholder(variable_name="messages"),
+        MessagesPlaceholder(variable_name="agent_scratchpad"),
+    ])
+    agent = create_openai_tools_agent(llm, tools, prompt)
+    executor = AgentExecutor(agent=agent, tools=tools, verbose=True)
+    return executor
+def agent_node(state, agent, name):
+    result = agent.invoke(state)
+    return {
+        "messages": [HumanMessage(content=result["output"], name=name)]
+    }
+def supervisor(state):
+    message = state['messages']
+    prompt = [SystemMessage(content=(
+    f"基于上述的对话接下来应该是谁来采取行动？请在以下选项中进行选择{options}，"
+    "如果你认为最后一句能够对以上对话形成较好回复比如完成了打招呼，请尽量选择'FINISH'，"
+    "如果问题仍未解决且问题与旅游相关请选择'rag_agent'，"
+    "如果问题仍未解决且问题与获取地点经纬度相关请选择'get_location_agent'，"
+    "如果问题仍未解决且问题与地点周边信息相关请选择'search_around_agent'，"
+    "如果问题仍未解决且问题是一般性问题请选择'normal_chat'。"
+    ))]
+    a=time.time()
+    res = supervisor_llm.with_structured_output(AgentType).invoke(message+prompt)
+    print('supervisor',time.time()-a)
+    return {'next': res.route}
+    # if res.route == "FINISH":
+    #     state['messages'].append(SystemMessage(content="任务结束"))
+    #     state['next'] = "FINISH"
+    #     return state
+    # else:
+    #     state['next'] = res.route
+    #     return state
+def noraml_chat(state,name):
+    message = state['messages']
+    result = llm.invoke(message)
+    return {
+        "messages": [HumanMessage(content=result.content, name=name)]
+    }
+def chat(message, history=[]):
+    history_message.append(HumanMessage(content=message))
+    res = graph.invoke({"messages":history_message})
+    res = res['messages'][-1].content
+    history_message.append(AIMessage(content=res))
+    print(res)
+    return res
+if __name__ == '__main__':
+    llm = ChatOpenAI(model="gpt-4o", api_key=os.getenv("OPENAI_API_KEY4"))
+    supervisor_llm = ChatOpenAI(model="gpt-4o", api_key=os.getenv("OPENAI_API_KEY4"))
+    get_location_agent = create_agent(llm=llm, tools=[getLocation()],
+                                    system_prompt="你是一个获取地点经纬度的助手，当用户需要获取经纬度时，你需要准确提供经纬度信息")
+    get_location_node = functools.partial(agent_node, agent=get_location_agent, name="get_location_agent")
+    search_around_agent = create_agent(llm=llm, tools=[searchAround()],
+                                    system_prompt="你是一个地图通，你能够根据提供的经纬度去搜索周边店面信息。并返回给用户")
+    search_around_node = functools.partial(agent_node, agent=search_around_agent, name="search_around_agent")
+    rag_agent = create_agent(llm=llm, tools=[ragTool()],
+                            system_prompt="你是一个RAG工具，主要是对于旅游相关内容的指南攻略等信息。")
+    rag_node = functools.partial(agent_node, agent=rag_agent, name="rag_agent")
+    # normal_agent = create_agent(llm=llm, tools=[],
+    #                         system_prompt="你能回答一些不需要联网搜索的一般性的问题")
+    normal_node = functools.partial(noraml_chat, name="normal_chat")
+    member = ["search_around_agent", "get_location_agent", 'rag_agent', 'normal_chat']
+    options = member + ["FINISH"]
+    work_flow = StateGraph(AgentState)
+    work_flow.add_node("get_location_agent",get_location_node)
+    work_flow.add_node("search_around_agent",search_around_node)
+    work_flow.add_node("rag_agent",rag_node)
+    work_flow.add_node("normal_chat",normal_node)
+    work_flow.add_node("supervisor",supervisor)
+    for name in member:
+        work_flow.add_edge(name,"supervisor")
+    conditional_map = {
+        "get_location_agent":"get_location_agent",
+        "search_around_agent":"search_around_agent",
+        "rag_agent":"rag_agent",
+        "normal_chat":"normal_chat",
+        "FINISH":END,
+    }
+    work_flow.add_conditional_edges("supervisor",lambda x : x["next"],conditional_map)
+    work_flow.set_entry_point("supervisor")
+    graph = work_flow.compile()
+    system_prompt = f"""
+            你是一名任务管理者，负责管理任务的调度，下面是你的工作者{member},给定以下请求，与工作者一起响应，并采取下一步行动。
+            每个工作者将执行一个任务并回复执行后的结果和状态，若对话中最后一句能够形成较好回复比如完成了打招呼，请选择'FINISH'。
+            """
+    history_message = [SystemMessage(content=system_prompt)]
+    # chat('hello')
+    iface_chat_file = gr.ChatInterface(
+        fn=chat,
+        examples=['北京的经纬度是多少', '天安门附近的餐馆有哪些','北京的旅游攻略'],
+        title="Chat File Interface",
+        )
+    iface_chat_file.launch(share=True, server_name='0.0.0.0', server_port=5001)