Co-Instruct

Runtime error

App Files Files Community

teowu commited on Nov 9, 2023

Commit

8132ec4

•

1 Parent(s): 0ebd86a

Add IQA function!

Browse files

Files changed (2) hide show

app.py +109 -3
model_worker.py +84 -0

app.py CHANGED Viewed

@@ -113,6 +113,7 @@ def add_text(state, text, image, image_process_mode, request: gr.Request):
     state.append_message(state.roles[0], text)
     state.append_message(state.roles[1], None)
     state.skip_next = False
     return (state, state.to_gradio_chatbot(), "", None) + (disable_btn,) * 5
@@ -201,6 +202,92 @@ def http_bot(state, temperature, top_p, max_new_tokens, request: gr.Request):
             "ip": request.client.host,
         }
         fout.write(json.dumps(data) + "\n")
 title_markdown = ("""
@@ -208,7 +295,7 @@ title_markdown = ("""
 <h2 align="center">Q-Instruct: Improving Low-level Visual Abilities for Multi-modality Foundation Models</h2>
-<h5 align="center"> If you like our project, please give us a star ✨ on Github for latest update.  </h2>
 <div align="center">
     <div style="display:flex; gap: 0.25rem;" align="center">
@@ -218,10 +305,15 @@ title_markdown = ("""
     </div>
 </div>
 """)
 tos_markdown = ("""
 ### Terms of use
 By using this service, users are required to agree to the following terms:
 The service is a research preview intended for non-commercial use only. It only provides limited safety measures and may generate offensive content. It must not be used for any illegal, harmful, violent, racist, or sexual purposes. The service may collect user dialogue data for future research.
@@ -244,7 +336,7 @@ block_css = """
 """
 def build_demo(embed_mode):
-    textbox = gr.Textbox(show_label=False, placeholder="Enter text and press ENTER", container=False)
     with gr.Blocks(title="Q-Instruct-on-mPLUG-Owl-2", theme=gr.themes.Default(), css=block_css) as demo:
         state = gr.State()
@@ -271,12 +363,14 @@ def build_demo(embed_mode):
                     max_output_tokens = gr.Slider(minimum=0, maximum=1024, value=512, step=64, interactive=True, label="Max output tokens",)
             with gr.Column(scale=8):
-                chatbot = gr.Chatbot(elem_id="Chatbot", label="Q-Instruct-Chatbot", height=600)
                 with gr.Row():
                     with gr.Column(scale=8):
                         textbox.render()
                     with gr.Column(scale=1, min_width=50):
                         submit_btn = gr.Button(value="Send", variant="primary")
                 with gr.Row(elem_id="buttons") as button_row:
                     upvote_btn = gr.Button(value="👍  Upvote", interactive=False)
                     downvote_btn = gr.Button(value="👎  Downvote", interactive=False)
@@ -356,6 +450,18 @@ def build_demo(embed_mode):
             [state, temperature, top_p, max_output_tokens],
             [state, chatbot] + btn_list
         )
         demo.load(
             load_demo,

     state.append_message(state.roles[0], text)
     state.append_message(state.roles[1], None)
     state.skip_next = False
+    print(text)
     return (state, state.to_gradio_chatbot(), "", None) + (disable_btn,) * 5
             "ip": request.client.host,
         }
         fout.write(json.dumps(data) + "\n")
+def http_bot_modified(state, request: gr.Request):
+    logger.info(f"http_bot. ip: {request.client.host}")
+    start_tstamp = time.time()
+    if state.skip_next:
+        # This generate call is skipped due to invalid inputs
+        yield (state, state.to_gradio_chatbot()) + (no_change_btn,) * 5
+        return
+    print(state.messages[-2][1])
+    state.messages[-2][1] = ('<|image|>Rate the quality of the image.',) + state.messages[-2][1][1:]
+    print(state.messages[-2][1])
+    if len(state.messages) == state.offset + 2:
+        # First round of conversation
+        template_name = "mplug_owl2"
+        new_state = conv_templates[template_name].copy()
+        new_state.append_message(new_state.roles[0], state.messages[-2][1])
+        new_state.append_message(new_state.roles[1], None)
+        state = new_state
+    # Construct prompt
+    prompt = state.get_prompt()
+    all_images = state.get_images(return_pil=True)
+    all_image_hash = [hashlib.md5(image.tobytes()).hexdigest() for image in all_images]
+    for image, hash in zip(all_images, all_image_hash):
+        t = datetime.datetime.now()
+        filename = os.path.join(LOGDIR, "serve_images", f"{t.year}-{t.month:02d}-{t.day:02d}", f"{hash}.jpg")
+        if not os.path.isfile(filename):
+            os.makedirs(os.path.dirname(filename), exist_ok=True)
+            image.save(filename)
+    # Make requests
+    pload = {
+        "prompt": prompt,
+        "images": f'List of {len(state.get_images())} images: {all_image_hash}',
+    }
+    logger.info(f"==== request ====\n{pload}")
+    pload['images'] = state.get_images()
+    state.messages[-1][-1] = "▌"
+    yield (state, state.to_gradio_chatbot()) + (disable_btn,) * 5
+    try:
+        # Stream output
+        # response = requests.post(worker_addr + "/worker_generate_stream",
+        #     headers=headers, json=pload, stream=True, timeout=10)
+        # for chunk in response.iter_lines(decode_unicode=False, delimiter=b"\0"):
+        response = model.predict_stream_gate(pload)
+        for chunk in response:
+            if chunk:
+                data = json.loads(chunk.decode())
+                if data["error_code"] == 0:
+                    output = data["text"][len(prompt):].strip()
+                    state.messages[-1][-1] = output + "▌"
+                    yield (state, state.to_gradio_chatbot()) + (disable_btn,) * 5
+                else:
+                    output = data["text"] + f" (error_code: {data['error_code']})"
+                    state.messages[-1][-1] = output
+                    yield (state, state.to_gradio_chatbot()) + (disable_btn, disable_btn, disable_btn, enable_btn, enable_btn)
+                    return
+                time.sleep(0.03)
+    except requests.exceptions.RequestException as e:
+        state.messages[-1][-1] = server_error_msg
+        yield (state, state.to_gradio_chatbot()) + (disable_btn, disable_btn, disable_btn, enable_btn, enable_btn)
+        return
+    state.messages[-1][-1] = state.messages[-1][-1][:-1]
+    yield (state, state.to_gradio_chatbot()) + (enable_btn,) * 5
+    finish_tstamp = time.time()
+    logger.info(f"{output}")
+    with open(get_conv_log_filename(), "a") as fout:
+        data = {
+            "tstamp": round(finish_tstamp, 4),
+            "type": "chat",
+            "start": round(start_tstamp, 4),
+            "finish": round(start_tstamp, 4),
+            "state": state.dict(),
+            "images": all_image_hash,
+            "ip": request.client.host,
+        }
+        fout.write(json.dumps(data) + "\n")
 title_markdown = ("""
 <h2 align="center">Q-Instruct: Improving Low-level Visual Abilities for Multi-modality Foundation Models</h2>
+<h5 align="center"> If you like our project, please give us a star ✨ on [Github](https://github.com/Q-Future/Q-Instruct) for latest update.  </h2>
 <div align="center">
     <div style="display:flex; gap: 0.25rem;" align="center">
     </div>
 </div>
+### Special Usage: *Rate!*
+To get an image quality score, just upload a new image and click the **Rate!** button. This will redirect to a special method that return a quality score in [0,1].
+Always make sure that there is some text in the textbox before you click the **Rate!** button.
 """)
 tos_markdown = ("""
 ### Terms of use
 By using this service, users are required to agree to the following terms:
 The service is a research preview intended for non-commercial use only. It only provides limited safety measures and may generate offensive content. It must not be used for any illegal, harmful, violent, racist, or sexual purposes. The service may collect user dialogue data for future research.
 """
 def build_demo(embed_mode):
+    textbox = gr.Textbox(show_label=False, value="Rate the quality of the image.", placeholder="Enter text and press ENTER", container=False)
     with gr.Blocks(title="Q-Instruct-on-mPLUG-Owl-2", theme=gr.themes.Default(), css=block_css) as demo:
         state = gr.State()
                     max_output_tokens = gr.Slider(minimum=0, maximum=1024, value=512, step=64, interactive=True, label="Max output tokens",)
             with gr.Column(scale=8):
+                chatbot = gr.Chatbot(elem_id="Chatbot", label="Q-Instruct-Chatbot", height=750)
                 with gr.Row():
                     with gr.Column(scale=8):
                         textbox.render()
                     with gr.Column(scale=1, min_width=50):
                         submit_btn = gr.Button(value="Send", variant="primary")
+                    with gr.Column(scale=1, min_width=50):
+                        rate_btn = gr.Button(value="Rate!", variant="primary")
                 with gr.Row(elem_id="buttons") as button_row:
                     upvote_btn = gr.Button(value="👍  Upvote", interactive=False)
                     downvote_btn = gr.Button(value="👎  Downvote", interactive=False)
             [state, temperature, top_p, max_output_tokens],
             [state, chatbot] + btn_list
         )
+        rate_btn.click(
+            add_text,
+            [state, textbox, imagebox, image_process_mode],
+            [state, chatbot, textbox, imagebox] + btn_list,
+            queue=False,
+            concurrency_limit=10,
+        ).then(
+            http_bot_modified,
+            [state],
+            [state, chatbot] + btn_list
+        )
         demo.load(
             load_demo,

model_worker.py CHANGED Viewed

@@ -45,7 +45,65 @@ class ModelWorker:
         self.tokenizer, self.model, self.image_processor, self.context_len = load_pretrained_model(
             model_path, model_base, self.model_name, load_8bit, load_4bit, device=self.device)
         self.is_multimodal = True
     @torch.inference_mode()
     def generate_stream(self, params):
         tokenizer, model, image_processor = self.tokenizer, self.model, self.image_processor
@@ -115,6 +173,32 @@ class ModelWorker:
             if generated_text.endswith(stop_str):
                 generated_text = generated_text[:-len(stop_str)]
             yield json.dumps({"text": generated_text, "error_code": 0}).encode()
     def generate_stream_gate(self, params):
         try:

         self.tokenizer, self.model, self.image_processor, self.context_len = load_pretrained_model(
             model_path, model_base, self.model_name, load_8bit, load_4bit, device=self.device)
         self.is_multimodal = True
+    @torch.inference_mode()
+    def predict_stream(self, params):
+        tokenizer, model, image_processor = self.tokenizer, self.model, self.image_processor
+        prompt = params["prompt"] + "The quality of the image is"
+        ori_prompt = prompt
+        images = params.get("images", None)
+        num_image_tokens = 0
+        if images is not None and len(images) > 0 and self.is_multimodal:
+            if len(images) > 0:
+                if len(images) != prompt.count(DEFAULT_IMAGE_TOKEN):
+                    raise ValueError("Number of images does not match number of <|image|> tokens in prompt")
+                images = [load_image_from_base64(image) for image in images]
+                images = process_images(images, image_processor, model.config)
+                if type(images) is list:
+                    images = [image.to(self.model.device, dtype=torch.float16) for image in images]
+                else:
+                    images = images.to(self.model.device, dtype=torch.float16)
+                replace_token = DEFAULT_IMAGE_TOKEN
+                prompt = prompt.replace(DEFAULT_IMAGE_TOKEN, replace_token)
+                num_image_tokens = prompt.count(replace_token) * (model.get_model().visual_abstractor.config.num_learnable_queries + 1)
+            else:
+                images = None
+            image_args = {"images": images}
+        else:
+            images = None
+            image_args = {}
+        input_ids = tokenizer_image_token(prompt, tokenizer, IMAGE_TOKEN_INDEX, return_tensors='pt').unsqueeze(0).to(self.device)
+        logits = model.forward(
+            input_ids=input_ids,
+            use_cache=True,
+            **image_args).logits[0,-1]
+        print(logits.shape)
+        softmax_logits = torch.softmax(logits[[1781,6588,6460]], 0)
+        print(tokenizer(["good", "average", "poor"]))
+        fake_streamer = []
+        for id_, word in enumerate(["good", "average", "poor"]):
+            stream_ = f"Probability of {word} quality: {softmax_logits[id_].item():.4f};\n"
+            fake_streamer.append(stream_)
+        quality_score = 0.5 * softmax_logits[1] + softmax_logits[0]
+        stream_ = f"Quality score: {quality_score:.4f} (range [0,1])."
+        fake_streamer.append(stream_)
+        generated_text = ori_prompt.replace("The quality of the image is", "")
+        for new_text in fake_streamer:
+            generated_text += new_text
+            yield json.dumps({"text": generated_text, "error_code": 0}).encode()
     @torch.inference_mode()
     def generate_stream(self, params):
         tokenizer, model, image_processor = self.tokenizer, self.model, self.image_processor
             if generated_text.endswith(stop_str):
                 generated_text = generated_text[:-len(stop_str)]
             yield json.dumps({"text": generated_text, "error_code": 0}).encode()
+    def predict_stream_gate(self, params):
+        try:
+            for x in self.predict_stream(params):
+                yield x
+        except ValueError as e:
+            print("Caught ValueError:", e)
+            ret = {
+                "text": server_error_msg,
+                "error_code": 1,
+            }
+            yield json.dumps(ret).encode()
+        except torch.cuda.CudaError as e:
+            print("Caught torch.cuda.CudaError:", e)
+            ret = {
+                "text": server_error_msg,
+                "error_code": 1,
+            }
+            yield json.dumps(ret).encode()
+        except Exception as e:
+            print("Caught Unknown Error", e)
+            ret = {
+                "text": server_error_msg,
+                "error_code": 1,
+            }
+            yield json.dumps(ret).encode()
     def generate_stream_gate(self, params):
         try: