LanguageMachines
/

blip2-opt-2.7b

visual-question-answering

image-captioning

Inference Endpoints

Model card Files Files and versions Community

sarang-shrivastava commited on Jun 28, 2023

Commit

206cd4d

•

1 Parent(s): 68637ef

Update handler

Files changed (1) hide show

handler.py +10 -3

handler.py CHANGED Viewed

@@ -3,9 +3,10 @@ from typing import Dict, List, Any
 # from transformers import AutoTokenizer
 # import torch
 from datetime import datetime
 import requests
 from PIL import Image
@@ -19,6 +20,12 @@ class EndpointHandler():
         self.processor = Blip2Processor.from_pretrained(path)
         self.model = Blip2ForConditionalGeneration.from_pretrained(path, device_map="auto")
         # device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
         # self.model.eval()
         # self.model.to(device=device, dtype=self.torch_dtype)
@@ -72,7 +79,7 @@ class EndpointHandler():
         raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')
         question = "how many dogs are in the picture?"
-        inputs = self.processor(raw_image, question, return_tensors="pt").to("cuda")
         out = self.model.generate(**inputs)
         output_text = self.processor.decode(out[0], skip_special_tokens=True)

 # from transformers import AutoTokenizer
 # import torch
 from datetime import datetime
+import torch
+import logging
+logging.basicConfig(format='%(levelname)s:%(message)s', level=logging.DEBUG)
 import requests
 from PIL import Image
         self.processor = Blip2Processor.from_pretrained(path)
         self.model = Blip2ForConditionalGeneration.from_pretrained(path, device_map="auto")
+        self.device = "cuda" if torch.cuda.is_available() else "cpu"
+        self.model.to(self.device)
+        logging.info('Model moved to device-' + self.device)
         # device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
         # self.model.eval()
         # self.model.to(device=device, dtype=self.torch_dtype)
         raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')
         question = "how many dogs are in the picture?"
+        inputs = self.processor(raw_image, question, return_tensors="pt").to(self.device)
         out = self.model.generate(**inputs)
         output_text = self.processor.decode(out[0], skip_special_tokens=True)