BAAI
/

Emu3-Gen

@@ -16,9 +16,11 @@ import sys
 sys.path.append(PATH_TO_BAAI_Emu3-Gen_MODEL)
 from processing_emu3 import Emu3Processor
 EMU_HUB = "BAAI/Emu3-Gen"
 VQ_HUB = "BAAI/Emu3-VisionTokenizer"
 model = AutoModelForCausalLM.from_pretrained(
     EMU_HUB,
     device_map="cuda:0",
@@ -32,6 +34,7 @@ image_processor = AutoImageProcessor.from_pretrained(VQ_HUB, trust_remote_code=T
 image_tokenizer = AutoModel.from_pretrained(VQ_HUB, device_map="cuda:0", trust_remote_code=True).eval()
 processor = Emu3Processor(image_processor, image_tokenizer, tokenizer)
 POSITIVE_PROMPT = " masterpiece, film grained, best quality."
 NEGATIVE_PROMPT = "lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry."
@@ -48,6 +51,7 @@ kwargs = dict(
 pos_inputs = processor(text=prompt, **kwargs)
 neg_inputs = processor(text=NEGATIVE_PROMPT, **kwargs)
 GENERATION_CONFIG = GenerationConfig(
     use_cache=True,
     eos_token_id=model.config.eos_token_id,
@@ -71,6 +75,7 @@ logits_processor = LogitsProcessorList([
     ),
 ])
 outputs = model.generate(
     pos_inputs.input_ids.to("cuda:0"),
     GENERATION_CONFIG,
@@ -78,7 +83,6 @@ outputs = model.generate(
 )
 mm_list = processor.decode(outputs[0])
-print(mm_list)
 for idx, im in enumerate(mm_list):
     if not isinstance(im, Image.Image):
         continue

 sys.path.append(PATH_TO_BAAI_Emu3-Gen_MODEL)
 from processing_emu3 import Emu3Processor
+# model path
 EMU_HUB = "BAAI/Emu3-Gen"
 VQ_HUB = "BAAI/Emu3-VisionTokenizer"
+# prepare model and processor
 model = AutoModelForCausalLM.from_pretrained(
     EMU_HUB,
     device_map="cuda:0",
 image_tokenizer = AutoModel.from_pretrained(VQ_HUB, device_map="cuda:0", trust_remote_code=True).eval()
 processor = Emu3Processor(image_processor, image_tokenizer, tokenizer)
+# prepare input
 POSITIVE_PROMPT = " masterpiece, film grained, best quality."
 NEGATIVE_PROMPT = "lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry."
 pos_inputs = processor(text=prompt, **kwargs)
 neg_inputs = processor(text=NEGATIVE_PROMPT, **kwargs)
+# prepare hyper parameters
 GENERATION_CONFIG = GenerationConfig(
     use_cache=True,
     eos_token_id=model.config.eos_token_id,
     ),
 ])
+# generate
 outputs = model.generate(
     pos_inputs.input_ids.to("cuda:0"),
     GENERATION_CONFIG,
 )
 mm_list = processor.decode(outputs[0])
 for idx, im in enumerate(mm_list):
     if not isinstance(im, Image.Image):
         continue