nota-ai
/

phiva-4b-hf

Image-Text-to-Text

Inference Endpoints

Model card Files Files and versions Community

phiva-4b-hf / README.md

jykim310's picture

Create README.md

39c1bad verified 5 months ago

|

841 Bytes

	## Usage
	```python
	import requests
	from PIL import Image

	import torch
	from transformers import AutoProcessor, LlavaForConditionalGeneration

	model_id = "nota-ai/phiva-4b-hf"

	prompt = "USER: <image>\nWhat are these?\nASSISTANT:"
	image_file = "http://images.cocodataset.org/val2017/000000039769.jpg"

	model = LlavaForConditionalGeneration.from_pretrained(
	model_id,
	torch_dtype=torch.float16,
	low_cpu_mem_usage=True,
	attn_implementation="eager"
	).to(0)

	processor = AutoProcessor.from_pretrained(model_id)


	raw_image = Image.open(requests.get(image_file, stream=True).raw)
	inputs = processor(prompt, raw_image, return_tensors='pt').to(0, torch.float16)

	output = model.generate(**inputs, max_new_tokens=200, do_sample=False)
	print(processor.decode(output[0][inputs['input_ids'].shape[-1]:], skip_special_tokens=True))
	```