Spaces:

GunaKoppula
/

MultiModal-Phi2

Runtime error

App Files Files Community

MultiModal-Phi2 / inference /model /language_model /llava_phi.py

GunaKoppula

Upload 19 files

a8d9c50 verified 11 months ago

raw

history blame

4.75 kB

	import os
	from typing import List, Optional, Tuple, Union

	import torch
	import torch.nn as nn
	from torch.nn import CrossEntropyLoss

	from transformers import AutoConfig, AutoModelForCausalLM, \
	PhiModel, PhiPreTrainedModel

	from transformers.modeling_outputs import CausalLMOutputWithPast
	from ..llava_arch import LlavaMetaModel, LlavaMetaForCausalLM
	from transformers.utils import logging
	from .configuration_llava_phi import LlavaPhiConfig

	logger = logging.get_logger(__name__)


	class LLavaPhiModel(LlavaMetaModel, PhiModel):
	config_class = LlavaPhiConfig

	def __init__(self, config):
	super(LLavaPhiModel, self).__init__(config)


	class LlavaPhiForCausalLM(PhiPreTrainedModel, LlavaMetaForCausalLM):
	config_class = LlavaPhiConfig

	def __init__(self, config):
	super(PhiPreTrainedModel, self).__init__(config)
	self.model = LLavaPhiModel(config)
	self.lm_head = nn.Linear(config.hidden_size, config.vocab_size, bias=True)

	# Initialize weights and apply final processing
	self.post_init()

	def get_model(self):
	return self.model

	def forward(
	self,
	input_ids: torch.LongTensor = None,
	attention_mask: Optional[torch.Tensor] = None,
	past_key_values: Optional[List[torch.FloatTensor]] = None,
	inputs_embeds: Optional[torch.FloatTensor] = None,
	labels: Optional[torch.LongTensor] = None,
	use_cache: Optional[bool] = None,
	output_attentions: Optional[bool] = None,
	output_hidden_states: Optional[bool] = None,
	images: Optional[torch.FloatTensor] = None,
	return_dict: Optional[bool] = None,
	) -> Union[Tuple, CausalLMOutputWithPast]:
	output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
	output_hidden_states = (
	output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
	)
	return_dict = return_dict if return_dict is not None else self.config.use_return_dict

	input_ids, attention_mask, past_key_values, inputs_embeds, labels = self.prepare_inputs_labels_for_multimodal(
	input_ids, attention_mask, past_key_values, labels, images)

	# decoder outputs consists of (dec_features, layer_state, dec_hidden, dec_attn)
	outputs = self.model(
	input_ids=input_ids,
	attention_mask=attention_mask,
	past_key_values=past_key_values,
	inputs_embeds=inputs_embeds,
	use_cache=use_cache,
	output_attentions=output_attentions,
	output_hidden_states=output_hidden_states,
	return_dict=return_dict
	)

	hidden_states = outputs[0]
	logits = self.lm_head(hidden_states)

	loss = None
	if labels is not None:
	# Shift so that tokens < n predict n
	shift_logits = logits[..., :-1, :].contiguous()
	shift_labels = labels[..., 1:].contiguous()
	# Flatten the tokens
	loss_fct = CrossEntropyLoss()
	shift_logits = shift_logits.view(-1, self.config.vocab_size)
	shift_labels = shift_labels.view(-1)
	# Enable model/pipeline parallelism
	shift_labels = shift_labels.to(shift_logits.device)
	loss = loss_fct(shift_logits, shift_labels)

	if not return_dict:
	output = (logits,) + outputs[1:]
	return (loss,) + output if loss is not None else output

	return CausalLMOutputWithPast(
	loss=loss,
	logits=logits,
	past_key_values=outputs.past_key_values,
	hidden_states=outputs.hidden_states,
	attentions=outputs.attentions,
	)

	def prepare_inputs_for_generation(
	self, input_ids, past_key_values=None, attention_mask=None, inputs_embeds=None, **kwargs
	):
	if past_key_values:
	input_ids = input_ids[:, -1:]

	# if `inputs_embeds` are passed, we only want to use them in the 1st generation step
	if inputs_embeds is not None and past_key_values is None:
	model_inputs = {"inputs_embeds": inputs_embeds}
	else:
	model_inputs = {"input_ids": input_ids}

	model_inputs.update(
	{
	"past_key_values": past_key_values,
	"use_cache": kwargs.get("use_cache"),
	"attention_mask": attention_mask,
	"images": kwargs.get("images", None),
	}
	)
	return model_inputs


	AutoConfig.register("llava_phi", LlavaPhiConfig)
	AutoModelForCausalLM.register(LlavaPhiConfig, LlavaPhiForCausalLM)