Added model

Browse files

Files changed (11) hide show

config.json +111 -0
configuration_clipcap.py +107 -0
generation_config.json +6 -0
merges.txt +0 -0
model.safetensors +3 -0
modeling_clipcap.py +290 -0
preprocessor_config.json +27 -0
special_tokens_map.json +30 -0
tokenizer.json +0 -0
tokenizer_config.json +20 -0
vocab.json +0 -0

config.json ADDED Viewed

	@@ -0,0 +1,111 @@

+{
+  "_name_or_path": "/media/palm/BiggerData/capgen/hub/pth/gpt2_clip_1e-4_encoder_freeze",
+  "architectures": [
+    "CLIPEncoderDecoderModel"
+  ],
+  "auto_map": {
+    "AutoConfig": "configuration_clipcap.CLIPEncoderDecoderConfig",
+    "AutoModel": "modeling_clipcap.CLIPEncoderDecoderModel"
+  },
+  "decoder": {
+    "_name_or_path": "/project/lt200203-aimedi/palm/huggingface/gpt2",
+    "add_cross_attention": true,
+    "architectures": [
+      "GPT2LMHeadModel"
+    ],
+    "is_decoder": true,
+    "model_type": "gpt2",
+    "n_ctx": 1024,
+    "task_specific_params": {
+      "text-generation": {
+        "do_sample": true,
+        "max_length": 50
+      }
+    }
+  },
+  "decoder_start_token_id": 50256,
+  "encoder": {
+    "_name_or_path": "",
+    "add_cross_attention": false,
+    "architectures": null,
+    "attention_dropout": 0.0,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": null,
+    "chunk_size_feed_forward": 0,
+    "cross_attention_hidden_size": null,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "dropout": 0.0,
+    "early_stopping": false,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": null,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "hidden_act": "quick_gelu",
+    "hidden_size": 512,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "image_size": 224,
+    "initializer_factor": 1.0,
+    "initializer_range": 0.02,
+    "intermediate_size": 3072,
+    "is_decoder": false,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-05,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "min_length": 0,
+    "model_type": "clip_vision_model",
+    "no_repeat_ngram_size": 0,
+    "num_attention_heads": 12,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_channels": 3,
+    "num_hidden_layers": 12,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": null,
+    "patch_size": 32,
+    "prefix": null,
+    "problem_type": null,
+    "projection_dim": 512,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "sep_token_id": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "typical_p": 1.0,
+    "use_bfloat16": false
+  },
+  "eos_token_id": 50256,
+  "is_encoder_decoder": true,
+  "model_type": "clip-encoder-decoder",
+  "pad_token_id": 50256,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.36.2"
+}

configuration_clipcap.py ADDED Viewed

	@@ -0,0 +1,107 @@

+from transformers import PretrainedConfig, AutoConfig
+class CLIPEncoderDecoderConfig(PretrainedConfig):
+    model_type = "clip-encoder-decoder"
+    def __init__(
+        self,
+        decoder={'_name_or_path': '',
+ 'activation_function': 'gelu_new',
+ 'add_cross_attention': True,
+ 'architectures': ['GPT2LMHeadModel'],
+ 'attn_pdrop': 0.1,
+ 'bad_words_ids': None,
+ 'begin_suppress_tokens': None,
+ 'bos_token_id': 50256,
+ 'chunk_size_feed_forward': 0,
+ 'cross_attention_hidden_size': None,
+ 'decoder_start_token_id': None,
+ 'diversity_penalty': 0.0,
+ 'do_sample': False,
+ 'early_stopping': False,
+ 'embd_pdrop': 0.1,
+ 'encoder_no_repeat_ngram_size': 0,
+ 'eos_token_id': 50256,
+ 'exponential_decay_length_penalty': None,
+ 'finetuning_task': None,
+ 'forced_bos_token_id': None,
+ 'forced_eos_token_id': None,
+ 'id2label': {'0': 'LABEL_0', '1': 'LABEL_1'},
+ 'initializer_range': 0.02,
+ 'is_decoder': True,
+ 'is_encoder_decoder': False,
+ 'label2id': {'LABEL_0': 0, 'LABEL_1': 1},
+ 'layer_norm_epsilon': 1e-05,
+ 'length_penalty': 1.0,
+ 'max_length': 20,
+ 'min_length': 0,
+ 'model_type': 'gpt2',
+ 'n_ctx': 1024,
+ 'n_embd': 768,
+ 'n_head': 12,
+ 'n_inner': None,
+ 'n_layer': 12,
+ 'n_positions': 1024,
+ 'no_repeat_ngram_size': 0,
+ 'num_beam_groups': 1,
+ 'num_beams': 1,
+ 'num_return_sequences': 1,
+ 'output_attentions': False,
+ 'output_hidden_states': False,
+ 'output_scores': False,
+ 'pad_token_id': None,
+ 'prefix': None,
+ 'problem_type': None,
+ 'pruned_heads': {},
+ 'remove_invalid_values': False,
+ 'reorder_and_upcast_attn': False,
+ 'repetition_penalty': 1.0,
+ 'resid_pdrop': 0.1,
+ 'return_dict': True,
+ 'return_dict_in_generate': False,
+ 'scale_attn_by_inverse_layer_idx': False,
+ 'scale_attn_weights': True,
+ 'sep_token_id': None,
+ 'summary_activation': None,
+ 'summary_first_dropout': 0.1,
+ 'summary_proj_to_labels': True,
+ 'summary_type': 'cls_index',
+ 'summary_use_proj': True,
+ 'suppress_tokens': None,
+ 'task_specific_params': {'text-generation': {'do_sample': True,
+   'max_length': 50}},
+ 'temperature': 1.0,
+ 'tf_legacy_loss': False,
+ 'tie_encoder_decoder': False,
+ 'tie_word_embeddings': True,
+ 'tokenizer_class': None,
+ 'top_k': 50,
+ 'top_p': 1.0,
+ 'torch_dtype': None,
+ 'torchscript': False,
+ 'typical_p': 1.0,
+ 'use_bfloat16': False,
+ 'use_cache': True,
+ 'vocab_size': 50257},
+        **kwargs):
+        super().__init__(**kwargs)
+        self.decoder = AutoConfig.for_model(**decoder)
+        self.is_encoder_decoder = True
+    @classmethod
+    def from_encoder_decoder_configs(
+            cls, encoder_config: PretrainedConfig, decoder_config: PretrainedConfig, **kwargs
+    ) -> PretrainedConfig:
+        r"""
+        Instantiate a [`VisionEncoderDecoderConfig`] (or a derived class) from a pre-trained encoder model
+        configuration and decoder model configuration.
+        Returns:
+            [`VisionEncoderDecoderConfig`]: An instance of a configuration object
+        """
+        decoder_config.is_decoder = True
+        decoder_config.add_cross_attention = True
+        return cls(encoder=encoder_config.to_dict(), decoder=decoder_config.to_dict(), **kwargs)

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.36.2"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04fa063f78c3046b68b78d319a30fac67d7a0c38f6343109e0d9b7fa084490dd
+size 1118642856

modeling_clipcap.py ADDED Viewed

	@@ -0,0 +1,290 @@

+from transformers import (
+    PreTrainedModel,
+    VisionEncoderDecoderModel,
+    VisionEncoderDecoderConfig,
+    AutoModel,
+    AutoModelForCausalLM,
+    AutoConfig
+)
+from transformers.modeling_outputs import BaseModelOutput, Seq2SeqLMOutput
+from torch import nn
+from .configuration_clipcap import CLIPEncoderDecoderConfig
+from typing import Optional, Tuple, Union
+import torch
+import gc
+import os
+import tempfile
+def shift_tokens_right(input_ids: torch.Tensor, pad_token_id: int, decoder_start_token_id: int):
+    """
+    Shift input ids one token to the right.
+    """
+    shifted_input_ids = input_ids.new_zeros(input_ids.shape)
+    shifted_input_ids[:, 1:] = input_ids[:, :-1].clone()
+    if decoder_start_token_id is None:
+        raise ValueError("Make sure to set the decoder_start_token_id attribute of the model's configuration.")
+    shifted_input_ids[:, 0] = decoder_start_token_id
+    if pad_token_id is None:
+        raise ValueError("Make sure to set the pad_token_id attribute of the model's configuration.")
+    # replace possible -100 values in labels by `pad_token_id`
+    shifted_input_ids.masked_fill_(shifted_input_ids == -100, pad_token_id)
+    return shifted_input_ids
+class Encoder(nn.Module):
+    main_input_name = 'pixel_values'
+    def __init__(self):
+        super().__init__()
+        clip = AutoModel.from_pretrained('openai/clip-vit-base-patch32')
+        self.vision_model = clip.vision_model
+        self.visual_projection = clip.visual_projection
+        self.config = clip.vision_model.config
+        self.config.hidden_size = clip.config.projection_dim
+    def forward(self, pixel_values, output_attentions=None, output_hidden_states=None, return_dict=False, **kwargs):
+        vision_outputs = self.vision_model(
+            pixel_values=pixel_values,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+        )
+        pooled_output = vision_outputs[1]  # pooled_output
+        image_features = self.visual_projection(pooled_output).view(pooled_output.size(0), 1, -1)
+        return BaseModelOutput(last_hidden_state=image_features)
+    def get_output_embeddings(self):
+        pass
+class CLIPEncoderDecoderModel(PreTrainedModel):
+    config_class = CLIPEncoderDecoderConfig
+    base_model_prefix = "clip_encoder_decoder"
+    main_input_name = "pixel_values"
+    supports_gradient_checkpointing = True
+    def __init__(
+        self,
+        config = None,
+        encoder = None,
+        decoder = None,
+    ):
+        config.tie_word_embeddings = False
+        super().__init__(config)
+        encoder = Encoder()
+        encoder_hidden_size = encoder.config.hidden_size
+        if decoder is None:
+            decoder = AutoModelForCausalLM.from_config(config.decoder)
+        self.encoder = encoder
+        self.decoder = decoder
+        self.encoder.config = self.config.encoder
+        self.decoder.config = self.config.decoder
+        self.enc_to_dec_proj = nn.Linear(encoder_hidden_size, self.decoder.config.hidden_size)
+    def get_encoder(self):
+        return self.encoder
+    def get_decoder(self):
+        return self.decoder
+    def get_output_embeddings(self):
+        return self.decoder.get_output_embeddings()
+    def set_output_embeddings(self, new_embeddings):
+        return self.decoder.set_output_embeddings(new_embeddings)
+    @classmethod
+    def from_encoder_decoder_pretrained(
+        cls,
+        encoder_pretrained_model_name_or_path: str = None,
+        decoder_pretrained_model_name_or_path: str = None,
+        *model_args,
+        **kwargs,
+    ) -> PreTrainedModel:
+        kwargs_encoder = {
+            argument[len("encoder_") :]: value for argument, value in kwargs.items() if argument.startswith("encoder_")
+        }
+        kwargs_decoder = {
+            argument[len("decoder_") :]: value for argument, value in kwargs.items() if argument.startswith("decoder_")
+        }
+        # remove encoder, decoder kwargs from kwargs
+        for key in kwargs_encoder.keys():
+            del kwargs["encoder_" + key]
+        for key in kwargs_decoder.keys():
+            del kwargs["decoder_" + key]
+        # Load and initialize the encoder and decoder
+        # The distinction between encoder and decoder at the model level is made
+        # by the value of the flag `is_decoder` that we need to set correctly.
+        encoder = kwargs_encoder.pop("model", None)
+        if encoder is None:
+            if encoder_pretrained_model_name_or_path is None:
+                raise ValueError(
+                    "If `encoder_model` is not defined as an argument, a `encoder_pretrained_model_name_or_path` has "
+                    "to be defined."
+                )
+            if "config" not in kwargs_encoder:
+                encoder_config, kwargs_encoder = AutoConfig.from_pretrained(
+                    encoder_pretrained_model_name_or_path, **kwargs_encoder, return_unused_kwargs=True
+                )
+                if encoder_config.is_decoder is True or encoder_config.add_cross_attention is True:
+                    encoder_config.is_decoder = False
+                    encoder_config.add_cross_attention = False
+                kwargs_encoder["config"] = encoder_config
+            encoder = AutoModel.from_pretrained(encoder_pretrained_model_name_or_path, *model_args, **kwargs_encoder)
+        decoder = kwargs_decoder.pop("model", None)
+        if decoder is None:
+            if decoder_pretrained_model_name_or_path is None:
+                raise ValueError(
+                    "If `decoder_model` is not defined as an argument, a `decoder_pretrained_model_name_or_path` has "
+                    "to be defined."
+                )
+            if "config" not in kwargs_decoder:
+                decoder_config, kwargs_decoder = AutoConfig.from_pretrained(
+                    decoder_pretrained_model_name_or_path, **kwargs_decoder, return_unused_kwargs=True
+                )
+                if decoder_config.is_decoder is False or decoder_config.add_cross_attention is False:
+                    decoder_config.is_decoder = True
+                    decoder_config.add_cross_attention = True
+                kwargs_decoder["config"] = decoder_config
+            decoder = AutoModelForCausalLM.from_pretrained(decoder_pretrained_model_name_or_path, **kwargs_decoder)
+        # instantiate config with corresponding kwargs
+        config = VisionEncoderDecoderConfig.from_encoder_decoder_configs(encoder.config, decoder.config, **kwargs)
+        # make sure input & output embeddings is not tied
+        config.tie_word_embeddings = False
+        return cls(encoder=encoder, decoder=decoder, config=config)
+    def forward(
+        self,
+        pixel_values: Optional[torch.FloatTensor] = None,
+        decoder_input_ids: Optional[torch.LongTensor] = None,
+        decoder_attention_mask: Optional[torch.BoolTensor] = None,
+        encoder_outputs: Optional[Tuple[torch.FloatTensor]] = None,
+        past_key_values: Optional[Tuple[Tuple[torch.FloatTensor]]] = None,
+        decoder_inputs_embeds: Optional[torch.FloatTensor] = None,
+        labels: Optional[torch.LongTensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+        **kwargs,
+    ) -> Union[Tuple[torch.FloatTensor], Seq2SeqLMOutput]:
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+        kwargs_encoder = {argument: value for argument, value in kwargs.items() if not argument.startswith("decoder_")}
+        kwargs_decoder = {
+            argument[len("decoder_") :]: value for argument, value in kwargs.items() if argument.startswith("decoder_")
+        }
+        if encoder_outputs is None:
+            if pixel_values is None:
+                raise ValueError("You have to specify pixel_values")
+            encoder_outputs = self.encoder(
+                pixel_values,
+                output_attentions=output_attentions,
+                output_hidden_states=output_hidden_states,
+                return_dict=return_dict,
+                **kwargs_encoder,
+            )
+        elif isinstance(encoder_outputs, tuple):
+            encoder_outputs = BaseModelOutput(*encoder_outputs)
+        encoder_hidden_states = encoder_outputs[0]
+        encoder_hidden_states = self.enc_to_dec_proj(encoder_hidden_states)
+        # else:
+        encoder_attention_mask = None
+        if (labels is not None) and (decoder_input_ids is None and decoder_inputs_embeds is None):
+            decoder_input_ids = shift_tokens_right(
+                labels, self.config.pad_token_id, self.config.decoder_start_token_id
+            )
+        # Decode
+        decoder_outputs = self.decoder(
+            input_ids=decoder_input_ids,
+            attention_mask=decoder_attention_mask,
+            encoder_hidden_states=encoder_hidden_states,
+            encoder_attention_mask=encoder_attention_mask,
+            inputs_embeds=decoder_inputs_embeds,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            use_cache=use_cache,
+            past_key_values=past_key_values,
+            return_dict=return_dict,
+            **kwargs_decoder,
+        )
+        # Compute loss independent from decoder (as some shift the logits inside them)
+        loss = None
+        if labels is not None:
+            logits = decoder_outputs.logits if return_dict else decoder_outputs[0]
+            loss_fct = nn.CrossEntropyLoss()
+            loss = loss_fct(logits.reshape(-1, self.decoder.config.vocab_size), labels.reshape(-1))
+        if not return_dict:
+            if loss is not None:
+                return (loss,) + decoder_outputs + encoder_outputs
+            else:
+                return decoder_outputs + encoder_outputs
+        return Seq2SeqLMOutput(
+            loss=loss,
+            logits=decoder_outputs.logits,
+            past_key_values=decoder_outputs.past_key_values,
+            decoder_hidden_states=decoder_outputs.hidden_states,
+            decoder_attentions=decoder_outputs.attentions,
+            cross_attentions=decoder_outputs.cross_attentions,
+            encoder_last_hidden_state=encoder_outputs.last_hidden_state,
+            encoder_hidden_states=encoder_outputs.hidden_states,
+            encoder_attentions=encoder_outputs.attentions,
+        )
+    def prepare_decoder_input_ids_from_labels(self, labels: torch.Tensor):
+        return shift_tokens_right(labels, self.config.pad_token_id, self.config.decoder_start_token_id)
+    def prepare_inputs_for_generation(
+        self, input_ids, past_key_values=None, attention_mask=None, use_cache=None, encoder_outputs=None, **kwargs
+    ):
+        decoder_inputs = self.decoder.prepare_inputs_for_generation(input_ids, past_key_values=past_key_values)
+        decoder_attention_mask = decoder_inputs["attention_mask"] if "attention_mask" in decoder_inputs else None
+        input_dict = {
+            "attention_mask": attention_mask,
+            "decoder_attention_mask": decoder_attention_mask,
+            "decoder_input_ids": decoder_inputs["input_ids"],
+            "encoder_outputs": encoder_outputs,
+            "past_key_values": decoder_inputs["past_key_values"],
+            "use_cache": use_cache,
+        }
+        return input_dict
+    def resize_token_embeddings(self, *args, **kwargs):
+        raise NotImplementedError(
+            "Resizing the embedding layers via the VisionEncoderDecoderModel directly is not supported.Please use the"
+            " respective methods of the wrapped decoder object (model.decoder.resize_token_embeddings(...))"
+        )
+    def _reorder_cache(self, past_key_values, beam_idx):
+        # apply decoder cache reordering here
+        return self.decoder._reorder_cache(past_key_values, beam_idx)

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "crop_size": {
+    "height": 224,
+    "width": 224
+  },
+  "do_center_crop": true,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.48145466,
+    0.4578275,
+    0.40821073
+  ],
+  "image_processor_type": "CLIPImageProcessor",
+  "image_std": [
+    0.26862954,
+    0.26130258,
+    0.27577711
+  ],
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "shortest_edge": 224
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff