xtuner
/

llava-llama-3-8b-transformers

+{
+  "architectures": [
+    "LlavaForConditionalGeneration"
+  ],
+  "ignore_index": -100,
+  "image_token_index": 128257,
+  "model_type": "llava",
+  "pad_token_id": 128258,
+  "projector_hidden_act": "gelu",
+  "text_config": {
+    "_name_or_path": "./iter_39620_xtuner",
+    "architectures": [
+      "LlamaForCausalLM"
+    ],
+    "bos_token_id": 128000,
+    "eos_token_id": 128001,
+    "intermediate_size": 14336,
+    "max_position_embeddings": 8192,
+    "model_type": "llama",
+    "num_key_value_heads": 8,
+    "rms_norm_eps": 1e-05,
+    "rope_theta": 500000.0,
+    "torch_dtype": "float16",
+    "vocab_size": 128320
+  },
+  "torch_dtype": "float16",
+  "transformers_version": "4.40.1",
+  "vision_config": {
+    "_name_or_path": "./iter_39620_visual_encoder",
+    "architectures": [
+      "CLIPVisionModel"
+    ],
+    "dropout": 0.0,
+    "hidden_size": 1024,
+    "image_size": 336,
+    "intermediate_size": 4096,
+    "model_type": "clip_vision_model",
+    "num_attention_heads": 16,
+    "num_hidden_layers": 24,
+    "patch_size": 14,
+    "projection_dim": 768,
+    "torch_dtype": "float32"
+  },
+  "vision_feature_layer": -2,
+  "vision_feature_select_strategy": "default"
+}