metadata

license: apache-2.0
tags:
  - merge
  - mergekit
  - lazymergekit
  - llm-merge-cc4
  - OpenPipe/mistral-ft-optimized-1218
  - mlabonne/NeuralHermes-2.5-Mistral-7B
  - OpenPipe/mistral-ft-optimized-1218
  - mlabonne/NeuralHermes-2.5-Mistral-7B

LLM_MERGE_CC4

LLM_MERGE_CC4 est une fusion des modèles suivants créée par ManoloPueblo utilisant mergekit:

🧩 Configuration de la fusion

merge_method: passthrough
slices:
  - sources:
    - model: OpenPipe/mistral-ft-optimized-1218
      layer_range: [0, 32]
  - sources:
    - model: mlabonne/NeuralHermes-2.5-Mistral-7B
      layer_range: [24, 32]
merge_method: passthrough
dtype: bfloat16

Description

LLM_MERGE_CC4 est un modèle de langage créé par la fusion de deux modèles Mistral :

OpenPipe/mistral-ft-optimized-1218 - Le modèle de base Llama (modèle de référence) - (layer_range: [0, 32])
mlabonne/NeuralHermes-2.5-Mistral-7B - Version optimisée par OpenPipe (layer_range: [24, 32])

Cette fusion utilise la méthode "passthrough" avec normalisation et une précision float16 pour combiner les forces des deux modèles.

Architecture

Le modèle conserve l'architecture de base de OpenPipe/mistral-ft-optimized-1218 tout en incorporant les améliorations des deux versions à travers une fusion pondérée.

Paramètres de fusion

Méthode de fusion : passthrough
Normalisation : activée
Type de données : float16
Densités et poids :
- OpenPipe/mistral-ft-optimized-1218 : layer_range: [0, 32]
- NeuralHermes-2.5-Mistral-7B : layer_range: [24, 32]

Utilisation

Ce modèle peut être utilisé avec la bibliothèque transformers de Hugging Face :

from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("ManoloPueblo/LLM_MERGE_CC4")
model = AutoModelForCausalLM.from_pretrained("ManoloPueblo/LLM_MERGE_CC4")

Modèles fusionnés

OpenPipe/mistral-ft-optimized-1218 - Modèle de base
mlabonne/NeuralHermes-2.5-Mistral-7B - Version optimisée

Limitations

Comme pour tout modèle de langage, les utilisateurs doivent être conscients des biais potentiels et des limitations inhérentes aux modèles sources. Les performances peuvent varier selon les cas d'utilisation.