EvaGPT-German-v8.8
EvaGPT-German-v8.8 ist ein deutsches Vokabular-Modell, das für die Nutzung in Sprachmodellen wie LLaMA optimiert wurde. Dieses Modell wurde speziell entwickelt, um von Grund auf trainiert zu werden und bietet ein robustes Vokabular für die Verarbeitung der deutschen Sprache. Es ist besonders geeignet für Anwendungen im Bereich natürlicher Sprachverarbeitung (NLP), die auf deutsche Texte spezialisiert sind.
Modell-Details
- Modellname: EvaGPT-German-v8.8
- Sprachen: Deutsch
- Trainingsmethode: Train from Scratch mit LLaMA
- Modell-Datei:
ggml-model-eva-f16.gguf
- Modell-Repository: MTSmash/EvaGPT-Vokabel-Model
Features
- Optimiert für die deutsche Sprache: Das Modell enthält ein Vokabular, das speziell auf die Eigenheiten und Besonderheiten der deutschen Sprache abgestimmt ist.
- Unterstützt verschiedene NLP-Aufgaben: Dank der breiten Abdeckung des Vokabulars kann das Modell für verschiedene Aufgaben wie Textklassifikation, maschinelle Übersetzung, Textgenerierung und mehr eingesetzt werden.
- Kompatibilität mit LLaMA: Das Vokabular ist vollständig kompatibel mit LLaMA und ermöglicht somit das Training eines Sprachmodells von Grund auf.
Installation und Nutzung
Voraussetzungen
Bevor du beginnst, stelle sicher, dass du die folgenden Voraussetzungen erfüllt hast:
- Python 3.8 oder höher
llama.cpp
installiert (siehe llama.cpp GitHub Repository für Anweisungen)
Installation
Das Modell kann direkt von Hugging Face heruntergeladen werden:
pip install huggingface_hub
Nutzung
Um EvaGPT-German-v8.8 in deinem Projekt zu verwenden, folge diesen Schritten:
from llama_cpp import LLaMATokenizer, LLaMAModel
# Lade das Vokabular
tokenizer = LLaMATokenizer.from_pretrained("MTSmash/EvaGPT-Vokabel-Model")
# Initialisiere das Model (Train from Scratch)
model = LLaMAModel(tokenizer=tokenizer, config=...)
model.train(...)
# Beispielhafte Tokenisierung
text = "Dies ist ein Beispieltext auf Deutsch."
tokens = tokenizer.tokenize(text)
print(tokens)
Beispiel-Trainingsskript
Hier ist ein Beispielskript, das verwendet werden kann, um ein Sprachmodell von Grund auf mit EvaGPT-German-v8.8 zu trainieren:
./build/bin/train-text-from-scratch \
--vocab-model ./models/ggml-model-eva-f16.gguf \
--ctx 1024 --embd 512 --head 8 --layer 12 --ff 2048 \
--checkpoint-in chk-evagpt1-small.gguf \
--checkpoint-out chk-evagpt1-small.gguf \
--model-out ggml-evagpt-small1-f32.gguf \
--train-data "train_data.txt" \
-t 8 -b 16 --epochs 10 --seed 1 --adam-iter 128 \
--save-every 10 --no-flash
Erläuterungen zu den Parametern:
--vocab-model
: Pfad zum Vokabularmodell (ggml-model-eva-f16.gguf
).--ctx
: Kontextgröße (1024 Tokens).--embd
: Größe der Embeddings (512).--head
: Anzahl der Attention Heads (8).--layer
: Anzahl der Transformer-Schichten (12).--ff
: Größe des Feed-Forward-Netzwerks (2048).--checkpoint-in
: Eingabe des Checkpoints für die Fortsetzung des Trainings.--checkpoint-out
: Ausgabe des Checkpoints nach dem Training.--model-out
: Pfad zur Ausgabe des trainierten Modells.--train-data
: Pfad zur Trainingsdaten-Datei.-t
: Anzahl der Threads (8).-b
: Batch-Größe (16).--epochs
: Anzahl der Epochen (10).--seed
: Zufalls-Seed (1).--adam-iter
: Anzahl der Adam-Iterationen (128).--save-every
: Speichern nach jeder n-ten Epoche (10).--no-flash
: Deaktiviert Flash-Attention (optional).
Training
Das Modell wurde mit einem umfangreichen Korpus deutscher Texte trainiert, um eine optimale Abdeckung und Genauigkeit zu gewährleisten. Die Trainingsdaten umfassen Texte aus verschiedenen Domänen, um eine breite Anwendbarkeit zu ermöglichen.
Anpassung und Feinabstimmung
EvaGPT-German-v8.8 kann auch für spezifische Anwendungsfälle weiter feinabgestimmt werden. Verwende dazu das Standard-Feinabstimmungsverfahren in LLaMA.
Lizenz
Dieses Modell wird unter der Apache-2.0-Lizenz veröffentlicht. Bitte stelle sicher, dass du die Lizenzbedingungen verstehst und einhältst, bevor du das Modell verwendest.
Zukünftige Entwicklungen
Geplante Verbesserungen und Updates für EvaGPT-German-v8.8 umfassen:
- Erweiterung des Vokabulars
- Feinabstimmung auf spezifische Domänen
- Verbesserungen der Tokenisierungsalgorithmen
Beiträge
Beiträge zur Weiterentwicklung dieses Modells sind herzlich willkommen! Erstelle einfach einen Pull-Request oder öffne ein Issue im Repository.
Danksagungen
Ein besonderer Dank geht an die Entwickler von LLaMA und die Open-Source-Community, die dieses Projekt möglich gemacht haben.
- Downloads last month
- 12