metadata

license: apache-2.0

EvaGPT-German-v8.8

EvaGPT-German-v8.8 ist ein deutsches Vokabular-Modell, das für die Nutzung in Sprachmodellen wie LLaMA optimiert wurde. Dieses Modell wurde speziell entwickelt, um von Grund auf trainiert zu werden und bietet ein robustes Vokabular für die Verarbeitung der deutschen Sprache. Es ist besonders geeignet für Anwendungen im Bereich natürlicher Sprachverarbeitung (NLP), die auf deutsche Texte spezialisiert sind.

Modell-Details

Modellname: EvaGPT-German-v8.8
Sprachen: Deutsch
Trainingsmethode: Train from Scratch mit LLaMA
Modell-Datei: ggml-model-eva-f16.gguf
Modell-Repository: MTSmash/EvaGPT-Vokabel-Model

Features

Optimiert für die deutsche Sprache: Das Modell enthält ein Vokabular, das speziell auf die Eigenheiten und Besonderheiten der deutschen Sprache abgestimmt ist.
Unterstützt verschiedene NLP-Aufgaben: Dank der breiten Abdeckung des Vokabulars kann das Modell für verschiedene Aufgaben wie Textklassifikation, maschinelle Übersetzung, Textgenerierung und mehr eingesetzt werden.
Kompatibilität mit LLaMA: Das Vokabular ist vollständig kompatibel mit LLaMA und ermöglicht somit das Training eines Sprachmodells von Grund auf.

Installation und Nutzung

Voraussetzungen

Bevor du beginnst, stelle sicher, dass du die folgenden Voraussetzungen erfüllt hast:

Python 3.8 oder höher
llama.cpp installiert (siehe llama.cpp GitHub Repository für Anweisungen)

Installation

Das Modell kann direkt von Hugging Face heruntergeladen werden:

pip install huggingface_hub

Nutzung

Um EvaGPT-German-v8.8 in deinem Projekt zu verwenden, folge diesen Schritten:

from llama_cpp import LLaMATokenizer, LLaMAModel

# Lade das Vokabular
tokenizer = LLaMATokenizer.from_pretrained("MTSmash/EvaGPT-Vokabel-Model")

# Initialisiere das Model (Train from Scratch)
model = LLaMAModel(tokenizer=tokenizer, config=...)
model.train(...)

# Beispielhafte Tokenisierung
text = "Dies ist ein Beispieltext auf Deutsch."
tokens = tokenizer.tokenize(text)
print(tokens)

Beispiel-Trainingsskript

Hier ist ein Beispielskript, das verwendet werden kann, um ein Sprachmodell von Grund auf mit EvaGPT-German-v8.8 zu trainieren:

./build/bin/train-text-from-scratch \
    --vocab-model ./models/ggml-model-eva-f16.gguf \
    --ctx 1024 --embd 512 --head 8 --layer 12 --ff 2048 \
    --checkpoint-in chk-evagpt1-small.gguf \
    --checkpoint-out chk-evagpt1-small.gguf \
    --model-out ggml-evagpt-small1-f32.gguf \
    --train-data "train_data.txt" \
    -t 8 -b 16 --epochs 10 --seed 1 --adam-iter 128 \
    --save-every 10 --no-flash

Erläuterungen zu den Parametern:

--vocab-model: Pfad zum Vokabularmodell (ggml-model-eva-f16.gguf).
--ctx: Kontextgröße (1024 Tokens).
--embd: Größe der Embeddings (512).
--head: Anzahl der Attention Heads (8).
--layer: Anzahl der Transformer-Schichten (12).
--ff: Größe des Feed-Forward-Netzwerks (2048).
--checkpoint-in: Eingabe des Checkpoints für die Fortsetzung des Trainings.
--checkpoint-out: Ausgabe des Checkpoints nach dem Training.
--model-out: Pfad zur Ausgabe des trainierten Modells.
--train-data: Pfad zur Trainingsdaten-Datei.
-t: Anzahl der Threads (8).
-b: Batch-Größe (16).
--epochs: Anzahl der Epochen (10).
--seed: Zufalls-Seed (1).
--adam-iter: Anzahl der Adam-Iterationen (128).
--save-every: Speichern nach jeder n-ten Epoche (10).
--no-flash: Deaktiviert Flash-Attention (optional).

Training

Das Modell wurde mit einem umfangreichen Korpus deutscher Texte trainiert, um eine optimale Abdeckung und Genauigkeit zu gewährleisten. Die Trainingsdaten umfassen Texte aus verschiedenen Domänen, um eine breite Anwendbarkeit zu ermöglichen.

Anpassung und Feinabstimmung

EvaGPT-German-v8.8 kann auch für spezifische Anwendungsfälle weiter feinabgestimmt werden. Verwende dazu das Standard-Feinabstimmungsverfahren in LLaMA.

Lizenz

Dieses Modell wird unter der Apache-2.0-Lizenz veröffentlicht. Bitte stelle sicher, dass du die Lizenzbedingungen verstehst und einhältst, bevor du das Modell verwendest.

Zukünftige Entwicklungen

Geplante Verbesserungen und Updates für EvaGPT-German-v8.8 umfassen:

Erweiterung des Vokabulars
Feinabstimmung auf spezifische Domänen
Verbesserungen der Tokenisierungsalgorithmen

Beiträge

Beiträge zur Weiterentwicklung dieses Modells sind herzlich willkommen! Erstelle einfach einen Pull-Request oder öffne ein Issue im Repository.

Danksagungen

Ein besonderer Dank geht an die Entwickler von LLaMA und die Open-Source-Community, die dieses Projekt möglich gemacht haben.