Embeddings com Sabiá
#1
by
Geanderson
- opened
Dados os limites de 2048 tokens da Sabiá. Quais as recomendações para fazer embeddings com a LLM? Chunks, splits, algoritmos.
Oi @Geanderson , como o modelo não foi fine-tunado para similaridade semântica, seus embeddings não ficarão melhores que outros modelos multilingue, como o E5: https://huggingface.co/intfloat/multilingual-e5-base
rodrigo-nogueira
changed discussion status to
closed