Llama 2 7b Spanish Version
Orale amigos hispanohablantes, esta es una de las tantas pruebas que voy a seguir haciendo para tener un modelo en español que no alucine y empiece a hablar en idioma "gringo" de la nada. Aportes, ayuda, condolencias...son bienvenidas!!! Gracias Zuck por querer tirar el monopolio de OpenAi (envidia ?) regalando tu modelo al mundo! Dataset usado para el entrenamiento: bertin-project/alpaca-spanish Tiempo de entrenamiento: 4hs Cantidad de registros procesados del dataset: 10k
Llama 2
Llama 2 es una colección de modelos de texto generativo preentrenados y afinados que varían en escala desde 7 mil millones hasta 70 mil millones de parámetros. Este es el repositorio del modelo afinado de 7B, optimizado para casos de uso de diálogo y convertido al formato de Hugging Face Transformers. Los enlaces a otros modelos se pueden encontrar en el índice al final.
Detalles del Modelo
Nota: El uso de este modelo está regido por la licencia Meta. Para descargar los pesos del modelo y el tokenizador, por favor visita el sitio web y acepta nuestra Licencia antes de solicitar acceso aquí.
Meta desarrolló y lanzó públicamente la familia de modelos de lenguaje grande Llama 2 (LLMs), una colección de modelos de texto generativo preentrenados y afinados que varían en escala desde 7 mil millones hasta 70 mil millones de parámetros. Nuestros LLMs afinados, llamados Llama-2-Chat, están optimizados para casos de uso de diálogo. Los modelos Llama-2-Chat superan a los modelos de chat de código abierto en la mayoría de los benchmarks que probamos, y en nuestras evaluaciones humanas de utilidad y seguridad, están a la par con algunos modelos cerrados populares como ChatGPT y PaLM.
Desarrolladores del Modelo: Meta
Variaciones: Llama 2 viene en una variedad de tamaños de parámetros, incluyendo 7B, 13B y 70B, así como variaciones preentrenadas y afinadas.
Entrada: Los modelos solo reciben texto de entrada.
Salida: Los modelos generan texto únicamente.
Arquitectura del Modelo: Llama 2 es un modelo de lenguaje auto-regresivo que utiliza una arquitectura de transformer optimizada. Las versiones ajustadas utilizan ajuste fino supervisado (SFT) y aprendizaje por refuerzo con retroalimentación humana (RLHF) para alinearse con las preferencias humanas en cuanto a utilidad y seguridad.
Datos de Entrenamiento | Parámetros | Longitud del Contenido | GQA | Tokens | LR | |
---|---|---|---|---|---|---|
Llama 2 | Una nueva combinación de datos disponibles públicamente en línea | 7B | 4k | ✗ | 2.0T | 3.0 x 10-4 |
Llama 2 | Una nueva combinación de datos disponibles públicamente en línea | 13B | 4k | ✗ | 2.0T | 3.0 x 10-4 |
Llama 2 | Una nueva combinación de datos disponibles públicamente en línea | 70B | 4k | ✔ | 2.0T | 1.5 x 10-4 |
Familia de modelos Llama 2. Los recuentos de tokens se refieren solo a los datos de preentrenamiento. Todos los modelos se entrenan con un tamaño de lote global de 4 millones de tokens. Los modelos más grandes - 70B - utilizan Atención de Consulta Agrupada (GQA) para mejorar la escalabilidad de la inferencia.
Fechas del Modelo: Llama 2 fue entrenado entre enero de 2023 y julio de 2023.
Estado: Este es un modelo estático entrenado en un conjunto de datos sin conexión. Se lanzarán futuras versiones de los modelos ajustados a medida que mejoremos la seguridad del modelo con la retroalimentación de la comunidad.
Licencia: Una licencia comercial personalizada está disponible en: https://ai.meta.com/resources/models-and-libraries/llama-downloads/
Artículo de Investigación: "Llama-2: Fundación Abierta y Modelos de Chat Afinados"
Uso Previsto
Casos de Uso Previstos: Llama 2 está destinado para uso comercial e investigación en inglés. Los modelos ajustados están destinados para chat similar a un asistente, mientras que los modelos preentrenados pueden adaptarse para una variedad de tareas de generación de lenguaje natural.
Para obtener las características y el rendimiento esperados para las versiones de chat, se debe seguir un formato específico, que incluye las etiquetas INST
y <<SYS>>
, los tokens BOS
y EOS
, y los espacios en blanco y saltos de línea entre ellos (recomendamos llamar a strip()
en las entradas para evitar espacios dobles). Consulta nuestro código de referencia en github para más detalles: chat_completion
.
Usos Fuera de Alcance: Uso de cualquier manera que viole leyes o regulaciones aplicables (incluyendo leyes de cumplimiento comercial). Uso en idiomas que no sean inglés. Uso de cualquier otra manera que esté prohibida por la Política de Uso Aceptable y el Acuerdo de Licencia para Llama 2.
Hardware y Software
Factores de Entrenamiento: Utilizamos bibliotecas de entrenamiento personalizadas, el Super Cluster de Investigación de Meta y clústeres de producción para el preentrenamiento. El ajuste fino, la anotación y la evaluación también se realizaron en cómputo en la nube de terceros.
Huella de Carbono: El preentrenamiento utilizó un total acumulado de 3.3 millones de horas de GPU de cómputo en hardware de tipo A100-80GB (TDP de 350-400W). Las emisiones totales estimadas fueron de 539 tCO2eq, el 100% de las cuales fueron compensadas por el programa de sostenibilidad de Meta.
Tiempo (horas de GPU) | Consumo de Energía (W) | Carbono Emitido (tCO2eq) | |
---|---|---|---|
Llama 2 7B | 184320 | 400 | 31.22 |
Llama 2 13B | 368640 | 400 | 62.44 |
Llama 2 70B | 1720320 | 400 | 291.42 |
Total | 3311616 | 539.00 |
Emisiones de CO2 durante el preentrenamiento. Tiempo: tiempo total de GPU necesario para entrenar cada modelo. Consumo de Energía: capacidad de energía pico por dispositivo GPU para las GPU utilizadas ajustadas para la eficiencia del uso de energía. El 100% de las emisiones se compensan directamente mediante el programa de sostenibilidad de Meta, y dado que estamos lanzando estos modelos abiertamente, los costos de preentrenamiento no deben ser asumidos por otros.
Datos de Entrenamiento
Descripción General: Llama 2 fue preentrenado en 2 billones de tokens de datos de fuentes disponibles públicamente. Los datos de ajuste fino incluyen conjuntos de datos de instrucciones disponibles públicamente, así como más de un millón de nuevos ejemplos anotados por humanos. Ni los datos de preentrenamiento ni los datos de ajuste fino incluyen datos de usuarios de Meta.
Actualidad de los Datos: Los datos de preentrenamiento tienen un corte hasta septiembre de 2022, pero algunos datos de ajuste son más recientes, hasta julio de 2023.
Resultados de Evaluación
En esta sección, reportamos los resultados de los modelos Llama 1 y Llama 2 en benchmarks académicos estándar. Para todas las evaluaciones, utilizamos nuestra biblioteca de evaluaciones internas.
Modelo | Tamaño | Código | Razonamiento con Sentido Común | Conocimiento del Mundo | Comprensión de Lectura | Matemáticas | MMLU | BBH | Evaluación AGI |
---|---|---|---|---|---|---|---|---|---|
Llama 1 | 7B | 14.1 | 60.8 | 46.2 | 58.5 | 6.95 | 35.1 | 30.3 | 23.9 |
Llama 1 | 13B | 18.9 | 66.1 | 52.6 | 62.3 | 10.9 | 46.9 | 37.0 | 33.9 |
Llama 1 | 33B | 26.0 | 70.0 | 58.4 | 67.6 | 21.4 | 57.8 | 39.8 | 41.7 |
Llama 1 | 65B | 30.7 | 70.7 | 60.5 | 68.6 | 30.8 | 63.4 | 43.5 | 47.6 |
Llama 2 | 7B | 16.8 | 63.9 | 48.9 | 61.3 | 14.6 | 45.3 | 32.6 | 29.3 |
Llama 2 | 13B | 24.5 | 66.9 | 55.4 | 65.8 | 28.7 | 54.8 | 39.4 | 39.1 |
Llama 2 | 70B | 37.5 | 71.9 | 63.6 | 69.4 | 35.2 | 68.9 | 51.2 | 54.2 |
Rendimiento general en benchmarks académicos agrupados. Código: Reportamos el promedio de pase@1 de nuestros modelos en HumanEval y MBPP. Razonamiento con Sentido Común: Reportamos el promedio de PIQA, SIQA, HellaSwag, WinoGrande, ARC fácil y desafío, OpenBookQA y CommonsenseQA. Reportamos resultados de 7 disparos para CommonSenseQA y resultados de 0 disparos para todos los demás benchmarks. Conocimiento del Mundo: Evaluamos el rendimiento de 5 disparos en NaturalQuestions y TriviaQA y reportamos el promedio. Comprensión de Lectura: Para comprensión de lectura, reportamos el promedio de 0 disparos en SQuAD, QuAC y BoolQ. Matemáticas: Reportamos el promedio de los benchmarks GSM8K (8 disparos) y MATH (4 disparos) en el top 1.
TruthfulQA | Toxigen | ||
---|---|---|---|
Llama 1 | 7B | 27.42 | 23.00 |
Llama 1 | 13B | 41.74 | 23.08 |
Llama 1 | 33B | 44.19 | 22.57 |
Llama 1 | 65B | 48.71 | 21.77 |
Llama 2 | 7B | 33.29 | 21.25 |
Llama 2 | 13B | 41.86 | 26.10 |
Llama 2 | 70B | 50.18 | 24.60 |
Evaluación de LLMs preentrenados en benchmarks automáticos de seguridad. Para TruthfulQA, presentamos el porcentaje de generaciones que son tanto verídicas como informativas (cuanto mayor, mejor). Para ToxiGen, presentamos el porcentaje de generaciones tóxicas (cuanto menor, mejor).
TruthfulQA | Toxigen | ||
---|---|---|---|
Llama-2-Chat | 7B | 57.04 | 0.00 |
Llama-2-Chat | 13B | 62.18 | 0.00 |
Llama-2-Chat | 70B | 64.14 | 0.01 |
Evaluación de LLMs afinados en diferentes conjuntos de datos de seguridad. Mismas definiciones de métricas que arriba.
Consideraciones Éticas y Limitaciones
Llama 2 es una nueva tecnología que conlleva riesgos con su uso. Las pruebas realizadas hasta la fecha han sido en inglés, y no han cubierto, ni podrían cubrir, todos los escenarios. Por estas razones, como con todos los LLMs, las salidas potenciales de Llama 2 no pueden predecirse de antemano, y el modelo puede en algunos casos producir respuestas inexactas, sesgadas u otras respuestas objetables a las solicitudes de los usuarios. Por lo tanto, antes de implementar cualquier aplicación de Llama 2, los desarrolladores deben realizar pruebas de seguridad y ajuste adaptadas a sus aplicaciones específicas del modelo.
Consulta la Guía de Uso Responsable disponible en https://ai.meta.com/llama/responsible-use-guide/
Reportar Problemas
Por favor, reporta cualquier "error" de software u otros problemas con los modelos a través de alguno de los siguientes medios:
- Reportar problemas con el modelo: github.com/facebookresearch/llama
- Reportar contenido problemático generado por el modelo: developers.facebook.com/llama_output_feedback
- Reportar errores y problemas de seguridad: facebook.com/whitehat/info
Índice de Modelos Llama
- Downloads last month
- 158