|
--- |
|
library_name: optimum |
|
tags: [] |
|
--- |
|
|
|
# Optimum RoBERTa-base-SQuAD2 Quantizado |
|
|
|
## Introdução |
|
|
|
Este repositório contém uma versão quantizada do modelo [`optimum/roberta-base-squad2`](https://huggingface.co/optimum/roberta-base-squad2), desenvolvido por Branden Chan et al. A quantização foi realizada utilizando a biblioteca Optimum ONNX para reduzir o tamanho do modelo e melhorar a eficiência, mantendo uma precisão aceitável. |
|
|
|
## Avaliação |
|
|
|
Os modelos foram testados utilizando 600 entradas do conjunto de validação da base de dados [rajpurkar/squad_v2](https://huggingface.co/datasets/rajpurkar/squad_v2). |
|
|
|
1. **Redução da Latência**: |
|
- **Modelo Original**: 0.572 segundos por amostra |
|
- **Modelo Quantizado**: 0.437 segundos por amostra |
|
- **Análise**: A latência foi significativamente reduzida, tornando o modelo mais adequado para aplicações em tempo real. |
|
|
|
2. **Aumento da Eficiência**: |
|
- **Tempo Total**: |
|
- **Modelo Original**: 343.20 segundos |
|
- **Modelo Quantizado**: 262.41 segundos |
|
- **Análise**: O tempo total de execução foi consideravelmente reduzido. |
|
- **Amostras por Segundo**: |
|
- **Modelo Original**: 1.75 amostras/segundo |
|
- **Modelo Quantizado**: 2.29 amostras/segundo |
|
- **Análise**: A taxa de processamento aumentou, permitindo que mais amostras sejam processadas no mesmo período de tempo. |
|
|
|
3. **Manutenção de Precisão Razoável**: |
|
- **Exact Score**: |
|
- **Modelo Original**: 81.67 |
|
- **Modelo Quantizado**: 80.5 |
|
- **Análise**: Pequena queda na precisão, mas ainda em nível aceitável. |
|
- **F1 Score**: |
|
- **Modelo Original**: 83.75 |
|
- **Modelo Quantizado**: 82.49 |
|
- **Análise**: Queda ligeira no desempenho de F1 Score. |
|
|
|
4. **Comparação do Espaço Ocupado na Memória**: |
|
- **Modelo Original**: 476.52 MB |
|
- **Modelo Quantizado**: 122.41 MB |
|
- **Análise**: A quantização resultou em uma redução significativa no espaço ocupado, com o modelo quantizado utilizando apenas cerca de 25.7% do tamanho do modelo original. |
|
|
|
Esses resultados indicam que a quantização foi bem-sucedida, alcançando uma redução significativa na latência, aumento na eficiência e uma economia substancial de espaço na memória, enquanto mantém uma precisão aceitável para tarefas de perguntas e respostas. |