danielrex's picture
Update README.md
4551716 verified
---
library_name: optimum
tags: []
---
# Optimum RoBERTa-base-SQuAD2 Quantizado
## Introdução
Este repositório contém uma versão quantizada do modelo [`optimum/roberta-base-squad2`](https://huggingface.co/optimum/roberta-base-squad2), desenvolvido por Branden Chan et al. A quantização foi realizada utilizando a biblioteca Optimum ONNX para reduzir o tamanho do modelo e melhorar a eficiência, mantendo uma precisão aceitável.
## Avaliação
Os modelos foram testados utilizando 600 entradas do conjunto de validação da base de dados [rajpurkar/squad_v2](https://huggingface.co/datasets/rajpurkar/squad_v2).
1. **Redução da Latência**:
- **Modelo Original**: 0.572 segundos por amostra
- **Modelo Quantizado**: 0.437 segundos por amostra
- **Análise**: A latência foi significativamente reduzida, tornando o modelo mais adequado para aplicações em tempo real.
2. **Aumento da Eficiência**:
- **Tempo Total**:
- **Modelo Original**: 343.20 segundos
- **Modelo Quantizado**: 262.41 segundos
- **Análise**: O tempo total de execução foi consideravelmente reduzido.
- **Amostras por Segundo**:
- **Modelo Original**: 1.75 amostras/segundo
- **Modelo Quantizado**: 2.29 amostras/segundo
- **Análise**: A taxa de processamento aumentou, permitindo que mais amostras sejam processadas no mesmo período de tempo.
3. **Manutenção de Precisão Razoável**:
- **Exact Score**:
- **Modelo Original**: 81.67
- **Modelo Quantizado**: 80.5
- **Análise**: Pequena queda na precisão, mas ainda em nível aceitável.
- **F1 Score**:
- **Modelo Original**: 83.75
- **Modelo Quantizado**: 82.49
- **Análise**: Queda ligeira no desempenho de F1 Score.
4. **Comparação do Espaço Ocupado na Memória**:
- **Modelo Original**: 476.52 MB
- **Modelo Quantizado**: 122.41 MB
- **Análise**: A quantização resultou em uma redução significativa no espaço ocupado, com o modelo quantizado utilizando apenas cerca de 25.7% do tamanho do modelo original.
Esses resultados indicam que a quantização foi bem-sucedida, alcançando uma redução significativa na latência, aumento na eficiência e uma economia substancial de espaço na memória, enquanto mantém uma precisão aceitável para tarefas de perguntas e respostas.