File size: 2,333 Bytes

---
library_name: optimum
tags: []
---

# Optimum RoBERTa-base-SQuAD2 Quantizado

## Introdução

Este repositório contém uma versão quantizada do modelo [`optimum/roberta-base-squad2`](https://huggingface.co/optimum/roberta-base-squad2), desenvolvido por Branden Chan et al. A quantização foi realizada utilizando a biblioteca Optimum ONNX para reduzir o tamanho do modelo e melhorar a eficiência, mantendo uma precisão aceitável.

## Avaliação

Os modelos foram testados utilizando 600 entradas do conjunto de validação da base de dados [rajpurkar/squad_v2](https://huggingface.co/datasets/rajpurkar/squad_v2).

1. **Redução da Latência**:
   - **Modelo Original**: 0.572 segundos por amostra
   - **Modelo Quantizado**: 0.437 segundos por amostra
   - **Análise**: A latência foi significativamente reduzida, tornando o modelo mais adequado para aplicações em tempo real.

2. **Aumento da Eficiência**:
   - **Tempo Total**:
     - **Modelo Original**: 343.20 segundos
     - **Modelo Quantizado**: 262.41 segundos
     - **Análise**: O tempo total de execução foi consideravelmente reduzido.
   - **Amostras por Segundo**:
     - **Modelo Original**: 1.75 amostras/segundo
     - **Modelo Quantizado**: 2.29 amostras/segundo
     - **Análise**: A taxa de processamento aumentou, permitindo que mais amostras sejam processadas no mesmo período de tempo.

3. **Manutenção de Precisão Razoável**:
   - **Exact Score**:
     - **Modelo Original**: 81.67
     - **Modelo Quantizado**: 80.5
     - **Análise**: Pequena queda na precisão, mas ainda em nível aceitável.
   - **F1 Score**:
     - **Modelo Original**: 83.75
     - **Modelo Quantizado**: 82.49
     - **Análise**: Queda ligeira no desempenho de F1 Score.

4. **Comparação do Espaço Ocupado na Memória**:
   - **Modelo Original**: 476.52 MB
   - **Modelo Quantizado**: 122.41 MB
   - **Análise**: A quantização resultou em uma redução significativa no espaço ocupado, com o modelo quantizado utilizando apenas cerca de 25.7% do tamanho do modelo original.

Esses resultados indicam que a quantização foi bem-sucedida, alcançando uma redução significativa na latência, aumento na eficiência e uma economia substancial de espaço na memória, enquanto mantém uma precisão aceitável para tarefas de perguntas e respostas.