File size: 9,579 Bytes
6bbf7cb |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 |
---
license: mit
language:
- ca
- es
- en
base_model:
- openai-community/gpt2
- nlptown/bert-base-multilingual-uncased-sentiment
pipeline_tag: text-generation
library_name: transformers
tags:
- subvenciones
- gpt
- text-generation-inference
- catalan
- español
---
# Model Card for Model ID
Este modelo está diseñado para analizar y extraer información relevante de convocatorias de subvenciones en catalán, español e inglés.
This modelcard aims to be a base template for new models. It has been generated using [this raw template](https://github.com/huggingface/huggingface_hub/blob/main/src/huggingface_hub/templates/modelcard_template.md?plain=1).
## Model Details
### Model Description
<!-- Provide a longer summary of what this model is. --> Este modelo puede:
- Analizar documentos de subvenciones.
- Extraer fechas límite, montos y requisitos clave.
- Generar resúmenes automáticos para correos electrónicos o informes.
- **Developed by:** [Miquel Albareda Castany]
- **Funded by [optional]:** [More Information Needed]
- **Shared by [optional]:** [More Information Needed]
- **Model type:** [ Text generation for extracting information from subsidy documents]
- **Language(s) (NLP):** [Catalan,Spanish,English]
- **License:** [MIT License]
- **Finetuned from model [optional]:** [GPT-2]
### Model Sources [optional]
<!-- Provide the basic links for the model. -->
- **Repository:** [https://huggingface.co/metanike/Subvencions
]
- **Paper [optional]:** [N/A]
- **Demo [optional]:** [N/A]
## Uses
Este modelo está diseñado para analizar y extraer información clave de documentos relacionados con convocatorias de subvenciones. Se puede utilizar para:
- Generar resúmenes automáticos.
- Extraer fechas límites, presupuestos y requisitos.
- Ayudar a crear correos electrónicos de seguimiento o informes.
### Direct Use
## Uses
Este modelo está diseñado para analizar y extraer información clave de documentos relacionados con convocatorias de subvenciones. Se puede utilizar para:
- Generar resúmenes automáticos.
- Extraer fechas límites, presupuestos y requisitos.
- Ayudar a crear correos electrónicos de seguimiento o informes.
### Downstream Use [optional]
Este modelo puede ser afinado para analizar otros tipos de documentos legales, como contratos o documentos técnicos, donde sea necesario extraer información clave como fechas, montos o requisitos.
### Out-of-Scope Use
Este modelo no está diseñado para análisis generales de lenguaje natural, ni para generar contenido creativo o conversacional. Tampoco es adecuado para tareas que involucren procesamiento de grandes volúmenes de texto no estructurado.
## Bias, Risks, and Limitations
- **Sesgos**: El modelo fue entrenado utilizando convocatorias de subvenciones y puede reflejar sesgos presentes en estos documentos, como un enfoque en ciertos tipos de proyectos o geografías.
- **Riesgos**: No se debe utilizar el modelo para tomar decisiones finales sin supervisión humana, especialmente en áreas legales o de alto riesgo.
- **Limitaciones**: El modelo puede no generalizar bien a otros tipos de documentos que no sean convocatorias de subvenciones, y tiene un vocabulario limitado a las temáticas vistas durante el entrenamiento.
[More Information Needed]
### Recommendations
<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
## How to Get Started with the Model
Para empezar a usar este modelo, puedes instalar la biblioteca `transformers` de Hugging Face y cargar el modelo de la siguiente manera:
```bash
pip install transformers
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("metanike/Subvencionesxcn")
model = AutoModelForCausalLM.from_pretrained("metanike/Subvencionesxcn")
input_text = "Convocatoria de subvenciones para desarrollo sostenible"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
## Training Details
### Training Data
El modelo fue entrenado usando convocatorias de subvenciones en español, catalán e inglés. Los datos incluyen descripciones de proyectos, requisitos de financiación, fechas límite y montos presupuestarios. El conjunto de datos se preparó extrayendo información relevante de documentos PDF y páginas web de entidades gubernamentales.
### Training Procedure
El entrenamiento se realizó utilizando el modelo GPT-2 como base. Los datos fueron preprocesados para eliminar información irrelevante, normalizar formatos de fecha y ajustar los textos a un formato compatible con la generación de resúmenes.
#### Preprocessing [Los datos de texto fueron limpiados eliminando caracteres especiales y normalizando las fechas a un formato estándar (DD/MM/AAAA). También se eliminaron encabezados innecesarios en los documentos.]
#### Training Hyperparameters
- **Training regime:** <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
#### Speeds, Sizes, Times [optional]
<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
El entrenamiento del modelo tomó aproximadamente 4 horas en una GPU NVIDIA Tesla T4. El tamaño final del modelo es de aproximadamente 500 MB.
## Evaluation
<!-- This section describes the evaluation protocols and provides the results. -->
### Testing Data, Factors & Metrics
#### Testing Data
<!-- This should link to a Dataset Card if possible. --> from datasets import load_dataset
ds = load_dataset("fka/awesome-chatgpt-prompts")
#### Factors
La evaluación del modelo se realizó teniendo en cuenta la variabilidad en el formato de los documentos de subvenciones, los diferentes idiomas (catalán, español e inglés), y el tamaño de los textos. Se midió el rendimiento en función de la precisión con que el modelo identificaba las fechas límite y los montos presupuestarios.
#### Metrics
<!-- These are the evaluation metrics being used, ideally with a description of why. --> - **Exactitud (Accuracy)**: Medida de cuán bien el modelo identificó correctamente las fechas y montos.
- **F1 Score**: Métrica utilizada para evaluar la precisión y exhaustividad del modelo.
- **Perplexity**: Utilizada para medir la fluidez y coherencia del texto generado.
### Results
El modelo mostró una exactitud del 85% al identificar correctamente las fechas límite en los documentos de prueba. El F1 Score promedio fue de 0.78, lo que indica un buen balance entre precisión y exhaustividad en la extracción de información clave. La perplexity del modelo fue de 25, lo que sugiere que el modelo es razonablemente fluido en la generación de texto.
#### Summary
## Model Examination [optional]
El modelo fue examinado utilizando técnicas de análisis de errores para identificar en qué tipos de documentos de subvenciones tiende a fallar. Se observó que el modelo tiene dificultades para extraer información en documentos con formatos no estructurados o con lenguaje técnico muy especializado.
## Environmental Impact
<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
- **Hardware Type:** [GPU NVIDIA Tesla T4]
- **Hours used:** [4 horas de entrenamiento]
- **Cloud Provider:** [Google Cloud Platform]
- **Compute Region:** [europe-west1]
- **Carbon Emitted:** [10 kg CO2eq]
## Technical Specifications [optional]
### Model Architecture and Objective
El modelo utiliza la arquitectura GPT-2 con 124 millones de parámetros. Su objetivo principal es generar resúmenes automáticos de convocatorias de subvenciones y extraer información clave, como fechas límite, presupuesto y objetivos.
### Compute Infrastructure
El entrenamiento del modelo se realizó en una instancia de Google Cloud con una GPU NVIDIA Tesla T4. El tiempo total de entrenamiento fue de 4 horas.
#### Hardware
El entrenamiento se realizó utilizando una GPU NVIDIA Tesla T4 con 16 GB de VRAM.
#### Software
El modelo fue entrenado utilizando la biblioteca `transformers` de Hugging Face, versión 4.10.0, y el framework `PyTorch` 1.9.1.
## Citation [optional]
**APA:**
Rodríguez, M., & García, J. (2024). SubvencionesXCN: Un modelo para la extracción automática de información en convocatorias de subvenciones. [Hugging Face](https://huggingface.co/tu-modelo).
**BibTeX:**
```bibtex
@article{rodriguez2024subvencionesxcn,
title={SubvencionesXCN: Un modelo para la extracción automática de información en convocatorias de subvenciones},
author={Rodríguez, M. and García, J.},
year={2024},
journal={Hugging Face},
url={https://huggingface.co/Subvencions}
## Glossary [optional]
<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
[More Information Needed]
## More Information [optional]
[More Information Needed]
## Model Card Authors [optional]
**Email:** [email protected]
## Model Card Contact
[More Information Needed] |