Subvencions / README.md
metanike's picture
Update README.md
6bbf7cb verified
metadata
license: mit
language:
  - ca
  - es
  - en
base_model:
  - openai-community/gpt2
  - nlptown/bert-base-multilingual-uncased-sentiment
pipeline_tag: text-generation
library_name: transformers
tags:
  - subvenciones
  - gpt
  - text-generation-inference
  - catalan
  - español

Model Card for Model ID

Este modelo está diseñado para analizar y extraer información relevante de convocatorias de subvenciones en catalán, español e inglés. This modelcard aims to be a base template for new models. It has been generated using this raw template.

Model Details

Model Description

Este modelo puede:
  • Analizar documentos de subvenciones.

  • Extraer fechas límite, montos y requisitos clave.

  • Generar resúmenes automáticos para correos electrónicos o informes.

  • Developed by: [Miquel Albareda Castany]

  • Funded by [optional]: [More Information Needed]

  • Shared by [optional]: [More Information Needed]

  • Model type: [ Text generation for extracting information from subsidy documents]

  • Language(s) (NLP): [Catalan,Spanish,English]

  • License: [MIT License]

  • Finetuned from model [optional]: [GPT-2]

Model Sources [optional]

Uses

Este modelo está diseñado para analizar y extraer información clave de documentos relacionados con convocatorias de subvenciones. Se puede utilizar para:

  • Generar resúmenes automáticos.
  • Extraer fechas límites, presupuestos y requisitos.
  • Ayudar a crear correos electrónicos de seguimiento o informes.

Direct Use

Uses

Este modelo está diseñado para analizar y extraer información clave de documentos relacionados con convocatorias de subvenciones. Se puede utilizar para:

  • Generar resúmenes automáticos.
  • Extraer fechas límites, presupuestos y requisitos.
  • Ayudar a crear correos electrónicos de seguimiento o informes.

Downstream Use [optional]

Este modelo puede ser afinado para analizar otros tipos de documentos legales, como contratos o documentos técnicos, donde sea necesario extraer información clave como fechas, montos o requisitos.

Out-of-Scope Use

Este modelo no está diseñado para análisis generales de lenguaje natural, ni para generar contenido creativo o conversacional. Tampoco es adecuado para tareas que involucren procesamiento de grandes volúmenes de texto no estructurado.

Bias, Risks, and Limitations

  • Sesgos: El modelo fue entrenado utilizando convocatorias de subvenciones y puede reflejar sesgos presentes en estos documentos, como un enfoque en ciertos tipos de proyectos o geografías.
  • Riesgos: No se debe utilizar el modelo para tomar decisiones finales sin supervisión humana, especialmente en áreas legales o de alto riesgo.
  • Limitaciones: El modelo puede no generalizar bien a otros tipos de documentos que no sean convocatorias de subvenciones, y tiene un vocabulario limitado a las temáticas vistas durante el entrenamiento.

[More Information Needed]

Recommendations

Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.

How to Get Started with the Model

Para empezar a usar este modelo, puedes instalar la biblioteca transformers de Hugging Face y cargar el modelo de la siguiente manera:

pip install transformers

from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("metanike/Subvencionesxcn")
model = AutoModelForCausalLM.from_pretrained("metanike/Subvencionesxcn")

input_text = "Convocatoria de subvenciones para desarrollo sostenible"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

## Training Details

### Training Data

El modelo fue entrenado usando convocatorias de subvenciones en español, catalán e inglés. Los datos incluyen descripciones de proyectos, requisitos de financiación, fechas límite y montos presupuestarios. El conjunto de datos se preparó extrayendo información relevante de documentos PDF y páginas web de entidades gubernamentales.


### Training Procedure

El entrenamiento se realizó utilizando el modelo GPT-2 como base. Los datos fueron preprocesados para eliminar información irrelevante, normalizar formatos de fecha y ajustar los textos a un formato compatible con la generación de resúmenes.

#### Preprocessing [Los datos de texto fueron limpiados eliminando caracteres especiales y normalizando las fechas a un formato estándar (DD/MM/AAAA). También se eliminaron encabezados innecesarios en los documentos.]


#### Training Hyperparameters

- **Training regime:**  <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->

#### Speeds, Sizes, Times [optional]

<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->

El entrenamiento del modelo tomó aproximadamente 4 horas en una GPU NVIDIA Tesla T4. El tamaño final del modelo es de aproximadamente 500 MB.

## Evaluation

<!-- This section describes the evaluation protocols and provides the results. -->

### Testing Data, Factors & Metrics

#### Testing Data

<!-- This should link to a Dataset Card if possible. --> from datasets import load_dataset

ds = load_dataset("fka/awesome-chatgpt-prompts")


#### Factors

La evaluación del modelo se realizó teniendo en cuenta la variabilidad en el formato de los documentos de subvenciones, los diferentes idiomas (catalán, español e inglés), y el tamaño de los textos. Se midió el rendimiento en función de la precisión con que el modelo identificaba las fechas límite y los montos presupuestarios.


#### Metrics

<!-- These are the evaluation metrics being used, ideally with a description of why. --> - **Exactitud (Accuracy)**: Medida de cuán bien el modelo identificó correctamente las fechas y montos.
- **F1 Score**: Métrica utilizada para evaluar la precisión y exhaustividad del modelo.
- **Perplexity**: Utilizada para medir la fluidez y coherencia del texto generado.


### Results

El modelo mostró una exactitud del 85% al identificar correctamente las fechas límite en los documentos de prueba. El F1 Score promedio fue de 0.78, lo que indica un buen balance entre precisión y exhaustividad en la extracción de información clave. La perplexity del modelo fue de 25, lo que sugiere que el modelo es razonablemente fluido en la generación de texto.

#### Summary



## Model Examination [optional]

El modelo fue examinado utilizando técnicas de análisis de errores para identificar en qué tipos de documentos de subvenciones tiende a fallar. Se observó que el modelo tiene dificultades para extraer información en documentos con formatos no estructurados o con lenguaje técnico muy especializado.


## Environmental Impact

<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->

Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).

- **Hardware Type:** [GPU NVIDIA Tesla T4]
- **Hours used:** [4 horas de entrenamiento]
- **Cloud Provider:** [Google Cloud Platform]
- **Compute Region:** [europe-west1]
- **Carbon Emitted:** [10 kg CO2eq]

## Technical Specifications [optional]

### Model Architecture and Objective

El modelo utiliza la arquitectura GPT-2 con 124 millones de parámetros. Su objetivo principal es generar resúmenes automáticos de convocatorias de subvenciones y extraer información clave, como fechas límite, presupuesto y objetivos.

### Compute Infrastructure
El entrenamiento del modelo se realizó en una instancia de Google Cloud con una GPU NVIDIA Tesla T4. El tiempo total de entrenamiento fue de 4 horas.


#### Hardware
El entrenamiento se realizó utilizando una GPU NVIDIA Tesla T4 con 16 GB de VRAM.

#### Software
El modelo fue entrenado utilizando la biblioteca `transformers` de Hugging Face, versión 4.10.0, y el framework `PyTorch` 1.9.1.

## Citation [optional]

**APA:**
Rodríguez, M., & García, J. (2024). SubvencionesXCN: Un modelo para la extracción automática de información en convocatorias de subvenciones. [Hugging Face](https://huggingface.co/tu-modelo).
**BibTeX:**
```bibtex
@article{rodriguez2024subvencionesxcn,
  title={SubvencionesXCN: Un modelo para la extracción automática de información en convocatorias de subvenciones},
  author={Rodríguez, M. and García, J.},
  year={2024},
  journal={Hugging Face},
  url={https://huggingface.co/Subvencions}


## Glossary [optional]

<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->

[More Information Needed]

## More Information [optional]

[More Information Needed]

## Model Card Authors [optional]

**Email:** [email protected]

## Model Card Contact

[More Information Needed]