Edit model card
YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)

Modelo de Tradução Especializado em Documentações Técnicas (en-pt)

⚠️ Aviso

Este modelo é uma prova de conceito de um modelo de tradução especializado em documentações técnicas desenvolvido como parte de um Trabalho de Conclusão de Curso. O uso deste modelo é voltado para fins acadêmicos. O autor não se responsabiliza por qualquer uso indevido.

Sobre

Este é um modelo de tradução automática para tradução de inglês (en) para português (pt), fine-tuned com dados da Revista FAPESP e documentações técnicas de diversas fontes. Os dados da FAPESP foram obtidos da seguinte fonte: FAPESP Corpora. Os dados de documentações técnicas, foram coletados pelo autor em conformidade com as diretrizes específicas de cada fonte.

Modelo Original

Helsinki-NLP/opus-mt-tc-big-en-pt

Modelo Fine-tuned Especializado em Documentações Técnicas

westronai/translation-en-pt

Características do Modelo

  • Arquitetura: Transformer-Big
  • Linguagem de origem: Inglês (en)
  • Linguagem alvo: Português (pt)
  • Tokenização: SentencePiece
  • Dados de fine-tuning: Dados da Revista FAPESP e Documentações Técnicas

Como Usar

Aqui está um exemplo de como usar o modelo em Python com Hugging Face:

from transformers import MarianMTModel, MarianTokenizer

src_text = [
    "A bus is a communication system that transfers data between components.",
    "The database host is experiencing issues.",
    "The table is under a lock during the operation."
]

model_name = "westronai/translation-en-pt"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)
translated = model.generate(**tokenizer(src_text, return_tensors="pt", padding=True))

for t in translated:
    print(tokenizer.decode(t, skip_special_tokens=True))

Resultados

Essa tabela mostra as diferenças entre o modelo original e o modelo com fine-tuning, evidenciando as melhorias em termos de adequação técnica nas traduções.

Sentença Tradução Modelo Original Tradução Modelo com Fine-Tuning
A bus is a communication system that transfers data between components Um ônibus é um sistema de comunicação que transfere dados entre componentes Um barramento é um sistema de comunicação que transfere dados entre componentes
The database host is experiencing issues O anfitrião do banco de dados está enfrentando problemas O host do banco de dados está enfrentando problemas
The table is under a lock during the operation A mesa está sob um bloqueio durante a operação A tabela está sob bloqueio durante a operação

Referência

@INPROCEEDINGS{aziz:2011:newfapesp,
AUTHOR={Wilker Aziz and Lucia Specia},
TITLE={Fully Automatic Compilation of a {Portuguese-English} Parallel Corpus for Statistical Machine Translation},
BOOKTITLE={STIL 2011},
ADDRESS={Cuiab\'a, MT},
DAYS={24-26},
MONTH={October},
YEAR={2011},
}

@inproceedings{tiedemann-thottingal-2020-opus,
    title = "{OPUS}-{MT} {--} Building open translation services for the World",
    author = {Tiedemann, J{\"o}rg  and Thottingal, Santhosh},
    booktitle = "Proceedings of the 22nd Annual Conference of the European Association for Machine Translation",
    month = nov,
    year = "2020",
    address = "Lisboa, Portugal",
    publisher = "European Association for Machine Translation",
    url = "https://aclanthology.org/2020.eamt-1.61",
    pages = "479--480",
}

@inproceedings{tiedemann-2020-tatoeba,
    title = "The Tatoeba Translation Challenge {--} Realistic Data Sets for Low Resource and Multilingual {MT}",
    author = {Tiedemann, J{\"o}rg},
    booktitle = "Proceedings of the Fifth Conference on Machine Translation",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.wmt-1.139",
    pages = "1174--1182",
}

=======
Downloads last month
14
Safetensors
Model size
233M params
Tensor type
F32
·
Inference API
Unable to determine this model's library. Check the docs .

Space using westronai/translation-en-pt 1