Modelo de Tradução Especializado em Documentações Técnicas (en-pt)
⚠️ Aviso
Este modelo é uma prova de conceito de um modelo de tradução especializado em documentações técnicas desenvolvido como parte de um Trabalho de Conclusão de Curso. O uso deste modelo é voltado para fins acadêmicos. O autor não se responsabiliza por qualquer uso indevido.
Sobre
Este é um modelo de tradução automática para tradução de inglês (en) para português (pt), fine-tuned com dados da Revista FAPESP e documentações técnicas de diversas fontes. Os dados da FAPESP foram obtidos da seguinte fonte: FAPESP Corpora. Os dados de documentações técnicas, foram coletados pelo autor em conformidade com as diretrizes específicas de cada fonte.
Modelo Original
Helsinki-NLP/opus-mt-tc-big-en-pt
Modelo Fine-tuned Especializado em Documentações Técnicas
Características do Modelo
- Arquitetura: Transformer-Big
- Linguagem de origem: Inglês (en)
- Linguagem alvo: Português (pt)
- Tokenização: SentencePiece
- Dados de fine-tuning: Dados da Revista FAPESP e Documentações Técnicas
Como Usar
Aqui está um exemplo de como usar o modelo em Python com Hugging Face:
from transformers import MarianMTModel, MarianTokenizer
src_text = [
"A bus is a communication system that transfers data between components.",
"The database host is experiencing issues.",
"The table is under a lock during the operation."
]
model_name = "westronai/translation-en-pt"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)
translated = model.generate(**tokenizer(src_text, return_tensors="pt", padding=True))
for t in translated:
print(tokenizer.decode(t, skip_special_tokens=True))
Resultados
Essa tabela mostra as diferenças entre o modelo original e o modelo com fine-tuning, evidenciando as melhorias em termos de adequação técnica nas traduções.
Sentença | Tradução Modelo Original | Tradução Modelo com Fine-Tuning |
---|---|---|
A bus is a communication system that transfers data between components | Um ônibus é um sistema de comunicação que transfere dados entre componentes | Um barramento é um sistema de comunicação que transfere dados entre componentes |
The database host is experiencing issues | O anfitrião do banco de dados está enfrentando problemas | O host do banco de dados está enfrentando problemas |
The table is under a lock during the operation | A mesa está sob um bloqueio durante a operação | A tabela está sob bloqueio durante a operação |
Referência
@INPROCEEDINGS{aziz:2011:newfapesp,
AUTHOR={Wilker Aziz and Lucia Specia},
TITLE={Fully Automatic Compilation of a {Portuguese-English} Parallel Corpus for Statistical Machine Translation},
BOOKTITLE={STIL 2011},
ADDRESS={Cuiab\'a, MT},
DAYS={24-26},
MONTH={October},
YEAR={2011},
}
@inproceedings{tiedemann-thottingal-2020-opus,
title = "{OPUS}-{MT} {--} Building open translation services for the World",
author = {Tiedemann, J{\"o}rg and Thottingal, Santhosh},
booktitle = "Proceedings of the 22nd Annual Conference of the European Association for Machine Translation",
month = nov,
year = "2020",
address = "Lisboa, Portugal",
publisher = "European Association for Machine Translation",
url = "https://aclanthology.org/2020.eamt-1.61",
pages = "479--480",
}
@inproceedings{tiedemann-2020-tatoeba,
title = "The Tatoeba Translation Challenge {--} Realistic Data Sets for Low Resource and Multilingual {MT}",
author = {Tiedemann, J{\"o}rg},
booktitle = "Proceedings of the Fifth Conference on Machine Translation",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.wmt-1.139",
pages = "1174--1182",
}
=======
- Downloads last month
- 14