agentlans's picture
Update README.md
16d8865 verified
metadata
license: mit
datasets:
  - agentlans/tatoeba-english-translations
base_model:
  - microsoft/mdeberta-v3-base
pipeline_tag: text-classification
tags:
  - multilingual
  - quality-assessment

DeBERTa V3 Base for Multilingual Quality Assessment

This is a fine-tuned version of the multilingual DeBERTa model (mdeberta) for assessing text quality across languages.

Model Details

  • Architecture: mdeberta-v3-base-quality
  • Task: Regression (Quality Assessment)
  • Training Data: agentlans/tatoeba-english-translations dataset containing 44 900 English translations
  • Input: Text in any of the supported languages by DeBERTa
  • Output: Estimated quality score for text
    • higher values indicate better text

Performance

Root mean squared error (RMSE) on 20% held-out validation set: 0.5036

Training Data

The model was trained on agentlans/tatoeba-english-translations.

Usage

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model_name="agentlans/mdeberta-v3-base-quality"

# Put model on GPU or else CPU
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = model.to(device)

def quality(text):
    """Processes the text using the model and returns its logits.
    In this case, it's interpreted as the the combined quality score for that text."""
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True).to(device)
    with torch.no_grad():
        logits = model(**inputs).logits.squeeze().cpu()
    return logits.tolist()

quality("Your text here.")

Results

In this study, 10 English text samples of varying quality were generated and translated into Arabic, Chinese, French, Russian, and Spanish using Google Translate. This resulted in a total of 50 translated samples, which were subsequently analyzed by a trained classifier to predict their quality scores.

The following table presents the 10 original texts along with their translations:
# English French Spanish Russian Chinese Arabic
1 Get rich quick! Click here to learn the secret to making $10,000 a week from home! Devenez riche rapidement ! Cliquez ici pour découvrir le secret pour gagner 10 000 $ par semaine depuis chez vous ! ¡Hazte rico rápidamente! Haz clic aquí para conocer el secreto para ganar $10,000 por semana desde tu casa. Быстро разбогатейте! Нажмите здесь, чтобы узнать секрет заработка 10 000 долларов в неделю из дома! 快速致富!点击此处了解在家每周赚取 10,000 美元的秘诀! اغتنم الفرصة بسرعة! انقر هنا لمعرفة سر جني 10000 دولار أسبوعيًا من المنزل!
2 Congratulations! You've won a free iPhone! Just send us your credit card information to claim your prize! Félicitations ! Vous avez gagné un iPhone gratuit ! Envoyez-nous simplement vos informations de carte de crédit pour réclamer votre prix ! ¡Felicitaciones! ¡Has ganado un iPhone gratis! ¡Solo envíanos la información de tu tarjeta de crédito para reclamar tu premio! Поздравляем! Вы выиграли бесплатный iPhone! Просто отправьте нам данные своей кредитной карты, чтобы получить свой приз! 恭喜!您赢得了免费 iPhone!只需向我们发送您的信用卡信息即可领取奖品! تهانينا! لقد فزت بجهاز iPhone مجاني! ما عليك سوى إرسال معلومات بطاقتك الائتمانية إلينا للحصول على جائزتك!
3 Lose 20 pounds in just 5 days with our miracle diet pill! Act fast, supplies are limited! Perdez 20 livres en seulement 5 jours avec notre pilule minceur miracle ! Agissez vite, les stocks sont limités ! ¡Pierde 20 libras en solo 5 días con nuestra píldora dietética milagrosa! ¡Actúe rápido, las existencias son limitadas! Похудейте на 20 фунтов всего за 5 дней с помощью нашей чудодейственной диетической таблетки! Действуйте быстро, запасы ограничены! 使用我们的神奇减肥药,只需 5 天即可减掉 20 磅!快点行动,数量有限! اخسر 20 رطلاً في 5 أيام فقط مع حبوب الحمية المعجزة لدينا! تحرك بسرعة، فالإمدادات محدودة!
4 Buy one, get one free on all products! Don’t miss out on this once-in-a-lifetime deal! Achetez-en un, obtenez-en un gratuitement sur tous les produits ! Ne manquez pas cette offre unique ! ¡Compre uno y obtenga otro gratis en todos los productos! ¡No se pierda esta oferta única en la vida! Купите одну, получите вторую бесплатно на все продукты! Не упустите эту уникальную сделку! 所有产品买一送一!不要错过这个千载难逢的优惠! اشترِ واحدًا واحصل على واحد مجانًا على جميع المنتجات! لا تفوت هذه الصفقة التي تأتي مرة واحدة في العمر!
5 Your account has been compromised! Click this link immediately to secure your information! Votre compte a été compromis ! Cliquez immédiatement sur ce lien pour sécuriser vos informations ! ¡Su cuenta ha sido comprometida! Haga clic en este enlace de inmediato para proteger su información. Ваш аккаунт был взломан! Нажмите на эту ссылку немедленно, чтобы защитить свои данные! 您的帐户已被盗用!立即单击此链接以保护您的信息! تم اختراق حسابك! انقر على هذا الرابط على الفور لتأمين معلوماتك!
6 Did you know that drinking water can help improve your skin? Stay hydrated for better health! Saviez-vous que boire de l’eau peut aider à améliorer votre peau ? Restez hydraté pour une meilleure santé ! ¿Sabía que beber agua puede ayudar a mejorar su piel? ¡Manténgase hidratado para una mejor salud! Знаете ли вы, что питьевая вода может помочь улучшить состояние кожи? Поддерживайте водный баланс для улучшения здоровья! 您知道喝水有助于改善皮肤吗?保持水分充足,健康更佳! هل تعلم أن شرب الماء يمكن أن يساعد في تحسين بشرتك؟ حافظ على رطوبتك من أجل صحة أفضل!
7 Many people find it difficult to stick to their New Year's resolutions. Here are three tips to help you stay on track: set realistic goals, track your progress, and seek support from friends. De nombreuses personnes ont du mal à respecter leurs résolutions du Nouvel An. Voici trois conseils pour vous aider à rester sur la bonne voie : fixez-vous des objectifs réalistes, suivez vos progrès et recherchez le soutien de vos amis. A muchas personas les resulta difícil cumplir con sus resoluciones de Año Nuevo. Aquí hay tres consejos para ayudarlo a mantenerse en el camino: establezca metas realistas, haga un seguimiento de su progreso y busque el apoyo de amigos. Многим людям трудно придерживаться своих новогодних обещаний. Вот три совета, которые помогут вам не сбиться с пути: ставьте реалистичные цели, отслеживайте свой прогресс и ищите поддержки у друзей. 许多人发现很难坚持新年决心。以下三个技巧可帮助您坚持下去:设定切合实际的目标、跟踪进度并寻求朋友的支持。 يجد العديد من الأشخاص صعوبة في الالتزام بقرارات العام الجديد. فيما يلي ثلاث نصائح لمساعدتك على البقاء على المسار الصحيح: حدد أهدافًا واقعية، وتتبع تقدمك، واطلب الدعم من الأصدقاء.
8 The benefits of regular exercise include increased energy levels, improved mood, and better overall health. Aim for at least 30 minutes of activity most days of the week. Les avantages d’une activité physique régulière comprennent une augmentation des niveaux d’énergie, une amélioration de l’humeur et une meilleure santé générale. Visez au moins 30 minutes d’activité la plupart des jours de la semaine. Los beneficios del ejercicio regular incluyen mayores niveles de energía, mejor estado de ánimo y mejor salud general. Trate de realizar al menos 30 minutos de actividad la mayoría de los días de la semana. Преимущества регулярных упражнений включают повышение уровня энергии, улучшение настроения и общее улучшение здоровья. Старайтесь уделять активности не менее 30 минут в большинство дней недели. 定期锻炼的好处包括增加能量水平、改善情绪和改善整体健康状况。每周大多数日子至少进行 30 分钟的活动。 تشمل فوائد التمرين المنتظم زيادة مستويات الطاقة، وتحسين الحالة المزاجية، وتحسين الصحة العامة. استهدف 30 دقيقة على الأقل من النشاط معظم أيام الأسبوع.
9 Research shows that mindfulness meditation can significantly reduce stress and anxiety levels. Practicing mindfulness involves focusing on the present moment and can be achieved through techniques such as deep breathing, body scans, or guided imagery. Des recherches montrent que la méditation de pleine conscience peut réduire considérablement les niveaux de stress et d’anxiété. La pratique de la pleine conscience consiste à se concentrer sur le moment présent et peut être réalisée grâce à des techniques telles que la respiration profonde, les analyses corporelles ou l’imagerie guidée. Las investigaciones muestran que la meditación consciente puede reducir significativamente los niveles de estrés y ansiedad. La práctica de la atención plena implica centrarse en el momento presente y se puede lograr mediante técnicas como la respiración profunda, los escaneos corporales o la visualización guiada. Исследования показывают, что медитация осознанности может значительно снизить уровень стресса и тревожности. Практика осознанности подразумевает сосредоточение на настоящем моменте и может быть достигнута с помощью таких техник, как глубокое дыхание, сканирование тела или управляемое воображение. 研究表明,正念冥想可以显著降低压力和焦虑水平。练习正念需要专注于当下,可以通过深呼吸、身体扫描或引导意象等技巧来实现。 تُظهر الأبحاث أن التأمل الذهني يمكن أن يقلل بشكل كبير من مستويات التوتر والقلق. تتضمن ممارسة اليقظة التركيز على اللحظة الحالية ويمكن تحقيق ذلك من خلال تقنيات مثل التنفس العميق أو مسح الجسم أو التصوير الموجه.
10 The process of photosynthesis is essential for life on Earth, as it allows plants to convert sunlight into chemical energy. During this process, plants take in carbon dioxide and water, releasing oxygen as a byproduct, which is crucial for the survival of most living organisms. Understanding photosynthesis not only highlights the importance of plants in our ecosystem but also underscores the need for environmental conservation efforts. Le processus de photosynthèse est essentiel à la vie sur Terre, car il permet aux plantes de convertir la lumière du soleil en énergie chimique. Au cours de ce processus, les plantes absorbent du dioxyde de carbone et de l’eau, libérant de l’oxygène comme sous-produit, ce qui est essentiel à la survie de la plupart des organismes vivants. La compréhension de la photosynthèse souligne non seulement l’importance des plantes dans notre écosystème, mais souligne également la nécessité d’efforts de conservation de l’environnement. El proceso de fotosíntesis es esencial para la vida en la Tierra, ya que permite a las plantas convertir la luz solar en energía química. Durante este proceso, las plantas absorben dióxido de carbono y agua, liberando oxígeno como subproducto, que es crucial para la supervivencia de la mayoría de los organismos vivos. Comprender la fotosíntesis no solo resalta la importancia de las plantas en nuestro ecosistema, sino que también subraya la necesidad de realizar esfuerzos de conservación ambiental. Процесс фотосинтеза необходим для жизни на Земле, поскольку он позволяет растениям преобразовывать солнечный свет в химическую энергию. Во время этого процесса растения поглощают углекислый газ и воду, выделяя кислород в качестве побочного продукта, что имеет решающее значение для выживания большинства живых организмов. Понимание фотосинтеза не только подчеркивает важность растений в нашей экосистеме, но и подчеркивает необходимость усилий по сохранению окружающей среды. 光合作用过程对地球生命至关重要,因为它允许植物将阳光转化为化学能。在此过程中,植物吸收二氧化碳和水,释放氧气作为副产品,这对大多数生物的生存至关重要。了解光合作用不仅突出了植物在我们生态系统中的重要性,也强调了环境保护工作的必要性。 إن عملية التمثيل الضوئي ضرورية للحياة على الأرض، حيث تسمح للنباتات بتحويل ضوء الشمس إلى طاقة كيميائية. وخلال هذه العملية، تأخذ النباتات ثاني أكسيد الكربون والماء، وتطلق الأكسجين كمنتج ثانوي، وهو أمر بالغ الأهمية لبقاء معظم الكائنات الحية. إن فهم عملية التمثيل الضوئي لا يسلط الضوء على أهمية النباتات في نظامنا البيئي فحسب، بل يؤكد أيضًا على الحاجة إلى جهود الحفاظ على البيئة.

The scatterplot below illustrates the predicted quality scores grouped by each text sample. Notably, the prediction scores exhibit low variability across different languages for the same text, indicating a consistent assessment of translation quality regardless of the target language.

Scatterplot of predicted quality scores grouped by text sample and language

This analysis highlights the effectiveness of using machine learning classifiers in evaluating textual quality across multiple languages.

Limitations

  • Performance may vary for texts significantly different from the training data
  • Output is based on statistical patterns and may not always align with human judgment
  • Quality is assessed purely on textual features, not considering factors like subject familiarity or cultural context

Ethical Considerations

  • Should not be used as the sole determinant of text suitability for specific audiences
  • Results may reflect biases present in the training data sources
  • Care should be taken when using these models in educational or publishing contexts