--- license: mit datasets: - agentlans/tatoeba-sentiment-dataset base_model: - microsoft/mdeberta-v3-base pipeline_tag: text-classification tags: - multilingual - sentiment-assessment --- # Multilingual DeBERTa V3 Base for Sentiment Assessment This is a fine-tuned version of the multilingual DeBERTa model (mdeberta) for assessing text sentiment across languages. ## Model Details - **Architecture:** mdeberta-v3-base-sentiment - **Task:** Classification (Sentiment Analysis) - **Training Data:** [agentlans/tatoeba-english-translations](https://huggingface.co/datasets/agentlans/tatoeba-english-translations) containing 48 900 labeled English translations - **Input:** Text in any of the supported languages by DeBERTa - **Output:** Sentiment score for text (positive, negative, neutral) - positive scores indicate a positive sentiment - zero score indicate neutral sentiment - negative scores indicate a negative sentiment ## Performance RMSE accuracy on 20% held-out validation set: 0.4177 ## Training Data The model was trained on [agentlans/tatoeba-english-translations](https://huggingface.co/datasets/agentlans/tatoeba-english-translations). ## Usage ```python from transformers import AutoTokenizer, AutoModelForSequenceClassification import torch model_name="agentlans/mdeberta-v3-base-sentiment" # Put model on GPU or else CPU tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForSequenceClassification.from_pretrained(model_name) device = torch.device("cuda" if torch.cuda.is_available() else "cpu") model = model.to(device) def sentiment(text): """Processes the text using the model and returns its logits. In this case, it's interpreted as the sentiment score for that text.""" inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True).to(device) with torch.no_grad(): logits = model(**inputs).logits.squeeze().cpu() return logits.tolist() # Note: Recommend to preprocess text to remove special characters, e-mails, and hash tags sentiment("Your text here.") ``` ## Results In this study, 10 English text samples of varying sentiment were generated and translated into Arabic, Chinese, French, Russian, and Spanish using Google Translate. This resulted in a total of 50 translated samples, which were subsequently analyzed by a trained classifier to predict their sentiment scores.
The following table presents the 10 original texts along with their translations: | # | English | French | Spanish | Russian | Chinese | Arabic | | :---: | --- | --- | --- | --- | --- | --- | | 1 | Everything feels hopeless; I can’t see a way out of this darkness. | Tout me semble désespéré, je ne vois pas comment sortir de cette obscurité. | Todo parece desesperanzado; no veo una salida a esta oscuridad. | Все кажется безнадежным; я не вижу выхода из этой тьмы. | 一切都感觉无望;我看不到走出黑暗的出路。 | أشعر بأن كل شيء يائس؛ لا أستطيع أن أرى مخرجًا من هذا الظلام. | | 2 | I’m constantly overwhelmed by the weight of my problems; it’s exhausting. | Je suis constamment accablée par le poids de mes problèmes, c’est épuisant. | El peso de mis problemas me abruma constantemente; es agotador. | Я постоянно подавлен грузом своих проблем; это изматывает. | 我经常被问题的重压压垮;这让人筋疲力尽。 | أشعر باستمرار بثقل مشاكلي؛ إنه أمر مرهق. | | 3 | Nothing seems to go right for me; I’m always stuck in a rut. | Rien ne semble aller bien pour moi, je suis toujours coincée dans une ornière. | Nada parece salir bien para mí; siempre estoy estancado en una rutina. | Кажется, у меня ничего не получается; я всегда застрял в колее. | 似乎没有什么事情对我有利;我总是陷入困境。 | لا يبدو أن أي شيء يسير على ما يرام بالنسبة لي؛ فأنا عالق دائمًا في روتين. | | 4 | I feel like I’m making no progress; every step forward is met with two steps back. | J’ai l’impression de ne pas progresser, chaque pas en avant est suivi de deux pas en arrière. | Siento que no estoy avanzando; cada paso hacia adelante se corresponde con dos pasos hacia atrás. | Я чувствую, что не продвигаюсь; каждый шаг вперед сопровождается двумя шагами назад. | 我觉得自己没有取得任何进步;每前进一步就会后退两步。 | أشعر وكأنني لا أحرز أي تقدم؛ فكل خطوة للأمام تقابلها خطوتان للوراء. | | 5 | There are some moments of joy, but they are fleeting and overshadowed by my worries. | Il y a des moments de joie, mais ils sont éphémères et éclipsés par mes inquiétudes. | Hay algunos momentos de alegría, pero son fugaces y eclipsados ​​por mis preocupaciones. | Бывают моменты радости, но они мимолетны и затмеваются моими переживаниями. | 有一些快乐的时刻,但它们转瞬即逝,被我的担忧所掩盖。 | هناك بعض لحظات الفرح، لكنها عابرة وتطغى عليها همومي. | | 6 | I’m starting to see some light at the end of the tunnel; things might improve soon. | Je commence à voir la lumière au bout du tunnel, les choses pourraient bientôt s’améliorer. | Estoy empezando a ver algo de luz al final del túnel; las cosas podrían mejorar pronto. | Я начинаю видеть свет в конце туннеля; скоро все может улучшиться. | 我开始看到隧道尽头的一些光亮;事情可能很快就会好转。 | بدأت أرى بعض الضوء في نهاية النفق؛ قد تتحسن الأمور قريبًا. | | 7 | I’ve learned to appreciate the small victories in my life, even if they’re rare. | J’ai appris à apprécier les petites victoires de ma vie, même si elles sont rares. | He aprendido a apreciar las pequeñas victorias en mi vida, incluso si son raras. | Я научился ценить маленькие победы в своей жизни, даже если они редки. | 我学会了欣赏生活中的小胜利,即使它们很少见。 | لقد تعلمت تقدير الانتصارات الصغيرة في حياتي، حتى لو كانت نادرة. | | 8 | Every day brings new challenges, but I’m beginning to face them with resilience. | Chaque jour apporte de nouveaux défis, mais je commence à les affronter avec résilience. | Cada día trae nuevos desafíos, pero estoy empezando a enfrentarlos con resiliencia. | Каждый день приносит новые испытания, но я начинаю встречать их со стойкостью. | 每天都有新的挑战,但我开始以坚韧的态度面对它们。 | كل يوم يجلب تحديات جديدة، لكنني بدأت في مواجهتها بمرونة. | | 9 | I’m surrounded by supportive friends who lift me up when I need it most. | Je suis entourée d’amis qui me soutiennent et me soutiennent quand j’en ai le plus besoin. | Estoy rodeado de amigos que me apoyan y me animan cuando más lo necesito. | Меня окружают поддерживающие друзья, которые поддерживают меня, когда мне это больше всего нужно. | 我身边都是支持我的朋友,他们在我最需要的时候鼓励我。 | أنا محاط بأصدقاء داعمين يرفعونني عندما أكون في أمس الحاجة إليهم. | | 10 | Life is full of beautiful moments, and I’m excited about what tomorrow will bring! | La vie est pleine de beaux moments, et j’ai hâte de voir ce que demain me réserve ! | ¡La vida está llena de momentos hermosos y estoy emocionado por lo que traerá el mañana! | Жизнь полна прекрасных моментов, и я с нетерпением жду того, что принесет завтрашний день! | 生活充满了美好的时刻,我对明天会发生什么感到兴奋! | الحياة مليئة باللحظات الجميلة، وأنا متحمس لما سيجلبه الغد! |
The scatterplot below illustrates the predicted sentiment scores grouped by each text sample. Notably, the prediction scores exhibit low variability across different languages for the same text, indicating a consistent assessment of translation sentiment regardless of the target language. Scatterplot of predicted quality scores grouped by text sample and language This analysis highlights the effectiveness of using machine learning classifiers in evaluating textual sentiment across multiple languages. ## Limitations - Performance may vary for texts significantly different from the training data - Output is based on statistical patterns and may not always align with human judgment - Sentiment is assessed purely on textual features, not considering factors like subject familiarity or cultural context ## Ethical Considerations - Should not be used as the sole determinant of text suitability for specific audiences - Results may reflect biases present in the training data sources - Care should be taken when using these models in educational or publishing contexts