bourdoiscatie's picture
Training complete
677993f verified
|
raw
history blame
19.5 kB
metadata
base_model: intfloat/multilingual-e5-large
library_name: sentence-transformers
pipeline_tag: sentence-similarity
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:5612
  - loss:MultipleNegativesRankingLoss
widget:
  - source_sentence:  puis je trouver des tuto et supports de formation Couchbase ?
    sentences:
      - >-
        Une XBOX est disponible pour tous, pour jouer en local ou en réseau LBP.
        Envie d'en savoir plus? Sur Toulouse: Une XBOX à disposition sur
        Toulouse Gabriel Péri Sur Enora: Une XBOX à disposition sur le site d'
        Enora
      - >-
        L'équipe projet de OP3N a élaboré des pages de contenu dédié par profil
        utilisateur .  Besoin d'aide supplémentaire ? N'hésitez pas à prendre
        rendez-vous avec un expert fonctionnel pour une séance de coaching.
      - >-
        Vous pouvez retrouver l'ensemble de vidéos de tutoriels et de formation
        concernant les outils Moyen DevOps IDE dont Couchbase dans la chaine
        vidéo "Formation et Tuto IDE" .  Ces vidéos ne remplacent pas la
        formation qui reste obligatoire pour toute personne (développeur,
        expert, architecte, PO, ...) qui doit participer à un projet utilisant
        Couchbase.  # Référentiel des développeurs
  - source_sentence: >-
      [SIA 1.2] Comment se connecter à l'url
      https://apm.admin.sf.intra.laposte.fr/ depuis le poste SIA 1.2 ? 
    sentences:
      - >-
        Il est tout à fait possible de se connecter à Dynatrace Managed avec cet
        URL : https://apm.admin.sf.intra.laposte.fr/ depuis un serveur de
        rebond. Pour rappel, il faudra vous connecter à votre poste SIA 1.2 puis
        vous connecter à un serveur de rebond et ensuite accéder à vos outils
        tel que l'APM par exemple. 
      - >-
        L'engagement de délais des équipes participant à la construction de
        votre projet est validé lors du comité d'intrustion (CIE) au moment de
        la présentation du projet.
      - >-
        ​Contactez le Support Utilisateurs.
        ---------------------------------------------------------------------------------------------------------------------------------------------
        Besoin d’informations supplémentaires ou de nous contacter ? 👉
        Consultez le Site IziHelp de l’équipe Accompagnement Support
        Utilisateurs (A.S.U) :  Vous souhaitez vous former en toute autonomie
        sur l'outil POST.IT ? 👉 Rejoignez IziTraining notre application
        d’autoformation aux outils ITSM et à leurs processus, ainsi qu'à la Mise
        En Support :  👉 Poursuivez votre formation grâce à IziTraining Practice
        et ses exercices immersifs et ludiques : 
  - source_sentence: >-
      [Imprimante] Comment puis-je obtenir mon code PUK pour utiliser les
      imprimantes Watchdoc ?
    sentences:
      - >-
        Pour rechercher l'Utilisateur Principal d'un élément de configuration ou
        configuration item (CI),dans le menu de navigation, sélectionnez
        "Gestion des configurations" puis "Rechercher un CI / Service"et lancez
        la recherche sur le CI choisi, cliquez sur l'onglet "Utilisateur
        Principal".
        ----------------------------------------------------------------------------------------------------------------------------------------
        Besoin d’informations supplémentaires ou de nous contacter ? 👉
        Consultez le Site IziHelp de l’équipe Accompagnement Support
        Utilisateurs (A.S.U) :  Vous souhaitez vous former en toute autonomie
        sur la Gestion des Configurations ? 👉 Rejoignez IziTraining notre
        application d’autoformation aux outils ITSM et à leurs processus, ainsi
        qu'à la Mise En Support :  👉 Poursuivez votre formation grâce à
        IziTraining Practice et ses exercices immersifs et ludiques : 
      - >-
        Pour tout savoir sur les imprimantes Watchdoc (Guides utilisateur et
        vidéo de présentation), consultez la page d'aide. La page d'information
        sur la solution d'impression sécurisée Watchdoc Informations sur votre
        compte (laposte.fr) vous permet de : Voir vos statistiques d'impression

        Récupérer votre code PUK  PUK = Personal Unlocking Key = clé personnelle
        de déverrouillage Le code PUK permet d'imprimer sur une imprimante sous
        Watchdoc lorsqu'on a oublié son badge ou lorsqu'on veut enrôler son
        badge sur Watchdoc Note : Le code PUK change tous les jours à minuit.
        #Imprimante #Watchdoc
      - >-
        Sur PLUME, dans la rubrique "Base de connaissances" ouvrir la KB
        suivante : 👉 KB0012012 - Token RSA : Manuels et guides d'utilisation
        puis la pièce jointe DSIBR-AWSI-IA-RSA-OPT MAIL-Manuel de creation du
        Code Pin.docx  TIPS HORS PROCÉDURE : 👉Que dois-je faire quand mon
        compte OTP mail est expiré ? Vous pouvez joindre le 05 56 89 73 33,
        choix : 3 puis 5 puis 1 ou 2 afin de prolonger temporairement le compte.

        Puis faire une demande PLUME : « Accès exploitation SI (Poste SIA, RSA,
        PAM, CyberArk, TIXEO) » puis sélectionner les options qui concernent
        votre cas.  👉Comment faire si j’ai oublié mon code PIN OTP mail ? Faire
        une demande PLUME : « Accès exploitation SI (Poste SIA, RSA, PAM,
        CyberArk, TIXEO) » puis sélectionner les options qui concernent votre
        cas.  👉Comment faire si je n’ai pas reçu de mail concernant OTP mail ?
        Vérifier les SPAM, si aucun mail contacter le  05 56 89 73 33, choix : 3
        puis 5 puis 1 ou 2.
  - source_sentence: >-
      Comment trouver mon nom de machine Sous Windows 7 Phénix ou Windows 10
      EquinoX ?
    sentences:
      - >-
        Vous pouvez des informations concernant les postes de travail VIRTUOS
        dans le SharePoint VirtuOS du portail Support WP
      - >-
        Nous vous indiquons ci-après comment trouver le nom de machine de votre
        poste de travail qui vous est demandé dans la prise en compte de
        certaines demandes IT Si toutefois vous rencontrez des difficultés, vous
        pouvez contacter par téléphone le Centre d'Appels de la DIRECTION DU
        SUPPORT ET DE LA MAINTENANCE (DSEM) au 16.66 (04.73.74.16.66) de 8h30 à
        17h30 Comment trouver votre nom de machine ? Sous Windows 7/Phénix,
        double-cliquer sur l’icône « LanDesk Remote Control » dans votre zone de
        notification (en bas à droite de votre écran).   Sur Windows 10/EquinoX,
        faire clic droit sur le bouton Démarrer de Windows, puis sélectionner «
        Système ». Le nom de l’ordinateur apparaît dans la rubrique «
        Spécifications de l’Appareil ».   #Papyrus #PowerBI #ANACONDA
      - >-
        Les demandes d' Accès Répertoire Réseau sur mon poste EQUINOX doivent se
        faire exclusivement dans PLUME: Accueil >Catalogue de services >
        Informatique > Accès aux répertoires réseau  #DSIBA #REPERTOIRE RESEAU
  - source_sentence: '[Label SI] Comment savoir si la fiche Label SI est créée ?'
    sentences:
      - >-
        Se rendre dans le formulaire Iziservices correspondant :
        Formulaire_Verif_Flux  Sur la page Changements, vous êtes invités à
        sélectionner un changement parent en phase déploiement. C'est sur ce
        changement que nous nous appuierons pour créer les actes POST-IT
        associés à nos actions.    Renseignez les informations demandées dans la
        section Origine. NOTE : Le code PAI n'est pas exploité dans le cadre
        d'une Vérification de Flux    A l'étape 3 vous êtes invités à renseigner
        les champs suivants : Sources

        Destinations

        Protocoles et Ports  Cliquez sur les boutons "A CONFIGURER" afin de
        remplir chacune des catégories, puis ajoutez le flux en cliquant sur le
        bouton "AJOUTER"   NOTE : Les champs Source et Destination peuvent être
        au format IP, subnet avec masque ou range (voir capture ci-dessous) Il
        est également possible d'ajouter un commentaire dans la zone prévue.   
        Une fois tous les flux saisis, vous pouvez passer à l'étape suivante en
        cliquant sur "Continuer", puis "Envoyer" pour soumettre votre demande. 
        Votre demande est en cours le temps de procéder aux vérifications.   
        Patientez quelques minutes puis rafraichissez le statut de votre demande
        pour connaitre l'état des flux. Vous pouvez également télécharger la
        matrice de flux complétée au format Excel. NOTE : Le bouton "Demander
        l'ouverture des flux fermés" n'est pas fonctionnel en phase Pilote.   
        Un flux peut avoir trois états : OUVERT : Le flux est déjà autorisé et
        fonctionnel sur le SI

        FERMÉ : Le flux est fermé et doit faire l'objet d'une ouverture de flux
        pour fonctionner

        A VERIFIER : il y a un erreur dans les informations saisies
      - >-
        Si vous voulez réaliser un POC (Proof of Concept) ou POV (Proof of
        Value), vous avez la possibilité de créer de façon simlplifiée un Code
        Application dédié à cet usage temporaire. Pour obtenir plus
        d'informations sur la procédure de création de ce type de Code
        Application, vous pouvez vous référer à l'article myFAQ de l'équipe
        HOPEX : [Equipe Hopex] Comment modéliser des POC & Projets d’innovation
        (POV) dans HOPEX ?
      - >-
        Vous devez vous : connecter directement sur le site Label SI , l'outil
        de pilotage du label SI et

        consulter les fiches projet à partir de votre code PAI, libellé projet
        notamment.

SentenceTransformer based on intfloat/multilingual-e5-large

This is a sentence-transformers model finetuned from intfloat/multilingual-e5-large. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: intfloat/multilingual-e5-large
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 1024 tokens
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("bourdoiscatie/multilingual-e5-large-approche7-1epoch")
# Run inference
sentences = [
    '[Label SI] Comment savoir si la fiche Label SI est créée ?',
    "Vous devez vous : connecter directement sur le site Label SI , l'outil de pilotage du label SI et\nconsulter les fiches projet à partir de votre code PAI, libellé projet notamment.",
    'Se rendre dans le formulaire Iziservices correspondant : Formulaire_Verif_Flux  Sur la page Changements, vous êtes invités à sélectionner un changement parent en phase déploiement. C\'est sur ce changement que nous nous appuierons pour créer les actes POST-IT associés à nos actions.    Renseignez les informations demandées dans la section Origine. NOTE : Le code PAI n\'est pas exploité dans le cadre d\'une Vérification de Flux    A l\'étape 3 vous êtes invités à renseigner les champs suivants : Sources\nDestinations\nProtocoles et Ports  Cliquez sur les boutons "A CONFIGURER" afin de remplir chacune des catégories, puis ajoutez le flux en cliquant sur le bouton "AJOUTER"   NOTE : Les champs Source et Destination peuvent être au format IP, subnet avec masque ou range (voir capture ci-dessous) Il est également possible d\'ajouter un commentaire dans la zone prévue.    Une fois tous les flux saisis, vous pouvez passer à l\'étape suivante en cliquant sur "Continuer", puis "Envoyer" pour soumettre votre demande.  Votre demande est en cours le temps de procéder aux vérifications.    Patientez quelques minutes puis rafraichissez le statut de votre demande pour connaitre l\'état des flux. Vous pouvez également télécharger la matrice de flux complétée au format Excel. NOTE : Le bouton "Demander l\'ouverture des flux fermés" n\'est pas fonctionnel en phase Pilote.    Un flux peut avoir trois états : OUVERT : Le flux est déjà autorisé et fonctionnel sur le SI\nFERMÉ : Le flux est fermé et doit faire l\'objet d\'une ouverture de flux pour fonctionner\nA VERIFIER : il y a un erreur dans les informations saisies',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • learning_rate: 1e-05
  • weight_decay: 0.01
  • num_train_epochs: 1
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 8
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 1e-05
  • weight_decay: 0.01
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss triplet loss
0.7267 500 0.0502 -
1.0 688 - 0.0047

Framework Versions

  • Python: 3.12.6
  • Sentence Transformers: 3.1.1
  • Transformers: 4.45.2
  • PyTorch: 2.4.0+cu121
  • Accelerate: 0.29.3
  • Datasets: 3.0.2
  • Tokenizers: 0.20.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}