finetune bge-reranker 資料集準備相關問題

#23
by Rebecca19990101 - opened

你好,我正在準備微調Reranker的訓練資料集,目的是想試試看透過微調Rernker能不能進一步降低LLM生成回答時的幻覺問題。因為目前於一些看似可以當作回答參考,實際不能回答的段落,bge-reranker 仍無法太準確地進行評分。
我想嘗試使用RAG Retrieve回來的段落作為pos & neg。關於資料集我想請問一些問題:

  1. query跟pos跟neg是否有特定字數建議?如果pos跟neg約500會不會造成訓練效果不佳?
  2. query能否是問句
  3. 請問pos跟neg中如果有部分雜訊句子(跟問題不相關的),您建議將這些雜訊也放入資料集中嗎?還是pos必須是絕對正確的?

Sign up or log in to comment