wangyuxin commited on
Commit
de6d7a5
1 Parent(s): f8e91d9

add 模型对比

Browse files
Files changed (1) hide show
  1. README.md +16 -0
README.md CHANGED
@@ -21,6 +21,22 @@ M3E 是 Moka Massive Mixed Embedding 的缩写
21
  - 2023.06.08,添加检索任务的评测结果,在 T2Ranking 1W 中文数据集上,m3e-base 在 ndcg@10 上达到了 0.8004,超过了 openai-ada-002 的 0.7786
22
  - 2023.06.07,添加文本分类任务的评测结果,在 6 种文本分类数据集上,m3e-base 在 accuracy 上达到了 0.6157,超过了 openai-ada-002 的 0.5956
23
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
24
  ## 使用方式
25
 
26
  您需要先安装 sentence-transformers
 
21
  - 2023.06.08,添加检索任务的评测结果,在 T2Ranking 1W 中文数据集上,m3e-base 在 ndcg@10 上达到了 0.8004,超过了 openai-ada-002 的 0.7786
22
  - 2023.06.07,添加文本分类任务的评测结果,在 6 种文本分类数据集上,m3e-base 在 accuracy 上达到了 0.6157,超过了 openai-ada-002 的 0.5956
23
 
24
+ ## 模型对比
25
+
26
+ | | 参数数量 | 维度 | 中文 | 英文 | s2s | s2p | s2c | 开源 | 兼容性 | s2s Acc | s2p ndcg@10 |
27
+ | --------- | -------- | -------- | -------- | -------- | -------- | -------- | -------- | ---- | ---------- | ------------ | -------- |
28
+ | m3e-small | 24M | 512 | 是 | 否 | 是 | 否 | 否 | 是 | 优 | 0.5755 | 0.7262 |
29
+ | m3e-base | 110M | 768 | 是 | 是 | 是 | 否 | 否 | 是 | 优 | 0.5834 | 0.8004 |
30
+ | text2vec | 110M | 768 | 是 | 否 | 是 | 否 | 否 | 是 | 良 | 0.6157 | 0.6346 |
31
+ | openai | 未知 | 1576 | 是 | 是 | 是 | 否 | 是 | 否 | 优 | 0.5956 | 0.7786 |
32
+
33
+ 说明:
34
+ - s2s, 即 sentence to sentence ,代表了同质文本之间的嵌入能力,适用任务:文本相似度,重复问题检测,文本分类等
35
+ - s2p, 即 sentence to passage ,代表了异质文本之间的嵌入能力,适用任务:文本检索,GPT 记忆模块等
36
+ - s2c, 即 sentence to code ,代表了自然语言和程序语言之间的嵌入能力,适用任务:代码检索
37
+ - 兼容性,代表了模型在开源社区中各种项目被支持的程度,由于 m3e 是基于 sentence-transformers 的,所以和 openai 在社区的支持度上相当
38
+ - ACC & ndcg@10,详情见下方的评测
39
+
40
  ## 使用方式
41
 
42
  您需要先安装 sentence-transformers