Update README.md
Browse files
README.md
CHANGED
@@ -13,7 +13,7 @@ library_name: sentence-transformers
|
|
13 |
|
14 |
M3E 是 Moka Massive Mixed Embedding 的缩写
|
15 |
|
16 |
-
- Moka,此模型由 MokaAI
|
17 |
- Massive,此模型通过**千万级** (2200w+) 的中文句对数据集进行训练
|
18 |
- Mixed,此模型支持中英双语的同质文本相似度计算,异质文本检索等功能,未来还会支持代码检索
|
19 |
- Embedding,此模型是文本嵌入模型,可以将自然语言转换成稠密的向量
|
@@ -29,14 +29,14 @@ M3E 是 Moka Massive Mixed Embedding 的缩写
|
|
29 |
| --------- | -------- | -------- | -------- | -------- | -------- | -------- | -------- | ---- | ---------- | ------------ | -------- |
|
30 |
| m3e-small | 24M | 512 | 是 | 否 | 是 | 否 | 否 | 是 | 优 | 0.5834 | 0.7262 |
|
31 |
| m3e-base | 110M | 768 | 是 | 是 | 是 | 是 | 否 | 是 | 优 | **0.6157** | **0.8004** |
|
32 |
-
| text2vec | 110M | 768 | 是 | 否 | 是 | 否 | 否 | 是 |
|
33 |
| openai-ada-002 | 未知 | 1536 | 是 | 是 | 是 | 是 | 是 | 否 | 优 | 0.5956 | 0.7786 |
|
34 |
|
35 |
说明:
|
36 |
- s2s, 即 sentence to sentence ,代表了同质文本之间的嵌入能力,适用任务:文本相似度,重复问题检测,文本分类等
|
37 |
- s2p, 即 sentence to passage ,代表了异质文本之间的嵌入能力,适用任务:文本检索,GPT 记忆模块等
|
38 |
- s2c, 即 sentence to code ,代表了自然语言和程序语言之间的嵌入能力,适用任务:代码检索
|
39 |
-
- 兼容性,代表了模型在开源社区中各种项目被支持的程度,由于 m3e
|
40 |
- ACC & ndcg@10,详情见下方的评测
|
41 |
|
42 |
Tips:
|
|
|
13 |
|
14 |
M3E 是 Moka Massive Mixed Embedding 的缩写
|
15 |
|
16 |
+
- Moka,此模型由 MokaAI 训练,开源和评测,训练脚本使用 [uniem](https://github.com/wangyuxinwhy/uniem/blob/main/scripts/train_m3e.py) ,评测 BenchMark 使用 [MTEB-zh](https://github.com/wangyuxinwhy/uniem/tree/main/mteb-zh)
|
17 |
- Massive,此模型通过**千万级** (2200w+) 的中文句对数据集进行训练
|
18 |
- Mixed,此模型支持中英双语的同质文本相似度计算,异质文本检索等功能,未来还会支持代码检索
|
19 |
- Embedding,此模型是文本嵌入模型,可以将自然语言转换成稠密的向量
|
|
|
29 |
| --------- | -------- | -------- | -------- | -------- | -------- | -------- | -------- | ---- | ---------- | ------------ | -------- |
|
30 |
| m3e-small | 24M | 512 | 是 | 否 | 是 | 否 | 否 | 是 | 优 | 0.5834 | 0.7262 |
|
31 |
| m3e-base | 110M | 768 | 是 | 是 | 是 | 是 | 否 | 是 | 优 | **0.6157** | **0.8004** |
|
32 |
+
| text2vec | 110M | 768 | 是 | 否 | 是 | 否 | 否 | 是 | 优 | 0.5755 | 0.6346 |
|
33 |
| openai-ada-002 | 未知 | 1536 | 是 | 是 | 是 | 是 | 是 | 否 | 优 | 0.5956 | 0.7786 |
|
34 |
|
35 |
说明:
|
36 |
- s2s, 即 sentence to sentence ,代表了同质文本之间的嵌入能力,适用任务:文本相似度,重复问题检测,文本分类等
|
37 |
- s2p, 即 sentence to passage ,代表了异质文本之间的嵌入能力,适用任务:文本检索,GPT 记忆模块等
|
38 |
- s2c, 即 sentence to code ,代表了自然语言和程序语言之间的嵌入能力,适用任务:代码检索
|
39 |
+
- 兼容性,代表了模型在开源社区中各种项目被支持的程度,由于 m3e 和 text2vec 都可以直接通过 sentence-transformers 直接使用,所以和 openai 在社区的支持度上相当
|
40 |
- ACC & ndcg@10,详情见下方的评测
|
41 |
|
42 |
Tips:
|