MokaHR commited on
Commit
0105bbf
1 Parent(s): fa308f7

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +3 -3
README.md CHANGED
@@ -13,7 +13,7 @@ library_name: sentence-transformers
13
 
14
  M3E 是 Moka Massive Mixed Embedding 的缩写
15
 
16
- - Moka,此模型由 MokaAI 训练并开源,训练脚本使用 [uniem](https://github.com/wangyuxinwhy/uniem/blob/main/scripts/train_m3e.py)
17
  - Massive,此模型通过**千万级** (2200w+) 的中文句对数据集进行训练
18
  - Mixed,此模型支持中英双语的同质文本相似度计算,异质文本检索等功能,未来还会支持代码检索
19
  - Embedding,此模型是文本嵌入模型,可以将自然语言转换成稠密的向量
@@ -29,14 +29,14 @@ M3E 是 Moka Massive Mixed Embedding 的缩写
29
  | --------- | -------- | -------- | -------- | -------- | -------- | -------- | -------- | ---- | ---------- | ------------ | -------- |
30
  | m3e-small | 24M | 512 | 是 | 否 | 是 | 否 | 否 | 是 | 优 | 0.5834 | 0.7262 |
31
  | m3e-base | 110M | 768 | 是 | 是 | 是 | 是 | 否 | 是 | 优 | **0.6157** | **0.8004** |
32
- | text2vec | 110M | 768 | 是 | 否 | 是 | 否 | 否 | 是 | | 0.5755 | 0.6346 |
33
  | openai-ada-002 | 未知 | 1536 | 是 | 是 | 是 | 是 | 是 | 否 | 优 | 0.5956 | 0.7786 |
34
 
35
  说明:
36
  - s2s, 即 sentence to sentence ,代表了同质文本之间的嵌入能力,适用任务:文本相似度,重复问题检测,文本分类等
37
  - s2p, 即 sentence to passage ,代表了异质文本之间的嵌入能力,适用任务:文本检索,GPT 记忆模块等
38
  - s2c, 即 sentence to code ,代表了自然语言和程序语言之间的嵌入能力,适用任务:代码检索
39
- - 兼容性,代表了模型在开源社区中各种项目被支持的程度,由于 m3e 是基于 sentence-transformers 的,所以和 openai 在社区的支持度上相当
40
  - ACC & ndcg@10,详情见下方的评测
41
 
42
  Tips:
 
13
 
14
  M3E 是 Moka Massive Mixed Embedding 的缩写
15
 
16
+ - Moka,此模型由 MokaAI 训练,开源和评测,训练脚本使用 [uniem](https://github.com/wangyuxinwhy/uniem/blob/main/scripts/train_m3e.py) ,评测 BenchMark 使用 [MTEB-zh](https://github.com/wangyuxinwhy/uniem/tree/main/mteb-zh)
17
  - Massive,此模型通过**千万级** (2200w+) 的中文句对数据集进行训练
18
  - Mixed,此模型支持中英双语的同质文本相似度计算,异质文本检索等功能,未来还会支持代码检索
19
  - Embedding,此模型是文本嵌入模型,可以将自然语言转换成稠密的向量
 
29
  | --------- | -------- | -------- | -------- | -------- | -------- | -------- | -------- | ---- | ---------- | ------------ | -------- |
30
  | m3e-small | 24M | 512 | 是 | 否 | 是 | 否 | 否 | 是 | 优 | 0.5834 | 0.7262 |
31
  | m3e-base | 110M | 768 | 是 | 是 | 是 | 是 | 否 | 是 | 优 | **0.6157** | **0.8004** |
32
+ | text2vec | 110M | 768 | 是 | 否 | 是 | 否 | 否 | 是 | | 0.5755 | 0.6346 |
33
  | openai-ada-002 | 未知 | 1536 | 是 | 是 | 是 | 是 | 是 | 否 | 优 | 0.5956 | 0.7786 |
34
 
35
  说明:
36
  - s2s, 即 sentence to sentence ,代表了同质文本之间的嵌入能力,适用任务:文本相似度,重复问题检测,文本分类等
37
  - s2p, 即 sentence to passage ,代表了异质文本之间的嵌入能力,适用任务:文本检索,GPT 记忆模块等
38
  - s2c, 即 sentence to code ,代表了自然语言和程序语言之间的嵌入能力,适用任务:代码检索
39
+ - 兼容性,代表了模型在开源社区中各种项目被支持的程度,由于 m3e text2vec 都可以直接通过 sentence-transformers 直接使用,所以和 openai 在社区的支持度上相当
40
  - ACC & ndcg@10,详情见下方的评测
41
 
42
  Tips: