Kunyi commited on
Commit
7661e7b
1 Parent(s): fa8f0e3

Update README_CN.md

Browse files
Files changed (1) hide show
  1. README_CN.md +2 -107
README_CN.md CHANGED
@@ -1,30 +1,10 @@
1
  [**中文说明**](README_CN.md) | [**English**](README.md)
2
  # 项目介绍
3
  本项目旨在提供更好的中文CLIP模型。该项目使用的训练数据均为公开可访问的图像URL及相关中文文本描述,总量达到400M。经过筛选后,我们最终使用了100M的数据进行训练。
4
- 本项目于QQ-ARC Joint Lab, Tencent PCG完成
 
5
  <br><br>
6
 
7
- # 模型及实验
8
- <span id="model_card"></span>
9
- ## 模型规模 & 下载链接
10
- QA-CLIP目前开源3个不同规模,其模型信息和下载方式见下表:
11
-
12
- <table border="1" width="100%">
13
- <tr align="center">
14
- <th>模型规模</th><th>下载链接</th><th>参数量</th><th>视觉侧骨架</th><th>视觉侧参数量</th><th>文本侧骨架</th><th>文本侧参数量</th><th>分辨率</th>
15
- </tr>
16
- <tr align="center">
17
- <td>QA-CLIP<sub>RN50</sub></td><td><a href="https://huggingface.co/TencentARC/QA-CLIP/resolve/main/QA-CLIP-RN50.pt">Download</a></td><td>77M</td><td>ResNet50</td><td>38M</td><td>RBT3</td><td>39M</td><td>224</td>
18
- </tr>
19
- <tr align="center">
20
- <td>QA-CLIP<sub>ViT-B/16</sub></td><td><a href="https://huggingface.co/TencentARC/QA-CLIP/resolve/main/QA-CLIP-base.pt">Download</a></td><td>188M</td><td>ViT-B/16</td><td>86M</td><td>RoBERTa-wwm-Base</td><td>102M</td><td>224</td>
21
- </tr>
22
- <tr align="center">
23
- <td>QA-CLIP<sub>ViT-L/14</sub></td><td><a href="https://huggingface.co/TencentARC/QA-CLIP/resolve/main/QA-CLIP-large.pt">Download</a></td><td>406M</td><td>ViT-L/14</td><td>304M</td><td>RoBERTa-wwm-Base</td><td>102M</td><td>224</td>
24
- </tr>
25
- </table>
26
- <br>
27
-
28
  ## 实验结果
29
  针对图文检索任务,我们在[MUGE Retrieval](https://tianchi.aliyun.com/muge)、[Flickr30K-CN](https://github.com/li-xirong/cross-lingual-cap)和[COCO-CN](https://github.com/li-xirong/coco-cn)上进行了zero-shot测试。
30
  针对图像零样本分类任务,我们在ImageNet数据集上进行了测试。测试结果见下表:
@@ -156,19 +136,6 @@ QA-CLIP目前开源3个不同规模,其模型信息和下载方式见下表:
156
 
157
 
158
  # 使用教程
159
- ## 安装要求
160
- 环境配置要求:
161
-
162
- * python >= 3.6.4
163
- * pytorch >= 1.8.0 (with torchvision >= 0.9.0)
164
- * CUDA Version >= 10.2
165
-
166
- 安装本项目所需库
167
- ```bash
168
- cd /yourpath/QA-CLIP-main
169
- pip install -r requirements.txt
170
- ```
171
-
172
  ## 推理代码
173
  推理代码示例:
174
  ```python
@@ -202,78 +169,6 @@ probs = logits_per_image.softmax(dim=1)
202
  ```
203
  <br><br>
204
 
205
- ## 预测及评估
206
-
207
- ### 图文检索测试数据集下载
208
- <b>[Chinese-CLIP](https://github.com/OFA-Sys/Chinese-CLIP)</b>项目中已经预处理好测试集,这是他们提供的下载链接:
209
-
210
- MUGE数据:[下载链接](https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/datasets/MUGE.zip)
211
-
212
- Flickr30K-CN数据:[下载链接](https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/datasets/Flickr30k-CN.zip)
213
-
214
- 另外[COCO-CN](https://github.com/li-xirong/coco-cn)数据的获取需要向原作者进行申请
215
- ### ImageNet数据集下载
216
- 原始数据请自行下载,[中文标签](http://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/datasets/ImageNet-1K/label_cn.txt)和[英文标签](http://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/datasets/ImageNet-1K/label.txt)同样由<b>[Chinese-CLIP](https://github.com/OFA-Sys/Chinese-CLIP)</b>项目提供
217
- ### 图文检索评估
218
- 图文检索评估代码可以参考如下:
219
- ```bash
220
- split=test # 指定计算valid或test集特征
221
- resume=your_ckp_path
222
- DATAPATH=your_DATAPATH
223
- dataset_name=Flickr30k-CN
224
- # dataset_name=MUGE
225
-
226
- python -u eval/extract_features.py \
227
- --extract-image-feats \
228
- --extract-text-feats \
229
- --image-data="${DATAPATH}/datasets/${dataset_name}/lmdb/${split}/imgs" \
230
- --text-data="${DATAPATH}/datasets/${dataset_name}/${split}_texts.jsonl" \
231
- --img-batch-size=32 \
232
- --text-batch-size=32 \
233
- --context-length=52 \
234
- --resume=${resume} \
235
- --vision-model=ViT-B-16 \
236
- --text-model=RoBERTa-wwm-ext-base-chinese
237
-
238
- python -u eval/make_topk_predictions.py \
239
- --image-feats="${DATAPATH}/datasets/${dataset_name}/${split}_imgs.img_feat.jsonl" \
240
- --text-feats="${DATAPATH}/datasets/${dataset_name}/${split}_texts.txt_feat.jsonl" \
241
- --top-k=10 \
242
- --eval-batch-size=32768 \
243
- --output="${DATAPATH}/datasets/${dataset_name}/${split}_predictions.jsonl"
244
-
245
- python -u eval/make_topk_predictions_tr.py \
246
- --image-feats="${DATAPATH}/datasets/${dataset_name}/${split}_imgs.img_feat.jsonl" \
247
- --text-feats="${DATAPATH}/datasets/${dataset_name}/${split}_texts.txt_feat.jsonl" \
248
- --top-k=10 \
249
- --eval-batch-size=32768 \
250
- --output="${DATAPATH}/datasets/${dataset_name}/${split}_tr_predictions.jsonl"
251
-
252
- python eval/evaluation.py \
253
- ${DATAPATH}/datasets/${dataset_name}/${split}_texts.jsonl \
254
- ${DATAPATH}/datasets/${dataset_name}/${split}_predictions.jsonl \
255
- ${DATAPATH}/datasets/${dataset_name}/output1.json
256
- cat ${DATAPATH}/datasets/${dataset_name}/output1.json
257
-
258
- python eval/transform_ir_annotation_to_tr.py \
259
- --input ${DATAPATH}/datasets/${dataset_name}/${split}_texts.jsonl
260
-
261
- python eval/evaluation_tr.py \
262
- ${DATAPATH}/datasets/${dataset_name}/${split}_texts.tr.jsonl \
263
- ${DATAPATH}/datasets/${dataset_name}/${split}_tr_predictions.jsonl \
264
- ${DATAPATH}/datasets/${dataset_name}/output2.json
265
- cat ${DATAPATH}/datasets/${dataset_name}/output2.json
266
- ```
267
-
268
- ### ImageNet零样本分类
269
- ImageNet零样本分类的代码参考如下
270
- ```bash
271
- bash scripts/zeroshot_eval.sh 0 \
272
- ${DATAPATH} imagenet \
273
- ViT-B-16 RoBERTa-wwm-ext-base-chinese \
274
- ./pretrained_weights/QA-CLIP-base.pt
275
- ```
276
- <br><br>
277
  # 致谢
278
  项目代码基于<b>[Chinese-CLIP](https://github.com/OFA-Sys/Chinese-CLIP)</b>实现,非常感谢他们优秀的开源工作。
279
  <br><br>
 
1
  [**中文说明**](README_CN.md) | [**English**](README.md)
2
  # 项目介绍
3
  本项目旨在提供更好的中文CLIP模型。该项目使用的训练数据均为公开可访问的图像URL及相关中文文本描述,总量达到400M。经过筛选后,我们最终使用了100M的数据进行训练。
4
+ 本项目于QQ-ARC Joint Lab, Tencent PCG完成。
5
+ 更详细的信息可以参考[QA-CLIP项目的主页面](https://huggingface.co/TencentARC/QA-CLIP)。
6
  <br><br>
7
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
8
  ## 实验结果
9
  针对图文检索任务,我们在[MUGE Retrieval](https://tianchi.aliyun.com/muge)、[Flickr30K-CN](https://github.com/li-xirong/cross-lingual-cap)和[COCO-CN](https://github.com/li-xirong/coco-cn)上进行了zero-shot测试。
10
  针对图像零样本分类任务,我们在ImageNet数据集上进行了测试。测试结果见下表:
 
136
 
137
 
138
  # 使用教程
 
 
 
 
 
 
 
 
 
 
 
 
 
139
  ## 推理代码
140
  推理代码示例:
141
  ```python
 
169
  ```
170
  <br><br>
171
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
172
  # 致谢
173
  项目代码基于<b>[Chinese-CLIP](https://github.com/OFA-Sys/Chinese-CLIP)</b>实现,非常感谢他们优秀的开源工作。
174
  <br><br>