THUDM
/

chatglm-6b-int4

Inference Endpoints

Model card Files Files and versions Community

zxdu20 commited on Apr 29, 2023

Commit

63d66b0

•

1 Parent(s): f55a108

Remove assert in load_cpu_kernel

Files changed (1) hide show

quantization.py +2 -4

quantization.py CHANGED Viewed

@@ -442,7 +442,6 @@ class QuantizedEmbedding(Embedding):  # TODO: backward, check empty_init
 def load_cpu_kernel(**kwargs):
     global cpu_kernels
     cpu_kernels = CPUKernel(**kwargs)
-    assert cpu_kernels.load
 def quantize(model, weight_bit_width, use_quantization_cache=False, empty_init=False, **kwargs):
@@ -453,9 +452,8 @@ def quantize(model, weight_bit_width, use_quantization_cache=False, empty_init=F
     dense_h_to_4h_quantization_cache = None
     dense_4h_to_h_quantization_cache = None
-    try:
-        load_cpu_kernel(**kwargs)
-    except:
         if kernels is None:  # CUDA kernels failed
             print("Cannot load cpu or cuda kernel, quantization failed:")
             assert kernels is not None

 def load_cpu_kernel(**kwargs):
     global cpu_kernels
     cpu_kernels = CPUKernel(**kwargs)
 def quantize(model, weight_bit_width, use_quantization_cache=False, empty_init=False, **kwargs):
     dense_h_to_4h_quantization_cache = None
     dense_4h_to_h_quantization_cache = None
+    load_cpu_kernel(**kwargs)
+    if not cpu_kernels.load:
         if kernels is None:  # CUDA kernels failed
             print("Cannot load cpu or cuda kernel, quantization failed:")
             assert kernels is not None