they_not_like_us
they_not_like_us is a merge of the following models using LazyMergekit:
𧩠Configuration
models:
- model: bigcode/starcoder2-3b
- model: TechxGenus/starcoder2-3b-instruct
parameters:
density:
- filter: self_attn.q_proj.0
value: 0.01384
- filter: self_attn.q_proj.1
value: 0.00657
- filter: self_attn.q_proj.2
value: 0.02731
- filter: self_attn.q_proj.3
value: 0.03261
- filter: self_attn.q_proj.4
value: 0.05056
- filter: self_attn.q_proj.5
value: 0.05539
- filter: self_attn.q_proj.6
value: 0.05796
- filter: self_attn.q_proj.7
value: 0.06573
- filter: self_attn.q_proj.8
value: 0.09558
- filter: self_attn.q_proj.9
value: 0.11226
- filter: self_attn.q_proj.10
value: 0.1053
- filter: self_attn.q_proj.11
value: 0.07023
- filter: self_attn.q_proj.12
value: 0.04345
- filter: self_attn.q_proj.13
value: 0.02855
- filter: self_attn.q_proj.14
value: 0.04248
- filter: self_attn.q_proj.15
value: 0.00938
- filter: self_attn.q_proj.16
value: 0.04849
- filter: self_attn.q_proj.17
value: 0.0569
- filter: self_attn.q_proj.18
value: 0.02524
- filter: self_attn.q_proj.19
value: 0.03765
- filter: self_attn.q_proj.20
value: 0.00301
- filter: self_attn.q_proj.21
value: 0.01149
- filter: self_attn.k_proj.0
value: 0.01448
- filter: self_attn.k_proj.1
value: 0.01995
- filter: self_attn.k_proj.2
value: 0.02198
- filter: self_attn.k_proj.3
value: 0.02643
- filter: self_attn.k_proj.4
value: 0.04244
- filter: self_attn.k_proj.5
value: 0.03983
- filter: self_attn.k_proj.6
value: 0.03963
- filter: self_attn.k_proj.7
value: 0.04097
- filter: self_attn.k_proj.8
value: 0.10344
- filter: self_attn.k_proj.9
value: 0.12206
- filter: self_attn.k_proj.10
value: 0.10247
- filter: self_attn.k_proj.11
value: 0.08638
- filter: self_attn.k_proj.12
value: 0.06374
- filter: self_attn.k_proj.13
value: 0.05815
- filter: self_attn.k_proj.14
value: 0.0267
- filter: self_attn.k_proj.15
value: 0.0105
- filter: self_attn.k_proj.16
value: 0.03183
- filter: self_attn.k_proj.17
value: 0.0173
- filter: self_attn.k_proj.18
value: 0.06724
- filter: self_attn.k_proj.19
value: 0.01356
- filter: self_attn.k_proj.20
value: 0.03054
- filter: self_attn.k_proj.21
value: 0.02039
- filter: self_attn.v_proj.0
value: 0.00132
- filter: self_attn.v_proj.1
value: 0.00024
- filter: self_attn.v_proj.2
value: 0.00149
- filter: self_attn.v_proj.3
value: 0.00292
- filter: self_attn.v_proj.4
value: 0.00208
- filter: self_attn.v_proj.5
value: 0.00715
- filter: self_attn.v_proj.6
value: 0.00725
- filter: self_attn.v_proj.7
value: 0.00891
- filter: self_attn.v_proj.8
value: 0.0271
- filter: self_attn.v_proj.9
value: 0.03499
- filter: self_attn.v_proj.10
value: 0.04242
- filter: self_attn.v_proj.11
value: 0.05088
- filter: self_attn.v_proj.12
value: 0.0481
- filter: self_attn.v_proj.13
value: 0.04341
- filter: self_attn.v_proj.14
value: 0.05882
- filter: self_attn.v_proj.15
value: 0.0702
- filter: self_attn.v_proj.16
value: 0.07306
- filter: self_attn.v_proj.17
value: 0.08186
- filter: self_attn.v_proj.18
value: 0.08394
- filter: self_attn.v_proj.19
value: 0.07471
- filter: self_attn.v_proj.20
value: 0.16654
- filter: self_attn.v_proj.21
value: 0.11261
- filter: self_attn.o_proj.0
value: 0.00157
- filter: self_attn.o_proj.1
value: 0.00103
- filter: self_attn.o_proj.2
value: 0.0019
- filter: self_attn.o_proj.3
value: 0.00336
- filter: self_attn.o_proj.4
value: 0.00236
- filter: self_attn.o_proj.5
value: 0.0061
- filter: self_attn.o_proj.6
value: 0.00104
- filter: self_attn.o_proj.7
value: 0.0095
- filter: self_attn.o_proj.8
value: 0.00767
- filter: self_attn.o_proj.9
value: 0.01618
- filter: self_attn.o_proj.10
value: 0.01477
- filter: self_attn.o_proj.11
value: 0.00161
- filter: self_attn.o_proj.12
value: 0.00596
- filter: self_attn.o_proj.13
value: 0.01282
- filter: self_attn.o_proj.14
value: 0.05706
- filter: self_attn.o_proj.15
value: 0.04798
- filter: self_attn.o_proj.16
value: 0.02363
- filter: self_attn.o_proj.17
value: 0.04288
- filter: self_attn.o_proj.18
value: 0.12266
- filter: self_attn.o_proj.19
value: 0.03632
- filter: self_attn.o_proj.20
value: 0.32836
- filter: self_attn.o_proj.21
value: 0.25524
- filter: mlp.gate_proj.0
value: 0.0008
- filter: mlp.gate_proj.1
value: 0.00325
- filter: mlp.gate_proj.2
value: 0.0023
- filter: mlp.gate_proj.3
value: 0.00033
- filter: mlp.gate_proj.4
value: 0.00163
- filter: mlp.gate_proj.5
value: 0.00365
- filter: mlp.gate_proj.6
value: 0.0042
- filter: mlp.gate_proj.7
value: 0.01307
- filter: mlp.gate_proj.8
value: 0.01445
- filter: mlp.gate_proj.9
value: 0.02852
- filter: mlp.gate_proj.10
value: 0.03948
- filter: mlp.gate_proj.11
value: 0.04786
- filter: mlp.gate_proj.12
value: 0.0536
- filter: mlp.gate_proj.13
value: 0.05585
- filter: mlp.gate_proj.14
value: 0.0648
- filter: mlp.gate_proj.15
value: 0.06929
- filter: mlp.gate_proj.16
value: 0.0744
- filter: mlp.gate_proj.17
value: 0.08906
- filter: mlp.gate_proj.18
value: 0.104
- filter: mlp.gate_proj.19
value: 0.09914
- filter: mlp.gate_proj.20
value: 0.10889
- filter: mlp.gate_proj.21
value: 0.12143
- filter: mlp.up_proj.0
value: 0.00118
- filter: mlp.up_proj.1
value: 0.00377
- filter: mlp.up_proj.2
value: 0.00249
- filter: mlp.up_proj.3
value: 0.00103
- filter: mlp.up_proj.4
value: 0.00085
- filter: mlp.up_proj.5
value: 0.00298
- filter: mlp.up_proj.6
value: 0.00318
- filter: mlp.up_proj.7
value: 0.01108
- filter: mlp.up_proj.8
value: 0.0145
- filter: mlp.up_proj.9
value: 0.02919
- filter: mlp.up_proj.10
value: 0.03808
- filter: mlp.up_proj.11
value: 0.04536
- filter: mlp.up_proj.12
value: 0.05076
- filter: mlp.up_proj.13
value: 0.05593
- filter: mlp.up_proj.14
value: 0.06894
- filter: mlp.up_proj.15
value: 0.07535
- filter: mlp.up_proj.16
value: 0.07777
- filter: mlp.up_proj.17
value: 0.08961
- filter: mlp.up_proj.18
value: 0.1045
- filter: mlp.up_proj.19
value: 0.10045
- filter: mlp.up_proj.20
value: 0.11479
- filter: mlp.up_proj.21
value: 0.10822
- filter: mlp.down_proj.0
value: 0.07073
- filter: mlp.down_proj.1
value: 0.04763
- filter: mlp.down_proj.2
value: 0.01994
- filter: mlp.down_proj.3
value: 0.00011
- filter: mlp.down_proj.4
value: 0.00291
- filter: mlp.down_proj.5
value: 0.00115
- filter: mlp.down_proj.6
value: 0.00396
- filter: mlp.down_proj.7
value: 0.02167
- filter: mlp.down_proj.8
value: 0.00561
- filter: mlp.down_proj.9
value: 0.00899
- filter: mlp.down_proj.10
value: 0.01681
- filter: mlp.down_proj.11
value: 0.02464
- filter: mlp.down_proj.12
value: 0.02988
- filter: mlp.down_proj.13
value: 0.03701
- filter: mlp.down_proj.14
value: 0.04521
- filter: mlp.down_proj.15
value: 0.07515
- filter: mlp.down_proj.16
value: 0.05471
- filter: mlp.down_proj.17
value: 0.05965
- filter: mlp.down_proj.18
value: 0.06833
- filter: mlp.down_proj.19
value: 0.07838
- filter: mlp.down_proj.20
value: 0.11912
- filter: mlp.down_proj.21
value: 0.20841
- value: 1
weight:
- value: 1
merge_method: ties
base_model: bigcode/starcoder2-3b
parameters:
normalize: true
int8_mask: true
dtype: bfloat16
tokenizer_source: union
π» Usage
!pip install -qU transformers accelerate
from transformers import AutoTokenizer
import transformers
import torch
model = "choprahetarth/they_not_like_us"
messages = [{"role": "user", "content": "What is a large language model?"}]
tokenizer = AutoTokenizer.from_pretrained(model)
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
pipeline = transformers.pipeline(
"text-generation",
model=model,
torch_dtype=torch.float16,
device_map="auto",
)
outputs = pipeline(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
print(outputs[0]["generated_text"])
- Downloads last month
- 1
Model tree for choprahetarth/they_not_like_us
Base model
TechxGenus/starcoder2-3b-instruct