- module.decoder.final_layernorm.bias
- module.decoder.final_layernorm.weight
- module.decoder.layers.mlp.linear_fc1._extra_state
- module.decoder.layers.mlp.linear_fc1.bias
- module.decoder.layers.mlp.linear_fc1.layer_norm_bias
- module.decoder.layers.mlp.linear_fc1.layer_norm_weight
- module.decoder.layers.mlp.linear_fc1.weight
- module.decoder.layers.mlp.linear_fc2._extra_state
- module.decoder.layers.mlp.linear_fc2.bias
- module.decoder.layers.mlp.linear_fc2.weight
- module.decoder.layers.self_attention.linear_proj._extra_state
- module.decoder.layers.self_attention.linear_proj.bias
- module.decoder.layers.self_attention.linear_proj.weight
- module.decoder.layers.self_attention.linear_qkv._extra_state
- module.decoder.layers.self_attention.linear_qkv.bias
- module.decoder.layers.self_attention.linear_qkv.layer_norm_bias
- module.decoder.layers.self_attention.linear_qkv.layer_norm_weight
- module.decoder.layers.self_attention.linear_qkv.weight
- module.embedding.position_embeddings.weight
- module.embedding.word_embeddings.weight
- module.output_layer.weight
-
860 Bytes
LFS
-
113 Bytes