yuyijiong
/

LongAlpaca-7b-32k-chinese-v2

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

yuyijiong commited on Nov 20, 2023

Commit

1a7615e

•

1 Parent(s): b3e1cd8

Update README.md

Files changed (1) hide show

README.md +1 -9

README.md CHANGED Viewed

@@ -36,15 +36,7 @@ input_ids = tokenizer(input_text, return_tensors='pt').input_ids.to(model.device
 with torch.no_grad():
     with torch.autocast('cuda'):
-        output = model.generate(input_ids=input_ids,
-                                max_new_tokens=max_new_tokens,
-                                do_sample=True,
-                                temperature=0.85,
-                                top_k=None,
-                                top_p=0.9,
-                                use_cache=True,
-                                eos_token_id=[tokenizer.convert_tokens_to_ids('<|im_end|>') , tokenizer.convert_tokens_to_ids('<|endoftext|>')]
-                                **kwargs)
 reply = tokenizer.decode(output[0], skip_special_tokens=False)
 reply_return=reply.split('<|im_start|>assistant\n')[-1]

 with torch.no_grad():
     with torch.autocast('cuda'):
+        output = model.generate(input_ids=input_ids, **kwargs)
 reply = tokenizer.decode(output[0], skip_special_tokens=False)
 reply_return=reply.split('<|im_start|>assistant\n')[-1]