Fix issues in sample code: Invalid reward_tokenizer and issue in returning scores (#1)

- Fix issues in sample code: Invalid reward_tokenizer and issue in returning scores (f9c3ba8e1bdeffb59a08db30119e009afa6adbd9)

Co-authored-by: Amit Chaudhary <[email protected]>

Files changed (1) hide show

README.md CHANGED Viewed

@@ -92,11 +92,10 @@ class GPTRewardModel(nn.Module):
             c_ind = c_inds[0].item() if len(c_inds) > 0 else input_ids.shape[1]
             scores.append(rewards[i, c_ind - 1])
         return scores
-            return scores
 ## Load the model and tokenizer
-reward_model = GPTRewardModel("meta-llama/Llama-2-7b-chat-hf", reward_tokenizer.eos_token_id)
 reward_tokenizer = reward_model.tokenizer
 reward_tokenizer.truncation_side = "left"

             c_ind = c_inds[0].item() if len(c_inds) > 0 else input_ids.shape[1]
             scores.append(rewards[i, c_ind - 1])
         return scores
 ## Load the model and tokenizer
+reward_model = GPTRewardModel("meta-llama/Llama-2-7b-chat-hf")
 reward_tokenizer = reward_model.tokenizer
 reward_tokenizer.truncation_side = "left"