使用本地路径下的模型时,设置trust_remote_code=False,此时模型无法正确输出奖励值而是输出一系列张量
trust_remote_code=False
· Sign up or log in to comment