3.5.3 训练奖励模型