3.5.4 使用强化学习微调预训练模型