揭秘大模型:从原理到实战
上QQ阅读APP看书,第一时间看更新

2.2.3 门控循环单元(GRU)

门控循环单元(gated recurrent unit,GRU)[2]是一种简化版的长短期记忆网络,它是由Cho等在2014年提出的一种循环神经网络。它把长短期记忆网络中的遗忘门和输入门合并为一个“更新门”,并且把记忆单元和隐藏状态合并为一个状态,同时做了一些其他的简化。门控循环单元模型比长短期记忆网络模型更加简单,也更加受到关注和使用。门控循环单元和长短期记忆网络的主要区别在于它们的门控机制。门控循环单元没有输出门,只使用一个更新门来控制信息的流入和状态的更新,这样可以减少参数量和计算成本。相比之下,门控循环单元模型更精简、更易训练,并且在一些任务上表现得很好。图2-6所示为门控循环单元的模型结构,它由重置门和更新门组成。

图2-6 门控循环单元的模型结构

门控循环单元的更新方式可以表示为

  (2-8)