长短期记忆网络(LSTM)是一种专门为捕捉长程依赖而设计的循环神经网络,通过引入门控机制有效缓解了传统 RNN 的梯度消失与爆炸问题 维基百科. LSTM 单元包含输入门、遗忘门和输出门:输入门控制新信息写入细胞状态,遗忘门决定舍弃哪些历史信息,输出门再根据当前细胞状态生成输出,从而实现对信息的精细选择与长期记忆保留。LSTM 在语言模型、语音识别和时序预测等任务中表现优异,且双向 LSTM(BiLSTM)通过同时处理正向和反向序列进一步增强上下文建模能力。