Transformer Model Transformer 中两个任意输入的信号关联的开销会减少到一个固定的运算量级,使用 Multi-Head Attention 注意力机制可以高效地并行化,并堆叠多层的神经网络。 2020-07-07 Notes NLP transformer
Fairseq Notes 在自然语言处理中,大部分流行的seq2seq模型都是基于RNN结构去构建encoder和decoder,使得并行化操作难以充分进行,难以发挥完全发挥GPU并行的效率。而Fairseq是一种以CNN为基础的模型。 2020-07-07 Notes NLP cnn Fairseq seq2seq
seq2seq Sequence-to-sequence (seq2seq) 模型,突破了传统的检索式框架,从一种端到端的角度出发解决问题,将经典深度神经网络模型运用于翻译与职能问答这一类序列型任务。 2020-07-07 Notes NLP seq2seq attention