Vision to text 视觉问答任务的定义是对于一张图片和一个跟这幅图片相关的问题,机器需要根据图片信息对问题进行回答。 输入:一张图片和一个关于图片信息的问题,常见的问题形式有选择题,判断题 输出:挑选出正确答案 视觉问答任务本质上是一个多模态的研究问题。这个任务需要我们结合自然语言处理(NLP)和计算机视觉(CV)的技术来进行回答。 自然语言处理(NLP) 举一个在NLP领域常见的基于 2020-07-07 Notes NLP visual text
Transformer Model Transformer 中两个任意输入的信号关联的开销会减少到一个固定的运算量级,使用 Multi-Head Attention 注意力机制可以高效地并行化,并堆叠多层的神经网络。 2020-07-07 Notes NLP transformer
Fairseq Notes 在自然语言处理中,大部分流行的seq2seq模型都是基于RNN结构去构建encoder和decoder,使得并行化操作难以充分进行,难以发挥完全发挥GPU并行的效率。而Fairseq是一种以CNN为基础的模型。 2020-07-07 Notes NLP cnn Fairseq seq2seq