再看NCE 概率语言模型,如最大熵模型和概率神经模型,在参数估计时,都有计算量大的问题,词汇表实在是太大了。这让配分函数的计算量大得就想优化它。 只看NCE和Negative Sampling(以下简写为NS),就不说其他的方法了。 NCE和NS刚接触时,看着好像一样一样的。再看,还真是大意了,不够严谨。(废话真多) 标准开头 假设以下是一个模型,根据上下文 \(c\) 预测词表 \(V\) 中的词 2021-04-08 Notes ML NCE language model
Self-supervised methods note 简要记录从JEM、SupContrast、Momentum Contrast到Simple Siamese的一系列对比学习方法。 2021-03-25 Notes Contrastive Learning self-supervise contrastive learning
Joint Extraction of Entities and Relations 2020 记录2020几篇关系抽取论文,包括CasRel、TPlinker和Two-are-better-than-one。其思路很机智。 2021-03-24 Notes NLP relation extraction
Pointer review 回顾一下Pointer network。在学习 transformer + pointer 的摘要生成模型时,得空稍稍记录一下。 2021-03-18 Notes NLP deep learning pointer net