回顾神经网络初始化方法 那么首先我们已经知道,全0或者常数、过大、过小的权重初始化都有梯度消失或者梯度爆炸的问题。而我们所期望的初始化状态是:期望为0,方差在一定范围内,同时尽量保证不同层的权重方差的一致性。这样出现internal covariance shift的可能性会大幅降低。闲来无事,适巧康康。 为了更简洁的期望与方差 首先需要知道期望\(E\)和方差\(Var\)的计算方法,基本公式: \[ Var( 2021-06-14 Notes DL deep learning initialization
Knowledge Distillation Note 知识蒸馏模型采用类似迁移学习的方法,通过采用预先训练好的老师模型(Teacher model)的输出作为监督信号去训练另外一个简单的学生模型(Student model)。 所谓的知识就是从输入向量引至输出向量的节点图。 大概分为三类:知识蒸馏(模型压缩),跨域迁移无标签转换,集成蒸馏。 此处关注知识蒸馏(模型压缩)这一类。 First Step 原文, 综述 1、训练复杂的教 2021-04-18 Notes Distillation knowledge distillation CRD SRRD
再看NCE 概率语言模型,如最大熵模型和概率神经模型,在参数估计时,都有计算量大的问题,词汇表实在是太大了。这让配分函数的计算量大得就想优化它。 只看NCE和Negative Sampling(以下简写为NS),就不说其他的方法了。 NCE和NS刚接触时,看着好像一样一样的。再看,还真是大意了,不够严谨。(废话真多) 标准开头 假设以下是一个模型,根据上下文 \(c\) 预测词表 \(V\) 中的词 2021-04-08 Notes ML NCE language model
Self-supervised methods note 简要记录从JEM、SupContrast、Momentum Contrast到Simple Siamese的一系列对比学习方法。 2021-03-25 Notes Contrastive Learning self-supervise contrastive learning
Joint Extraction of Entities and Relations 2020 记录2020几篇关系抽取论文,包括CasRel、TPlinker和Two-are-better-than-one。其思路很机智。 2021-03-24 Notes NLP relation extraction