回顾神经网络初始化方法

回顾神经网络初始化方法

那么首先我们已经知道，全0或者常数、过大、过小的权重初始化都有梯度消失或者梯度爆炸的问题。而我们所期望的初始化状态是：期望为0，方差在一定范围内，同时尽量保证不同层的权重方差的一致性。这样出现internal covariance shift的可能性会大幅降低。闲来无事，适巧康康。为了更简洁的期望与方差首先需要知道期望\(E\)和方差\(Var\)的计算方法，基本公式： \[ Var(

2021-06-14

Notes DL

deep learning initialization

Knowledge Distillation Note

Knowledge Distillation Note

知识蒸馏模型采用类似迁移学习的方法，通过采用预先训练好的老师模型(Teacher model）的输出作为监督信号去训练另外一个简单的学生模型(Student model)。所谓的知识就是从输入向量引至输出向量的节点图。大概分为三类：知识蒸馏（模型压缩），跨域迁移无标签转换，集成蒸馏。此处关注知识蒸馏（模型压缩）这一类。 First Step 原文，综述 1、训练复杂的教

2021-04-18

Notes Distillation

knowledge distillation CRD SRRD

再看NCE

再看NCE

概率语言模型，如最大熵模型和概率神经模型，在参数估计时，都有计算量大的问题，词汇表实在是太大了。这让配分函数的计算量大得就想优化它。只看NCE和Negative Sampling（以下简写为NS），就不说其他的方法了。 NCE和NS刚接触时，看着好像一样一样的。再看，还真是大意了，不够严谨。（废话真多）标准开头假设以下是一个模型，根据上下文 \(c\) 预测词表 \(V\) 中的词

2021-04-08

Notes ML

NCE language model

UDA & MixMatch

UDA & MixMatch

简要记录两种比较新且有实际效果的数据增强方法思路。

2021-03-25

Notes Data Augmentation

data augmentation

Self-supervised methods note

Self-supervised methods note

简要记录从JEM、SupContrast、Momentum Contrast到Simple Siamese的一系列对比学习方法。

2021-03-25

Notes Contrastive Learning

self-supervise contrastive learning

Joint Extraction of Entities and Relations 2020

Joint Extraction of Entities and Relations 2020

记录2020几篇关系抽取论文，包括CasRel、TPlinker和Two-are-better-than-one。其思路很机智。

2021-03-24

Notes NLP

relation extraction