Racle`s Story
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
  • 说说
  • 友链
  •   
  •   
Knowledge Distillation Note

Knowledge Distillation Note

知识蒸馏模型采用类似迁移学习的方法,通过采用预先训练好的老师模型(Teacher model)的输出作为监督信号去训练另外一个简单的学生模型(Student model)。 所谓的知识就是从输入向量引至输出向量的节点图。 大概分为三类:知识蒸馏(模型压缩),跨域迁移无标签转换,集成蒸馏。 此处关注知识蒸馏(模型压缩)这一类。 First Step 原文, 综述 1、训练复杂的教

2021-04-18
Notes Distillation
knowledge distillation CRD SRRD
再看NCE

再看NCE

概率语言模型,如最大熵模型和概率神经模型,在参数估计时,都有计算量大的问题,词汇表实在是太大了。这让配分函数的计算量大得就想优化它。 只看NCE和Negative Sampling(以下简写为NS),就不说其他的方法了。 NCE和NS刚接触时,看着好像一样一样的。再看,还真是大意了,不够严谨。(废话真多) 标准开头 假设以下是一个模型,根据上下文 \(c\) 预测词表 \(V\) 中的词

2021-04-08
Notes ML
NCE language model
UDA & MixMatch

UDA & MixMatch

简要记录两种比较新且有实际效果的数据增强方法思路。

2021-03-25
Notes Data Augmentation
data augmentation
Self-supervised methods note

Self-supervised methods note

简要记录从JEM、SupContrast、Momentum Contrast到Simple Siamese的一系列对比学习方法。

2021-03-25
Notes Contrastive Learning
self-supervise contrastive learning
Joint Extraction of Entities and Relations 2020

Joint Extraction of Entities and Relations 2020

记录2020几篇关系抽取论文,包括CasRel、TPlinker和Two-are-better-than-one。其思路很机智。

2021-03-24
Notes NLP
relation extraction
jupytext and nbdev

jupytext and nbdev

记录fast.AI团队开源的 jupytext 与 nbdev 工具的配置。

2021-03-24
Tools python
jupyter tools
1…1011121314…19

搜索

qrcode
POWERED BY Hexo Fluid