BERT_topic_analysis 简单学习下BERT Topic Analysis的相关内容,看看Kaggle上的代码实验。 2021-07-19 Notes NLP BERT topic model
SimCSE-文本对比学习 文本对比学习不同于图像的一点,就是增广方式。文本随机删除、乱序、替换,好像都可以,但是有没有道理,效果能有多大提升,都不那么清楚。这方面也没有比较公认处理方法流程。 论文 SimCSE (Git),提出一种简单的对比学习方法,直接在BERT类模型之上,使用设计的对比学习损失进行fine tune,取得了比较好的效果。 方法 首先在图像领域使用的对比学习损失公式是 本文提出的方法,不使 2021-06-15 Notes NLP sentence embedding SimCSE
回顾神经网络初始化方法 那么首先我们已经知道,全0或者常数、过大、过小的权重初始化都有梯度消失或者梯度爆炸的问题。而我们所期望的初始化状态是:期望为0,方差在一定范围内,同时尽量保证不同层的权重方差的一致性。这样出现internal covariance shift的可能性会大幅降低。闲来无事,适巧康康。 为了更简洁的期望与方差 首先需要知道期望\(E\)和方差\(Var\)的计算方法,基本公式: \[ Var( 2021-06-14 Notes DL deep learning initialization
Knowledge Distillation Note 知识蒸馏模型采用类似迁移学习的方法,通过采用预先训练好的老师模型(Teacher model)的输出作为监督信号去训练另外一个简单的学生模型(Student model)。 所谓的知识就是从输入向量引至输出向量的节点图。 大概分为三类:知识蒸馏(模型压缩),跨域迁移无标签转换,集成蒸馏。 此处关注知识蒸馏(模型压缩)这一类。 First Step 原文, 综述 1、训练复杂的教 2021-04-18 Notes Distillation knowledge distillation CRD SRRD
再看NCE 概率语言模型,如最大熵模型和概率神经模型,在参数估计时,都有计算量大的问题,词汇表实在是太大了。这让配分函数的计算量大得就想优化它。 只看NCE和Negative Sampling(以下简写为NS),就不说其他的方法了。 NCE和NS刚接触时,看着好像一样一样的。再看,还真是大意了,不够严谨。(废话真多) 标准开头 假设以下是一个模型,根据上下文 \(c\) 预测词表 \(V\) 中的词 2021-04-08 Notes ML NCE language model