Practical BERT BERT类模型,基本使用流程:1. Further pretrain. 2. single-task or multi-task finetuning. 3. inference Further pretraining一般使用任务数据进行,也可以使用与任务数据相似的 in-domain 数据,或者使用数据量更大但是和任务数据不那么相关的数据进行。 一般而言使用任务数据的效果会好一些。但是 2021-07-22 Notes NLP BERT
BERT_topic_analysis 简单学习下BERT Topic Analysis的相关内容,看看Kaggle上的代码实验。 2021-07-19 Notes NLP topic model BERT
SimCSE-文本对比学习 文本对比学习不同于图像的一点,就是增广方式。文本随机删除、乱序、替换,好像都可以,但是有没有道理,效果能有多大提升,都不那么清楚。这方面也没有比较公认处理方法流程。 论文 SimCSE (Git),提出一种简单的对比学习方法,直接在BERT类模型之上,使用设计的对比学习损失进行fine tune,取得了比较好的效果。 方法 首先在图像领域使用的对比学习损失公式是 本文提出的方法,不使 2021-06-15 Notes NLP sentence embedding SimCSE
回顾神经网络初始化方法 那么首先我们已经知道,全0或者常数、过大、过小的权重初始化都有梯度消失或者梯度爆炸的问题。而我们所期望的初始化状态是:期望为0,方差在一定范围内,同时尽量保证不同层的权重方差的一致性。这样出现internal covariance shift的可能性会大幅降低。闲来无事,适巧康康。 为了更简洁的期望与方差 首先需要知道期望\(E\)和方差\(Var\)的计算方法,基本公式: \[ Var( 2021-06-14 Notes DL deep learning initialization
Knowledge Distillation Note 知识蒸馏模型采用类似迁移学习的方法,通过采用预先训练好的老师模型(Teacher model)的输出作为监督信号去训练另外一个简单的学生模型(Student model)。 所谓的知识就是从输入向量引至输出向量的节点图。 大概分为三类:知识蒸馏(模型压缩),跨域迁移无标签转换,集成蒸馏。 此处关注知识蒸馏(模型压缩)这一类。 First Step 原文, 综述 1、训练复杂的教 2021-04-18 Notes Distillation knowledge distillation CRD SRRD