Embedding & Searching 相似性搜索常见于以图搜图,听歌识曲...这类抽象查找问题中。你没有明确的Key,不能使用SQL之类的方法查找数据库。但是可以通过抽象的 embedding 向量来进行检索。 一般样本向量表示可以通过 Skip-gram with negative sampling 方法、DSSM 这类方法、BERT 这类方法等等。得到向量表达之后,一般还需要高效的召回索引方法,因为暴力匹配在较大数据量场景下 2021-09-05 Notes NLP searching
Practical BERT BERT类模型,基本使用流程:1. Further pretrain. 2. single-task or multi-task finetuning. 3. inference Further pretraining一般使用任务数据进行,也可以使用与任务数据相似的 in-domain 数据,或者使用数据量更大但是和任务数据不那么相关的数据进行。 一般而言使用任务数据的效果会好一些。但是 2021-07-22 Notes NLP BERT
BERT_topic_analysis 简单学习下BERT Topic Analysis的相关内容,看看Kaggle上的代码实验。 2021-07-19 Notes NLP topic model BERT
SimCSE-文本对比学习 文本对比学习不同于图像的一点,就是增广方式。文本随机删除、乱序、替换,好像都可以,但是有没有道理,效果能有多大提升,都不那么清楚。这方面也没有比较公认处理方法流程。 论文 SimCSE (Git),提出一种简单的对比学习方法,直接在BERT类模型之上,使用设计的对比学习损失进行fine tune,取得了比较好的效果。 方法 首先在图像领域使用的对比学习损失公式是 本文提出的方法,不使 2021-06-15 Notes NLP sentence embedding SimCSE