Embedding & Searching

Embedding & Searching

相似性搜索常见于以图搜图，听歌识曲...这类抽象查找问题中。你没有明确的Key，不能使用SQL之类的方法查找数据库。但是可以通过抽象的 embedding 向量来进行检索。一般样本向量表示可以通过 Skip-gram with negative sampling 方法、DSSM 这类方法、BERT 这类方法等等。得到向量表达之后，一般还需要高效的召回索引方法，因为暴力匹配在较大数据量场景下

2021-09-05

Notes NLP

searching

Practical BERT

Practical BERT

BERT类模型，基本使用流程：1. Further pretrain. 2. single-task or multi-task finetuning. 3. inference Further pretraining一般使用任务数据进行，也可以使用与任务数据相似的 in-domain 数据，或者使用数据量更大但是和任务数据不那么相关的数据进行。一般而言使用任务数据的效果会好一些。但是

2021-07-22

Notes NLP

BERT

BERT_topic_analysis

BERT_topic_analysis

简单学习下BERT Topic Analysis的相关内容，看看Kaggle上的代码实验。

2021-07-19

Notes NLP

topic model BERT

Jacobi BP整理

Jacobi BP整理

从Jabobi Matrix角度，梳理神经网络反向传播过程。

2021-06-18

Notes DL

BP deep learning

SimCSE-文本对比学习

SimCSE-文本对比学习

文本对比学习不同于图像的一点，就是增广方式。文本随机删除、乱序、替换，好像都可以，但是有没有道理，效果能有多大提升，都不那么清楚。这方面也没有比较公认处理方法流程。论文 SimCSE (Git)，提出一种简单的对比学习方法，直接在BERT类模型之上，使用设计的对比学习损失进行fine tune，取得了比较好的效果。方法首先在图像领域使用的对比学习损失公式是本文提出的方法，不使

2021-06-15

Notes NLP

sentence embedding SimCSE

回顾神经网络初始化方法

回顾神经网络初始化方法

那么首先我们已经知道，全0或者常数、过大、过小的权重初始化都有梯度消失或者梯度爆炸的问题。而我们所期望的初始化状态是：期望为0，方差在一定范围内，同时尽量保证不同层的权重方差的一致性。这样出现internal covariance shift的可能性会大幅降低。闲来无事，适巧康康。为了更简洁的期望与方差首先需要知道期望\(E\)和方差\(Var\)的计算方法，基本公式： \[ Var(

2021-06-14

Notes DL

deep learning initialization