Embedding & Searching 相似性搜索常见于以图搜图,听歌识曲...这类抽象查找问题中。你没有明确的Key,不能使用SQL之类的方法查找数据库。但是可以通过抽象的 embedding 向量来进行检索。 一般样本向量表示可以通过 Skip-gram with negative sampling 方法、DSSM 这类方法、BERT 这类方法等等。得到向量表达之后,一般还需要高效的召回索引方法,因为暴力匹配在较大数据量场景下 2021-09-05 Notes NLP searching
Practical BERT BERT类模型,基本使用流程:1. Further pretrain. 2. single-task or multi-task finetuning. 3. inference Further pretraining一般使用任务数据进行,也可以使用与任务数据相似的 in-domain 数据,或者使用数据量更大但是和任务数据不那么相关的数据进行。 一般而言使用任务数据的效果会好一些。但是 2021-07-22 Notes NLP BERT