Self-supervised methods note

JEM

paper, link

Google

建模联合概率，factorize为监督部分和非监督部分。同时论文指出从y开始factorize的话，效果会下降。

energy部分使用 Stochastic Gradient Langevin Dynamics （SGLD）对生成数据采样，最小化其energy

framework：

达到效果：提高了 calibration（输出与真实分布具有一致性）, robustness, 和out-of-distribution detection方面的性能。

问题：训练自然会变慢（CIFAR10一个epoch为半个小时），另外就是不稳定，SGLD采样使用随机数据开始。

JEM采样方式来自 Implicit Generation and Modeling with EBM

Buffer Sample

igebm-pytorch， link，Google

先比于VAE和GAN，是一种根据energy采样的隐式采样，使用一个主网络，可以将生成的限制和目标构建成损失函数。但是生成样本分布需要更多的计算迭代次数。

energy based采样主要是高维数据采样困难。真实图片分布在high energy区域，噪声图片分布在low energy区域。

方法：

随机输入开始
使用模型输出 + SGLD迭代采样出sample i
将更新过的sample i重新写入buffer
2、3步迭代 K 次。K不能太小。论文中60，JEM 20

SGLD：

SupContrast

paper，git，Google

contrastive learning一般的方式是，先数据增广，然后通过模型识别出来自同一张图的输入，将不是来自同一张图的输入的相似度变小。

Supervised Contrastive Learning将识别对象变为同一类图片，而不是同一张图片。

损失函数定义为：

论文中还有另一种形式的L，但是效果不好。

通过引入标签数据，计算同一类图片的相似度。在计算损失时，处理同一类图片方法如下

...
# 将相同label的mask出来
mask = torch.eq(labels, labels.T).float()

# tile mask：增广数据shape匹配
mask = mask.repeat(anchor_count, contrast_count)

# mask-out 自己对自己位置进行mask
logits_mask = torch.scatter(
    torch.ones_like(mask),
    1,
    torch.arange(batch_size * anchor_count).view(-1, 1).to(device),
    0
)
mask = mask * logits_mask
...

模型训练分为两个阶段。如果只是训练一个encoder，只需要第一阶段。若是要进行分类任务，需要固定encoder训练第二阶段分类器。

实验结果：模型对超参数的敏感性降低，使用Supervised Contrastive Loss能够提升分类准确率（论文中在Imagenet等多个数据集上进行了实验）。

Hybrid Discriminative-Generative

paper，git, UCB

通过对比学习contrastive learning，混合监督与非监督一起训练。和Supervised Contrastive Learning中的encoder框架不同，没有两个编码的 contrastive 计算。从

变为：

只有一个f(x)编码，和 label y。

这个和 cross entropy 有点像。但是数据来源不同，这里数据是来自K大小的 normalization samples，也是来自SGLD方法中设计的buffer。

这个方法也是针对loss进行变化：

计算两个部分的cross entropy loss。

论文结果，相比于JEM，在CIFAR10上的效果，有一定提升

提高了 calibration, robustness, 和out-of-distribution detection方面的性能。

同时K越大，效果越好。“有钱人的游戏”。

Momentum Contrast

paper，git，FB

PyContrast：pytorch implementation of a set of (improved) SoTA methods using the same training and evaluation pipeline.

首先contrastive loss 计算的一般框架：

就是 k+1个softmax分类器。

目前的训练方式：

end to end：输入一个batch，进行数据增广，然后优化来自同一张图片的相似度。如果有多个类，那么一个batch的数据，覆盖的类是有限的。
memory bank: 使用一个encoder，构建memory bank（样本的vector表示集合），随机抽取batch size个数据，与query正例计算loss。然后再更新memory bank中的样本表达数据。如此循环。
MoCo：使用一个大小为k的queue，出队batch size个数据经过 momentum encoder，与query正例计算loss。然后使用 encoder的参数，以一定 momentum 更新 momentum encoder参数。重新入队batch size个样本。