摘要

我们根据Generative Adversarial Nets提出了一个数据补全方法:Generative Adversarial Imputation Nets (GAIN)。其中,generator (G) 根据已有的真实观测值向量,有条件的进行补全,并输出一个完整的向量。Discriminator (D) 根据完整向量尝试区分真实数据和补全数据。为了确保 D 令 G 学习期望的数据分布,我们向 D 提供了 hint vector。Hint 向D提供了原始数据缺失的部分信息,用来提升D对后续插补部分的关注。hint 保证了G 能够根据真实数据分布进行学习。我们在不同的数据集上测试了GAIN,结果显示其效果显著优于当前SOTA

背景

简单背景,数据缺失无处不在

数据缺失的类型:MCAR, MAR,MNAR

当前方法:

drawback: ...

GAIN:

generator: 尽可能准确地进行数据补全, 尽可能增大D的分类误差

discriminator: 区分补全和真实数据, 尽可能的减少分类loss(某个entry是补全 or 真实的分类)

就像一个正常的GAN一样去train

问题定义

$\chi = \chi_{1} \times \dots \times \chi_{d}$

${\mathbf{X}} = (X_{1}, \dots, X_{d})$

${\mathbf{X}}$ 中连续或离散的在对应位置占有 $\chi$ 的值,分布为 $P({\mathbf{X}})$

${\mathbf{M}} = (M_{1}, \dots, M_{d})$

${\mathbf{M}}$ 中的值为 0/1