Achieving Cross Modal Generalization with Multimodal Unified Representation
本篇论文映入了一个新的任务叫做跨模态泛化(CMG),他反应了从成对的多模态数据中学习统一离散表示的挑战.在后续的下游任务中,模型可以在只有一模态被标记的任务对其他模态中取得不错的零样本泛化能力.现有的多模态表示学习方法更多的关注粗粒度的对齐或者依靠信息在不同模态中是完全对齐的假设,这种假设在真实世界中并不实际.为了解决这个限制,我们提出了Uni-Code,能够包含两个关键贡献:双重夸模态信息解耦和多模态指数移动平均.这两个贡献促进了多模态的双向监督.并且在共享的离散潜在空间中进行等价语义信息的对齐.从而实现多模态序列的细粒度统一表示.
2038 字
|
10 分钟
Vector Quantization
https://blog.csdn.net/qq_16234613/article/details/79991191 矢量量化(VQ,Vector Quantization)是一种极其重要的信号压缩方法。VQ 在语音信号处理中占十分重要的地位。广泛应用于语音编码、语音识别和语音合成等领域。 他是一种基于块编码规则的有损数据压缩方法,他的基本思想是吧若干个标量数组组合成一个矢量,然后再矢量空间进行整体量化,从而压缩数据而不损失太多信息.
443 字
|
2 分钟
方差 协方差和相关系数
方差(Variance):表示统计量对均值的误差,方差越小离散程度越小,统计量越接近平均値. 协方差(Covariance):表示统计量不同维度之间的误差,衡量该变量不同维度之间的相关性 相关系数(Coefficient):统计学上常用皮尔森相关系数来定义两个维度之间的协方差和标准差的比,度量两个维度的线性相关性,介于[-1,1]之间 当协方差为正时,两个维度呈正相关(同增同减);当协方差为负时,两个维度负相关(一增一减)。将所有将所有维度之间的协方差关系以矩阵的形式表现,即为协方差矩阵。
523 字
|
3 分钟