声明:本文章为机器学习期末作业一部分
WMD距离
我们理解了WMD距离, 那么问题来了, 学习这个权重矩阵用来聚类虽好(告诉我们哪些文档比较相近), 但是, 用来分类却很差!
为什么?因为一些文章虽然近义词很多, 但是表达的不是一个语义和主题。
比如:
I love playing football.
I like playing LOL .
虽然看起来句式差不多, 可能会归为同类, 但是如果打标签时如果是“运动”和”游戏”两类, 显然就不能用WMD直接分类了。因为, WMD没有加入 football和”运动” 是强相关的信息。
SWMD
在SWMD中作者引入了一个监督机制。
给词向量空间引入一个A,定义新的移动代价:
利用线性度量学习算法NCA来学习A,这样就引入了监督机制。
实验结果:
加上了监督机制后错误率还能再下降一个层次。需要指出的是,不能简单地添加基于度量学习的监督矩阵,一方面,在计算过程中梯度可能不存在,另一方面,基于KNN的SWMD将会耗费大量的时间,因此需要采取相关措施来解决这些问题。具体请参考原文。
原文:
Huang G, Guo C, Kusner M J, et al. Supervised word mover's distance[C]//Advances in Neural Information Processing Systems. 2016: 4862-4870.