基于有监督的词移距离(SWMD)简介

声明:本文章为机器学习期末作业一部分

WMD距离

基于WMD(词移距离)的句子相似度分析简介

我们理解了WMD距离, 那么问题来了, 学习这个权重矩阵用来聚类虽好(告诉我们哪些文档比较相近),  但是,  用来分类却很差!

为什么?因为一些文章虽然近义词很多, 但是表达的不是一个语义和主题。

比如:

I love playing football.

I like playing LOL .

虽然看起来句式差不多, 可能会归为同类, 但是如果打标签时如果是“运动”和”游戏”两类, 显然就不能用WMD直接分类了。因为, WMD没有加入 football和”运动” 是强相关的信息。

SWMD

在SWMD中作者引入了一个监督机制。

给词向量空间引入一个A,定义新的移动代价:

利用线性度量学习算法NCA来学习A,这样就引入了监督机制。

实验结果:

加上了监督机制后错误率还能再下降一个层次。需要指出的是,不能简单地添加基于度量学习的监督矩阵,一方面,在计算过程中梯度可能不存在,另一方面,基于KNN的SWMD将会耗费大量的时间,因此需要采取相关措施来解决这些问题。具体请参考原文。

原文:

Huang G, Guo C, Kusner M J, et al. Supervised word mover's distance[C]//Advances in Neural Information Processing Systems. 2016: 4862-4870.

留下评论

您的邮箱地址不会被公开。 必填项已用 * 标注