基于互信息的特征选择算法MATLAB实现

在概率论和信息论中，两个随机变量的互信息（Mutual Information，简称MI）或转移信息（transinformation）是变量间相互依赖性的量度。不同于相关系数，互信息并不局限于实值随机变量，它更加一般且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度。互信息(Mutual Information)是度量两个事件集合之间的相关性(mutual dependence)。互信息最常用的单位是bit。

互信息的定义

正式地，两个离散随机变量 X 和 Y 的互信息可以定义为：

其中 p(x,y) 是 X 和 Y 的联合概率分布函数，而p(x)和p(y)分别是 X 和 Y 的边缘概率分布函数。

在连续随机变量的情形下，求和被替换成了二重定积分：

其中 p(x,y) 当前是 X 和 Y 的联合概率密度函数，而p(x)和p(y)分别是 X 和 Y 的边缘概率密度函数。

互信息量I(xi;yj)在联合概率空间P(XY)中的统计平均值。平均互信息I(X;Y)克服了互信息量I(xi;yj)的随机性,成为一个确定的量。如果对数以 2 为基底，互信息的单位是bit。

直观上，互信息度量 X 和 Y 共享的信息：它度量知道这两个变量其中一个，对另一个不确定度减少的程度。例如，如果 X 和 Y 相互独立，则知道 X 不对 Y 提供任何信息，反之亦然，所以它们的互信息为零。在另一个极端，如果 X 是 Y 的一个确定性函数，且 Y 也是 X 的一个确定性函数，那么传递的所有信息被 X 和 Y 共享：知道 X 决定 Y 的值，反之亦然。因此，在此情形互信息与 Y（或 X）单独包含的不确定度相同，称作 Y（或 X）的熵。而且，这个互信息与 X 的熵和 Y 的熵相同。（这种情形的一个非常特殊的情况是当 X 和 Y 为相同随机变量时。）

互信息是 X 和 Y 联合分布相对于假定 X 和 Y 独立情况下的联合分布之间的内在依赖性。于是互信息以下面方式度量依赖性：I(X; Y) = 0 当且仅当 X 和 Y 为独立随机变量。从一个方向很容易看出：当 X 和 Y 独立时，p(x,y) = p(x) p(y)，因此：

此外，互信息是非负的（即 I(X;Y) ≥ 0; 见下文），而且是对称的（即 I(X;Y) = I(Y;X)）。

更多互信息内容请访问：https://omegaxyz.com/2018/08/02/mi/

互信息特征选择算法的步骤

①划分数据集
②利用互信息对特征进行排序
③选择前n个特征利用SVM进行训练
④在测试集上评价特征子集计算错误率

缺点

此种特征选择方法是最大化特征与分类变量之间的相关度，就是选择与分类变量拥有最高相关度的前k个变量。但是，在特征选择中，单个好的特征的组合并不能增加分类器的性能，因为有可能特征之间是高度相关的，这就导致了特征变量的冗余。

代码

注意使用的数据集是dlbcl，大概五千多维，可以从UCI上下载，最终选择前100特征进行训练。

主函数代码：

clear all
close all
clc;
[X_train,Y_train,X_test,Y_test] = divide_dlbcl();
Y_train(Y_train==0)=-1;
Y_test(Y_test==0)=-1;
% number of features
numF = size(X_train,2);



[ ranking , w] = mutInfFS( X_train, Y_train, numF );
k = 100; % select the Top 2 features
svmStruct = svmtrain(X_train(:,ranking(1:k)),Y_train,'showplot',true);
C = svmclassify(svmStruct,X_test(:,ranking(1:k)),'showplot',true);
err_rate = sum(Y_test~= C)/size(X_test,1); % mis-classification rate
conMat = confusionmat(Y_test,C); % the confusion matrix
fprintf('\nAccuracy: %.2f%%, Error-Rate: %.2f \n',100*(1-err_rate),err_rate);

clear all

close all

clc;

[X_train,Y_train,X_test,Y_test] = divide_dlbcl();

Y_train(Y_train==0)=-1;

Y_test(Y_test==0)=-1;

% number of features

numF = size(X_train,2);

[ ranking , w] = mutInfFS( X_train, Y_train, numF );

k = 100; % select the Top 2 features

svmStruct = svmtrain(X_train(:,ranking(1:k)),Y_train,'showplot',true);

C = svmclassify(svmStruct,X_test(:,ranking(1:k)),'showplot',true);

err_rate = sum(Y_test~= C)/size(X_test,1); % mis-classification rate

conMat = confusionmat(Y_test,C); % the confusion matrix

fprintf('\nAccuracy: %.2f%%, Error-Rate: %.2f \n',100*(1-err_rate),err_rate);

mutInfFS.m

function [ rank , w] = mutInfFS( X,Y,numF )
rank = [];
for i = 1:size(X,2)
    rank = [rank; -muteinf(X(:,i),Y) i];
end;
rank = sortrows(rank,1);	
w = rank(1:numF, 1);
rank = rank(1:numF, 2);

end

function [ rank , w] = mutInfFS( X,Y,numF )

rank = [];

for i = 1:size(X,2)

rank = [rank; -muteinf(X(:,i),Y) i];

end;

rank = sortrows(rank,1);

w = rank(1:numF, 1);

rank = rank(1:numF, 2);

end

muteinf.m

function info = muteinf(A, Y)
n = size(A,1);%实例数量
Z = [A Y];%所有实例的维度值及标签
if(n/10 > 20)
    nbins = 20;
else
    nbins = max(floor(n/10),10);%设置区间的个数
end;
pA = hist(A, nbins);%min(A)到max(A)划分出nbins个区间出来，求每个区间的概率
pA = pA ./ n;%除以实例数量

i = find(pA == 0);
pA(i) = 0.00001;%不能使某一区间的概率为0

od = size(Y,2);%一个维度
cl = od;
%下面是求实例不同标签的的概率值，也就是频率
if(od == 1)
    pY = [length(find(Y==+1)) length(find(Y==-1))] / n;
    cl = 2;
else
    pY = zeros(1,od);
    for i=1:od
        pY(i) = length(find(Y==+1));
    end;
    pY = pY / n;
end;
p = zeros(cl,nbins);
rx = abs(max(A) - min(A)) / nbins;%每个区间长度
for i = 1:cl
    xl = min(A);%变量的下界
    for j = 1:nbins
        if(i == 2) && (od == 1)
            interval = (xl <= Z(:,1)) & (Z(:,2) == -1);
        else
            interval = (xl <= Z(:,1)) & (Z(:,i+1) == +1);
        end;
        if(j < nbins)
            interval = interval & (Z(:,1) < xl + rx);
        end;
        %find(interval)
        p(i,j) = length(find(interval));
        
        if p(i,j) == 0 % hack!
            p(i,j) = 0.00001;
        end
        
        xl = xl + rx;
    end;
end;
HA = -sum(pA .* log(pA));%计算当前维度的信息熵
HY = -sum(pY .* log(pY));%计算标签的信息熵
pA = repmat(pA,cl,1);
pY = repmat(pY',1,nbins);
p = p ./ n;
info = sum(sum(p .* log(p ./ (pA .* pY))));
info = 2 * info ./ (HA + HY);%计算互信息

function info = muteinf(A, Y)

n = size(A,1);%实例数量

Z = [A Y];%所有实例的维度值及标签

if(n/10 > 20)

nbins = 20;

else

nbins = max(floor(n/10),10);%设置区间的个数

end;

pA = hist(A, nbins);%min(A)到max(A)划分出nbins个区间出来，求每个区间的概率

pA = pA ./ n;%除以实例数量

i = find(pA == 0);

pA(i) = 0.00001;%不能使某一区间的概率为0

od = size(Y,2);%一个维度

cl = od;

%下面是求实例不同标签的的概率值，也就是频率

if(od == 1)

pY = [length(find(Y==+1)) length(find(Y==-1))] / n;

cl = 2;

else

pY = zeros(1,od);

for i=1:od

pY(i) = length(find(Y==+1));

end;

pY = pY / n;

end;

p = zeros(cl,nbins);

rx = abs(max(A) - min(A)) / nbins;%每个区间长度

for i = 1:cl

xl = min(A);%变量的下界

for j = 1:nbins

if(i == 2) && (od == 1)

interval = (xl <= Z(:,1)) & (Z(:,2) == -1);

else

interval = (xl <= Z(:,1)) & (Z(:,i+1) == +1);

end;

if(j < nbins)

interval = interval & (Z(:,1) < xl + rx);

end;

%find(interval)

p(i,j) = length(find(interval));

if p(i,j) == 0 % hack!

p(i,j) = 0.00001;

end

xl = xl + rx;

end;

HA = -sum(pA .* log(pA));%计算当前维度的信息熵

HY = -sum(pY .* log(pY));%计算标签的信息熵

pA = repmat(pA,cl,1);

pY = repmat(pY',1,nbins);

p = p ./ n;

info = sum(sum(p .* log(p ./ (pA .* pY))));

info = 2 * info ./ (HA + HY);%计算互信息

前100个特征的效果：

Accuracy: 86.36%, Error-Rate: 0.14

选择前两个特征进行训练（压缩率接近100%,把上述代码中的K设为2即可）的二维图：

Accuracy: 75.00%, Error-Rate: 0.25

数据集：https://github.com/xyjigsaw/Dataset

44 评论

GinoZ

2024-04-18 / 10:49 回复

请问info是互信息，第二行代码是不是用于将互信息归一化为[0,1]？
info = sum(sum(p .* log(p ./ (pA .* pY))));
info = 2 * info ./ (HA + HY);%计算互信息
- xyjisaw
  
  2024-06-27 / 15:31 回复
  
  你好，可以这么理解的
Zhao Mo

2023-04-11 / 11:13 回复

您好，请问最后两张图是如何做出来的？我用的基本方式没出来图
- xyjisaw
  
  2023-04-11 / 20:48 回复
  
  你好，这三个文件同时保存到本地可以生成最后一张图。
yaqi

2022-10-19 / 10:43 回复

您好，方便发一下dlbcl的数据集吗？github上面那个打不开，请博主发一份yq13835520722@163.com，非常感谢！！
姜芷七

2021-12-10 / 10:13 回复

请问可以提供dlbcl数据集吗？谢谢，1040634393@qq.com.
- xyjisaw
  
  2021-12-10 / 10:20 回复
  
  可以的，数据集已经上传到https://github.com/xyjigsaw/Dataset
权学烽

2021-06-01 / 10:49 回复

我想问下，我的数据是有文本和数字的，这个人是A类人，影响因素有男/女，学历（高中/本科/研究生），民族（汉/藏/。。。），年龄（56），这样的混合数据怎么处理呢，我看你自己用的那个数据集都是数字
- 权学烽
  
  2021-06-01 / 10:51 回复
  
  我想看看这些因素是如何影响这个人的类型的，比如有A,B,C,D四类，这些因素不同可以导致这个人的类型不同，然后计算相关性
  - xyjisaw
    
    2021-06-01 / 13:07 回复
    
    特征离散化
xynnn

2021-04-06 / 19:39 回复

博主还在吗。。。可以给我发一份数据集吗？1160788784@qq.com 万分感谢！
- xynnn
  
  2021-04-06 / 19:44 回复
  
  是想要dlbcl的数据集，谢谢博主！
  - xyjisaw
    
    2021-04-07 / 10:30 回复
    
    在这个里面，https://github.com/xyjigsaw/Dataset
周竑虎

2020-09-18 / 20:34 回复

rank = [rank; -muteinf(X(:,i),Y) i];这个地方的-muteinf(X(:,i),Y) i代码是不是有错误啊？？
大凡

2020-03-27 / 09:14 回复

麻烦可以提供一下dlbcl数据集吗，874176332@qq.com 谢谢
- 大凡
  
  2020-03-27 / 09:15 回复
  
  网址打不开
  - xyjisaw
    
    2020-03-27 / 09:22 回复
    
    多刷新几次就打开了
    - 大凡
      
      2020-03-27 / 09:39 回复
      
      还是不行，换了好几个浏览器也不行
  - xyjisaw
    
    2020-03-27 / 09:37 回复
    
    刚刚看到消息，github被劫持了，等待一段时间即可恢复访问。
    - 大凡
      
      2020-03-27 / 09:39 回复
      
      OK
谢谢了

2020-03-02 / 21:55 回复

您好，方便提供一下数据集吗？我也没找到。
- 谢谢了
  
  2020-03-02 / 21:56 回复
  
  1392350692@qq.com
- xyjisaw
  
  2020-03-03 / 09:16 回复
  
  数据集已上传至：https://github.com/xyjigsaw/Dataset
匿名

2020-01-14 / 16:31 回复

请问可以提供dlbcl数据集吗？谢谢，616837919@qq.com.
- xyjisaw
  
  2020-01-14 / 16:39 回复
  
  已发送
匿名

2020-01-03 / 13:13 回复

能否提供一下dlbcl数据集，网上没找到，还请博主发一下sghhrzq@163.com。谢谢了
江川

2019-10-07 / 20:36 回复

博主，您好，您用过互信息来将特征分为几个组吗
- 江川
  
  2019-10-07 / 21:47 回复
  
  另外，能否提供一下dlbcl数据集，网上没找到，还请博主发一下1159668795@qq.com。谢谢了
  - xyjisaw
    
    2019-10-08 / 22:25 回复
    
    已发
- xyjisaw
  
  2019-10-08 / 22:25 回复
  
  找相关论文
匿名

2019-07-19 / 18:31 回复

数据集10折划分函数中Indices是单独设的吗
- xyjisaw
  
  2019-07-20 / 09:32 回复
  
  那个函数自动的不用管它
  - 匿名
    
    2019-07-20 / 11:08 回复
    
    谢谢了我还有一个问题就是在muteinf这个函数中，最后两句代码，info = sum(sum(p .* log(p ./ (pA .* pY))));
    info = 2 * info ./ (HA + HY);%计算互信息，前一个已经计算出来了两个向量的互信息了，最后一句是什么意思啊
一帆

2019-06-26 / 17:42 回复

博主您好如果想实验自己的数据集应该怎么改呀我的数据集是.mat格式。小白一只还请解答~^^
空白

2019-06-25 / 22:02 回复

为什么divide那个函数用不了
- xyjisaw
  
  2019-06-26 / 12:47 回复
  
  这是我自己写的划分数据集的函数，输出是测试集，训练集，测试集标签和训练集标签。
  - 空白
    
    2019-06-26 / 16:52 回复
    
    划分数据集的函数能给我发一下吗
cxl

2019-02-21 / 09:55 回复

您好，方便提供下dlbcl数据集吗？
Xiaolong Chen

2019-02-21 / 09:53 回复

您好，方便提供下dlbcl数据集吗
ccc

2019-02-20 / 16:57 回复

您好，没能在uci上找到dlbcl数据集，能麻烦您提供一下网址吗，非常感谢
- xyjisaw
  
  2019-02-20 / 23:01 回复
  
  请提供邮箱地址
陈华

2018-08-13 / 06:49 回复

dlbcl 数据集没找到，能发一份吗？谢谢

基于互信息的特征选择算法MATLAB实现

互信息的定义

互信息特征选择算法的步骤

缺点

代码

大模型AlpacaFarm分析

NLG文本评估任务或许并不需要真值或参考文本

大模型中的RepE表征工程

大模型也是一种优化器（LLM as Optimizer）

全栈开发与快速部署Demo

学术idea自动发现与生成

自回归语言模型（language model）Python实现

粉丝期待的三体电影宇宙（近四十部电影与电视剧集）

基于历史对比学习的时序知识图谱推理

泰拉瑞亚Terriaria快速部署Linux服务器

44 评论

留下评论取消回复

互信息的定义

互信息特征选择算法的步骤

缺点

代码

相关文章

44 评论

留下评论取消回复